Использование SMOTE для генерации синтетических данных с целью улучшения производительности на несбалансированных данных

Question 1

В настоящее время у меня есть набор данных с 21392 образцами, из которых 16948 относятся к мажоритарному классу (класс A), а оставшиеся 4444 – к миноритарному классу (класс B). В настоящее время я использую SMOTE (Метод синтетического увеличения миноритарных классов) для генерации синтетических данных, но не уверен, какой процент синтетических образцов следует генерировать, чтобы обеспечить хорошую классификационную производительность моделей машинного/глубокого обучения.

У меня есть несколько вариантов на уме: 1. Первый вариант – сгенерировать 21392 новых образца, из которых 16904 будут основными образцами класса A, а оставшиеся 4488 – миноритарными образцами класса B. Затем объединить оригинальные и синтетически сгенерированные новые образцы. Однако я считаю, что ключевой недостаток этого подхода заключается в том, что процент миноритарных образцов в моем общем наборе данных (оригинальные + новые) останется более-менее прежним, что, по моему мнению, противоречит цели увеличения миноритарных образцов. 2. Второй вариант – сгенерировать 21392 новых образца, из которых 16904 будут основными и 4488 – миноритарными образцами. Затем объединить только оригинальные данные с новыми сгенерированными миноритарными образцами. Таким образом, процент миноритарных (класс B) образцов в моих общих данных увеличится (с 4444/21392 = 20.774 % до (4444+4488)/(21392+4488) = 34.513 %. Я считаю, что это и есть цель SMOTE (увеличить количество миноритарных образцов и уменьшить дисбаланс в общем наборе данных).

Я довольно нов в использовании SMOTE и буду очень признателен за любые предложения/комментарии о том, какой из этих 2 вариантов вы считаете лучшим, или о любом другом варианте, который я мог бы рассмотреть.

Question 2

Прежде всего, вам нужно разделить ваш набор данных на обучающую и тестовую выборки, прежде чем выполнять какое-либо увеличение/уменьшение выборки. Если вы примените любую стратегию на основе ваших подходов, а затем разделите данные, вы создадите предвзятость в вашей модели, и это неправильно, так как вы вводите точки в вашу будущую тестовую выборку, которых не существует, и ваши оценки производительности будут неточными.

После разделения ваших данных вы будете использовать только SMOTE на обучающем наборе. Если вы используете SMOTE из imblearn, он автоматически сбалансирует классы для вас. Кроме того, вы можете использовать некоторые параметры, чтобы изменить это, если не хотите идеального баланса, или попробовать различные стратегии.

ADASYN

Таким образом, у вас будет что-то вроде этого:

from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE

X_train, X_test, y_train, y_test = train_test_split(X, y, split_size=0.3)
X_resample, y_resampled = SMOTE().fit_resample(X_train, y_train)

Затем вы продолжаете обучать вашу модель на X_resample, y_resample. В данном случае X – это ваша матрица признаков, а y – ваши целевые метки.

Использование SMOTE для генерации синтетических данных с целью улучшения производительности на несбалансированных данных

Вопрос или проблема

Ответ или решение