imbalanced-learn - ответы на вопросы

Data Science

Обработка несбалансированных наборов данных в Orange

00

Вопрос или проблема Я работаю в медицинской сфере, поэтому дисбаланс классов – это правило, а не исключение. Хотя я знаю, что в Python есть пакеты для работы с дисбалансом классов, я не вижу в Orange, например, виджета SMOTE.

Data Science

Уделите больше внимания признакам, основываясь на графике распределения.

00

Вопрос или проблема У меня есть задача предсказать бинарную переменную purchase, их датасет сильно несбалансирован (10:100), и модели, которые я пробовал до сих пор (в основном ансамблевые), не справляются. Кроме того, я также пытался применить SMOTE

Data Science

Как эффективно оценить модель с сильно несбалансированным и ограниченным набором данных

00

Вопрос или проблема Большинство вопросов о дисбалансе данных на этом сайте касаются того, как обучить лучшую модель, но я склонен считать, что другая проблема заключается в том, как определить “лучшую” модель (т.е.

Data Science

Оранжевая добыча данных: Балансировка набора данных с использованием кода imblearn

00

Вопрос или проблема Я использую несбалансированный набор данных. Я хотел переполнить свой набор данных, используя скрипт на Python (Скрипт для устранения дисбаланса классов в Biolabs Orange). Однако он все равно выдает мне ошибку "Нет модуля с именем imblearn".

Data Science

Нужно ли использовать AUPRC для отчетности о результатах классификации на несбалансированном наборе данных, если модель была обучена с использованием увеличения выборки и кросс-валидации?

00

Вопрос или проблема Я работаю над задачей бинарной классификации, в которой в датасете содержится около 5% положительных классов. Я разделил датасет на 70% для обучения и 30% для тестирования. Я использовал тестовые данные только один раз для оценки производительности модели.

Data Science

Увеличение выборки при прогнозировании непрерывной переменной

00

Вопрос или проблема Предположим, я предсказываю цены на продажу домов (непрерывные значения) и у меня есть несколько независимых переменных (числовых и категориальных). Является ли обычной практикой балансировка набора данных, когда категориальные независимые

Data Science

Как использовать SMOTENC внутри конвейера?

00

Вопрос или проблема Я был бы очень признателен, если бы вы могли сообщить мне, как использовать SMOTENC. Я написал: num_indices1 = list(X.iloc[:,np.r_[0:94,95,97,100:123]].columns.values) cat_indices1 = list(X.iloc[:,np.r_[94,96,98,99,123:160]].