Data Science
Уделите больше внимания признакам, основываясь на графике распределения.
00
Вопрос или проблема У меня есть задача предсказать бинарную переменную purchase, их датасет сильно несбалансирован (10:100), и модели, которые я пробовал до сих пор (в основном ансамблевые), не справляются. Кроме того, я также пытался применить SMOTE
Data Science
Как эффективно оценить модель с сильно несбалансированным и ограниченным набором данных
00
Вопрос или проблема Большинство вопросов о дисбалансе данных на этом сайте касаются того, как обучить лучшую модель, но я склонен считать, что другая проблема заключается в том, как определить “лучшую” модель (т.е.
Data Science
Оранжевая добыча данных: Балансировка набора данных с использованием кода imblearn
00
Вопрос или проблема Я использую несбалансированный набор данных. Я хотел переполнить свой набор данных, используя скрипт на Python (Скрипт для устранения дисбаланса классов в Biolabs Orange). Однако он все равно выдает мне ошибку "Нет модуля с именем imblearn".
Data Science
Нужно ли использовать AUPRC для отчетности о результатах классификации на несбалансированном наборе данных, если модель была обучена с использованием увеличения выборки и кросс-валидации?
00
Вопрос или проблема Я работаю над задачей бинарной классификации, в которой в датасете содержится около 5% положительных классов. Я разделил датасет на 70% для обучения и 30% для тестирования. Я использовал тестовые данные только один раз для оценки производительности модели.
Data Science
Увеличение выборки при прогнозировании непрерывной переменной
00
Вопрос или проблема Предположим, я предсказываю цены на продажу домов (непрерывные значения) и у меня есть несколько независимых переменных (числовых и категориальных). Является ли обычной практикой балансировка набора данных, когда категориальные независимые
Data Science
Как использовать SMOTENC внутри конвейера?
00
Вопрос или проблема Я был бы очень признателен, если бы вы могли сообщить мне, как использовать SMOTENC. Я написал: num_indices1 = list(X.iloc[:,np.r_[0:94,95,97,100:123]].columns.values) cat_indices1 = list(X.iloc[:,np.r_[94,96,98,99,123:160]].