Data Science
Вопрос о коллапсировании переменной и сверхвыборке меньшинств.
00
Вопрос или проблема У меня есть несбалансированные данные, состоящие из девяти классов, и я планирую объединить их в два класса. Я провел стратифицированную (пропорциональную) выборку между тестовыми, валидационными и обучающими наборами данных в соответствии с девятью классами.
Data Science
Как правильно реализовать случайную недовыборку во время кросс-валидации в Orange
00
Вопрос или проблема Я работаю над существенно несбалансированным набором данных для обнаружения мошенничества (класс 0: 284315 экземпляров, класс 1: 492 экземпляра) и пытаюсь правильно реализовать случайную недовыборку во время перекрестной проверки в Orange.
Data Science
ROC против PR-score и несбалансированные наборы данных
00
Вопрос или проблема Я вижу повсюду, что когда набор данных несбалансирован, PR-AUC является лучшим показателем производительности, чем ROC. Из моего опыта, если положительный класс является наиболее важным и в наборе данных процент положительного класса
Data Science
Почему понижение частоты дискредитации приводит к тому, что классификация предсказывает только один класс?
00
Вопрос или проблема У меня есть задача классификации с несколькими классами. Она работает довольно хорошо, но на наименее представленных классах — нет. Действительно, вот распределение: А вот результаты классификации моего предыдущего алгоритма (я убрал цифры с меток): .
Data Science
Уделите больше внимания признакам, основываясь на графике распределения.
00
Вопрос или проблема У меня есть задача предсказать бинарную переменную purchase, их датасет сильно несбалансирован (10:100), и модели, которые я пробовал до сих пор (в основном ансамблевые), не справляются. Кроме того, я также пытался применить SMOTE
Data Science
Могу ли я использовать макро-отзыв, чтобы проверить, переобучается ли моя модель RF?
00
Вопрос или проблема У меня есть набор данных с 837377 наблюдениями (51% для обучения, 25% для валидации и 24% для тестирования) и 19 признаков. Я вычислил показатель полноты, используя среднее по макро для обучения, валидации и тестирования, и получил
Data Science
Как эффективно оценить модель с сильно несбалансированным и ограниченным набором данных
00
Вопрос или проблема Большинство вопросов о дисбалансе данных на этом сайте касаются того, как обучить лучшую модель, но я склонен считать, что другая проблема заключается в том, как определить “лучшую” модель (т.е.
Data Science
Переобученная модель дает схожий AUC на тестовом наборе данных, так какую модель мне выбрать?
00
Вопрос или проблема Я пытался сравнить эффект выполнения GridSearchCV на наборе данных, который был перераспределен до и после выбора обучающих фолдов. Метод перераспределения, который я использовал, был случайным перераспределением.
Data Science
Несбалансированность классов в наборе данных изображений
00
Вопрос или проблема Когда я работаю с несбалансированным набором данных, меня учили делать оверсэмплинг только для обучающей выборки, а не для всего набора данных, чтобы избежать переобучения, однако это касалось структурированных текстовых данных в pandas
Data Science
Веса классов для несбалансированных данных в задачах с множественными метками
00
Вопрос или проблема Я пытаюсь обучить CNN для задачи многоклассовой – многометочной классификации (20 классов, каждый образец может принадлежать 1+ меткам), и набор данных сильно несбалансирован. В случаях с одной меткой я бы использовал функцию
Data Science
Учитывая стоимость экземпляра в обучении?
00
Вопрос или проблема Я обычно стараюсь учитывать расходы в обучении. Настройка следующая: задача статистического обучения с обычными X и y, где y несбалансирован (примерно 1% единиц). Scikit learn обычно предлагает параметры весов, где вы можете установить
Data Science
Как определить класс меньшинства/большинства в задаче многоклассовой классификации
00
Вопрос или проблема Я изучаю классификацию в несбалансированных наборах данных и учусь стратегиям недо/переполнения выборки как способу решения этой проблемы. Хотя в литературе согласны с тем, что нужно переполнять «миноритарные» классы и недополнять
Data Science
плохая регрессионная производительность на несбалансированном наборе данных
00
Вопрос или проблема Мой текущий набор данных имеет форму 5300 строк на 160 столбцов с числовой целевой переменной в диапазоне=[641, 3001]. Это не большой набор данных, но в общем должно быть достаточно для достойного качества регрессии.
Data Science
GridSearch CV: Подходящие метрики оценки для несбалансированных наборов данных
00
Вопрос или проблема Я новичок в машинном обучении. Это мой $1^{st}$ проект в области машинного обучения, и я работаю над классификацией на несбалансированном наборе данных. В целевой переменной также имеется несколько классов.
Data Science
Будет ли классификатор, обученный на недообученных данных, давать точные прогнозы на новых несбалансированных данных?
00
Вопрос или проблема У меня есть набор данных с примерно 200 000 записей. Целевая переменная бинарная, и только 4000 экземпляров принадлежат классу интереса. Я хотел бы уменьшить число экземпляров большинства, чтобы получить набор данных с 8000 записей
Data Science
Полунадзорное обнаружение аномалий
00
Вопрос или проблема В настоящее время я исследую методы обнаружения аномалий для своей работы, и, в основном, я изучил метод локального фактора аномалий и изоляционные леса, оба метода являются неконтролируемыми. Дело в том, что может возникнуть ситуация
Data Science
Интерпретация метрик оценки для несбалансированного набора данных
00
Вопрос или проблема В настоящее время я занимаюсь задачей классификации для чрезмерно несбалансированного набора данных. Более конкретно, это набор данных для обнаружения мошенничества с примерно 290 тысячами строк данных, с распределением 99,8% для класса
Data Science
Как мне справиться с несбалансированными классами в задаче предсказания фондового рынка?
00
Вопрос или проблема Я работаю над моделью предсказания, чтобы определить, нужно ли продавать, удерживать или покупать акцию через n дней. Каждый день (или строка в наборе данных) я классифицирую, нужно ли продавать, удерживать или покупать, основываясь
Data Science
Когда использование весов классов плохо?
00
Вопрос или проблема У меня есть база данных с 50 разными классами. Один из классов содержит в 10 раз больше данных, чем другие классы. Каждый класс имеет ~20K образцов, а “большой” класс имеет ~200K образцов. При обучении модели классификации
Data Science
Можно ли перекалибровать предсказанные вероятности после использования весов классов?
00
Вопрос или проблема У меня есть классификационные данные с гораздо большим количествомNegative instances чем положительных. Я использовал вес классов в своих моделях и достиг желаемой дискриминации, но предсказанные вероятности из моделей не соответствуют