Data Science
Найти повторяющиеся даты в небольшом наборе (и избавиться от неповторяющихся)
00
Вопрос или проблема Мне нужна помощь в анализе проблемы категоризации. Дан набор дат (небольшой набор: максимум 20 элементов), я хотел бы сгруппировать даты, которые равномерно распределены (с учетом допустимой погрешности). Это могут быть, например
Data Science
Нестированная кросс-валидация: ошибка обобщения для нескольких моделей
00
Вопрос или проблема Я имею в виду этот вопрос: Вложенная кросс-валидация и выбор лучшей модели регрессии – является ли это правильным процессом SKLearn? В ответах говорится, что вложенная кросс-валидация может оценивать ошибку обобщения оптимизации
Data Science
Реализация LDA (Скрытое распределение Дирихле) для задач классификации
00
Вопрос или проблема До сих пор я использовал LDA только для моделирования тем. Мне хотелось бы узнать, какая самая простая реализация алгоритма LDA для задач классификации. Вы можете использовать LDA на ваших обучающих данных, чтобы построить их темпредставление
Data Science
Анализ проблем с производительностью алгоритма Random Forest
00
Вопрос или проблема Моя задача — выявить потенциальные ситуации для торговли и определить, сможет ли кандидат добиться успеха или нет. У меня есть система для идентификации кандидатов, но уровень ложных срабатываний очень высок.
Data Science
Как определить самые эффективные группы в серии
00
Вопрос или проблема Не уверена, что это правильное место для данного вопроса, но на примере следующей тенденции, как я могу определить, что группы A и B являются областями, где результат был наилучшим? Я уже пробовала делать среднее значение и находить все, что выше среднего.
Data Science
Сравнение значений кросс-валидации Бернулли NB и Мультиномиального NB
00
Вопрос или проблема Я тестирую многомерный наивный байесовский классификатор и бернуллиевский наивный байесовский классификатор на своем наборе данных и использую оценку кросс-валидации, чтобы лучше понять, какой из двух алгоритмов работает лучше.
Data Science
Классификация по данным о движении
00
Вопрос или проблема Сводка вопроса: Как можно выполнить задачу классификации индивидуумов по их данным о движении/позиции? У меня нет набора данных (в голове), но я буду делать вид, что он у меня есть, чтобы сделать мой вопрос немного более конкретным
Data Science
Переходное обучение между языковой моделью и классификацией
00
Вопрос или проблема Следуя этой лекции fast.ai, я пытаюсь понять механизм переноса обучения (Transfer Learning) в обработке естественного языка (NLP) от общего языкового моделирования (LM) к задаче классификации. Что именно берется из обучения языковой модели?
Data Science
Гарантируют ли классовые веса калибровку?
00
Вопрос или проблема Существует возможность назначения весов классов при обучении классификаторов, например, CatBoost. Насколько мне известно, это добавляет вес объектам при вычислении функции потерь, тем самым пенализируя ошибки на них больше или меньше.
Data Science
Настройка порогов с методом один против всех для многоклассовой классификации на Python
00
Вопрос или проблема В настоящее время я использую алгоритм случайного леса One vs Rest для задачи многоклассовой классификации на Python и хочу найти оптимальный порог для каждого класса. Как я могу сделать это с помощью подхода OVR (One-Vs-Rest)?
Data Science
В чем разница между многоклассовой категориальной кроссэнтропией, mlogloss и multi:softprob?
00
Вопрос или проблема Насколько я понимаю, целевая функция — это то, что я пытаюсь оптимизировать, а оценочная статистика — это то, что я использую для поиска переобучения. Я наткнулся на 4 функции потерь, которые, кажется, одинаковы, но я не совсем уверен.
Data Science
Помощь в прогнозировании центров затрат
00
Вопрос или проблема Как говорит заголовок: Мне поставили задачу предсказать центры затрат для данных о грузоперевозках. Я совершенно не представляю, как это сделать. Уникальное количество центров затрат превышает 5000, а количество признаков составляет около 100.
Data Science
Как обрабатывать сходство слов и категоризировать группу слов в одно слово.
00
Вопрос или проблема Я новичок в этой области и довольно долго искал решения, только чтобы наткнуться на множество различных возможных подходов, но ничего конкретного. Если у меня есть список слов, скажем: email_addr, email, email_address, address или
Data Science
Как выбрать подходящие предикторы для модели классификации?
00
Вопрос или проблема Я работаю над задачей классификации. У меня есть две модели: Модель логистической регрессии Модель случайного леса Для первой модели, если я выберу только предикторы с p-значениями<0.05, я снизлю точность, полноту и т.
Data Science
Плохие результаты метрик из-за сильного классового дисбаланса в классификации кредитных карт.
00
Вопрос или проблема Здравствуйте, в данный момент я пишу дипломную работу и застрял на некоторых этапах. Я разработал несколько моделей машинного обучения (XGBoost, (сбалансированный) случайный лес, ElasticNet и др.) на крайне несбалансированном наборе
Data Science
Смешение классов в нейронных сетях (обучение против тестирования)
00
Вопрос или проблема Я новичок в глубоком обучении и запутался из-за того, что нейронная сеть обучается на определенных классах и тестируется на других. Допустим, я хочу создать сверточную нейронную сеть, которая будет определять авторство текста (идентификация