Data Science
Проблема: Производительность логистической регрессии и моделей на основе деревьев на малом несбалансированном наборе данных
00
Вопрос или проблема У меня есть небольшой набор данных с 300 строками и несбалансированным распределением классов (35% положительных). Когда я обучаю модель логистической регрессии, она постоянно показывает результаты хуже случайного выбора.
Data Science
Примените Labeled LDA к большим данным
00
Вопрос или проблема Я использую набор данных, содержащий около 1,5 миллиона документов. Каждый документ сопровождается ключевыми словами, описывающими темы данного документа (то есть многоярлык). Каждый документ принадлежит нескольким авторам (не одному автору для документа).
Data Science
Подход машинного обучения для обнаружения ботов
00
Вопрос или проблема Я работаю над проектом, который пытается определить, являются ли пользователи ботами или нет. В настоящее время метки, которые содержит набор данных, ненадежны, но я нашел некоторые тенденции/особенности, которые хорошо подходят для
Data Science
Извлечение иерархических признаков в моделях многослойного перцептрона
00
Вопрос или проблема Я говорю о простых нейронных сетях, МЛП. Я прочитал статью Глорот и Бенгио (2010), Понимание сложности обучения глубоких прямых нейронных сетей. В ней я прочитал интересное утверждение: «Методы глубокого обучения стремятся к обучению
Data Science
Включает ли загрязнение превращение изолированного леса в контролируемый?
00
Вопрос или проблема В необучаемом обнаружении аномалий, превращает ли включение процента загрязнения изолирующий лес в обучаемый, а не необучаемый, когда я подгоняю данные после этого? Изолирующий лес является по сути необучаемым алгоритмом.
Data Science
Что такое блокированная кросс-валидация и зачем она нужна?
00
Вопрос или проблема Я читал о вариантах перекрестной проверки для временных рядов и нашел изменение, называемое заблокированной перекрестной проверкой. На странице, которую я читал, говорится следующее: “Тем не менее, это может привести к утечке информации
Data Science
Как выполнить кросс-валидацию и заполнить пропущенные значения с помощью KNNImputer?
00
Вопрос или проблема Я работаю над задачей с контролируемым обучением с несбалансированными классами. У меня есть несколько вопросов о наилучшем способе обработки разбиения данных и недостающих значений. Мой текущий подход заключается в разбиении данных
Data Science
функция потерь с фокусировкой помощь
00
Вопрос или проблема Я работаю над задачей извлечения и классификации отношений. Данные представлены в виде текстовых файлов. Данные несбалансированные. Я хочу использовать функцию потерь focal для решения проблемы несбалансированности классов в данных.
Data Science
Обучение с учителем для пошаговой игры?
00
Вопрос или проблема У меня есть 4 ГБ данных по пошаговому прохождению для многих игр в одной стратегической игре. Кажется, что большинство людей, заинтересованных в использовании машинного обучения для создания ИИ для пошаговых игр, используют обучение
Data Science
Вебсайт викторины по контролируемому обучению?
00
Вопрос или проблема Какие хорошие сайты предоставляют вопросы для тестов по управляемому обучению и машинному обучению в целом? У меня скоро тест, и я хотел бы к нему подготовиться. Это зависит от того, о каком тесте идет речь.
Data Science
Правило обучения перцептрона
00
Вопрос или проблема Я новичок в машинном обучении и Data Science. Проведя некоторое время в сети, я смог довольно хорошо понять правило обучения восприятия. Но я все еще не понимаю, как применять его к набору данных. Например, у нас могут быть следующие
Data Science
Ищу советы по быстрой и точной системе предсказания категории устройства с использованием ИИ/МЛ
00
Вопрос или проблема Контекст: Я работаю в индустрии ПЛК (программируемых логических контроллеров), где мы получаем схемы от клиентов, показывающие, как подключены различные устройства, и программируем ПЛК соответственно. Наша команда состоит из аналитика
Data Science
Как обучить модель для предсказания, относятся ли 2 образца к одному и тому же?
00
Вопрос или проблема У меня есть две базы данных с около 60,000 примеров каждая. Обе имеют одинаковые характеристики (одинаковые названия столбцов), которые представляют собой определенные вещи с текстом или категориями (превращенными в числа).
Data Science
Применение модели к невидимым данным
00
Вопрос или проблема Какие хорошие способы расширить модель машинного обучения новой классом без повторной маркировки всех предыдущих данных? Проблема с данными, представляющими классы, которые не были представлены во время контролируемого обучения Предположим
Data Science
Исследовательский анализ данных на наборе, разделенном на победителей и проигравших
00
Вопрос или проблема У меня есть набор данных о характеристиках победителей теннисных турниров и о характеристиках проигравших: возраст_победителя, рейтинг_победителя / возраст_проигравшего, рейтинг_проигравшего Чтобы провести надлежащий EDA, мне нужно
Data Science
Применение модели к невидимым данным (теоретический вопрос)
00
Вопрос или проблема Какие существуют хорошие способы расширить модель машинного обучения новой классом без переобучения всех предыдущих данных? Проблема с данными, представляющими классы, которые не были представлены во время supervised обучения Предположим
Data Science
Лучше иметь одну модель с большим количеством категорий или две модели с меньшим количеством для многоцелеой классификации?
00
Вопрос или проблема Для классификации текста на три категории вопрос, жалоба и дополнение, где каждый экземпляр может иметь несколько меток (вопрос и жалоба, вопрос и дополнения): лучше иметь одну модель для всех трех категорий?
Data Science
Какое лучшее средство для прогнозирования спроса на товары с использованием нерегулярных временных рядов?
00
Вопрос или проблема Я работаю над проектом по контролируемому машинному обучению для прогнозирования будущего спроса на аптечные товары. Моя цель заключается в том, чтобы прогнозировать спрос на следующий день, неделю и месяц для конкретного товара на
Data Science
Определить членов, которые, вероятно, изменят место получения лекарственной терапии.
00
Вопрос или проблема У меня есть доступ к данным по медицинским выплатам от крупной страховой компании. Как некоторые из вас уже знают, существует большая разница в цене на препарат X в зависимости от места его применения. Наша компания хочет помочь участникам
Data Science
Извлечение ключевых слов из сообщений с помощью собственной модели NER
00
Вопрос или проблема Я начинаю проект, в котором хочу извлекать ключевые слова из заданных сообщений. Ключевые слова, например, такие как: “жесткий диск”, “часы” или другие технические компоненты. Я работаю с набором данных, в котором