Data Science
Как выполнить кросс-валидацию и заполнить пропущенные значения с помощью KNNImputer?
00
Вопрос или проблема Я работаю над задачей с контролируемым обучением с несбалансированными классами. У меня есть несколько вопросов о наилучшем способе обработки разбиения данных и недостающих значений. Мой текущий подход заключается в разбиении данных
Data Science
Как справиться с отсутствующими данными для наивного байесовского классификатора Бернулли?
00
Вопрос или проблема Я работаю с набором данных категориальных данных, который выглядит так: content_1 content_2 content_4 content_5 content_6 0 NaN 0.0 0.0 0.0 NaN 1 NaN 0.0 0.0 0.0 NaN 2 NaN NaN NaN NaN NaN 3 0.0 NaN 0.0 NaN 0.
Data Science
Отсутствующие значения населения в данных переписи населения
00
Вопрос или проблема У меня есть данные о населении с Census.gov: Общее население США по возрасту за год с 1940 по 2010 В зависимости от диапазона десятилетий, в данных отсутствуют дискретные значения населения для возрастов старше определенного возраста.
Data Science
Как справиться с отсутствующими значениями
00
Вопрос или проблема Я знаю, что эта тема была обсуждена extensively, но я не нашел ответа, который удовлетворял бы мои потребности. В настоящее время я стажируюсь и работаю с электронными платами. Эти электронные платы проходят через испытательные стенды.
Data Science
Ошибка в lmest: отсутствуют данные в ковариатах, влияющих на начальные вероятности.
00
Вопрос или проблема Я запускаю модель LM, используя пакет LMest, доступный в R. В наборе данных НЕТ пропущенных значений. pct_miss(df_long) [1] 0 n_miss(df_long) [1] 0 Функция lmest без ковариат работает нормально. Однако, когда я добавил ковариаты в
Data Science
Что делать, когда вы разрабатываете функцию, а знаменатель равен нулю?
00
Вопрос или проблема Это то, что кажется очень простым для решения, но я не смог найти никаких подсказок – возможно, я задаю неправильный вопрос в Google. Допустим, вы владеете интернет-компанией. У вас есть общий объем потребления вашего клиента
Data Science
Работа с разнообразными группами в регрессии
00
Вопрос или проблема Что произойдет, если определенный набор данных содержит разные «группы», которые следуют различным линейным моделям? Например, представим, что, изучая диаграмму рассеяния определенной характеристики $x_i$ против $y$, мы можем увидеть
Data Science
Как применить конвейер преобразования данных к неизвестным данным в задаче классификации временных рядов?
00
Вопрос или проблема Я работаю над задачей классификации человеческой активности на основе данных о позах. Из-за качества изображений при применении модели оценивания поз, в данных есть множество пропущенных значений. Мой конвейер преобразования данных
Data Science
Какой лучший подход к работе с пропущенными данными в наборе данных?
00
Вопрос или проблема У меня есть набор данных, содержащий пропущенные значения в некоторых столбцах. Я хотел бы знать, какой лучший подход для работы с этими недостающими данными. Следует ли мне удалять строки с пропущенными данными или заполнять отсутствующие
Data Science
Как сгенерировать недостающие значения для категориальных атрибутов в наборе данных?
00
Вопрос или проблема Я работаю над своей дипломной работой по трем известным наборам данных: adult, titanic и compass (рецидивизм), и пытаюсь сгенерировать недостающие значения для различных уровней отсутствия данных по атрибутам (например, пол, раса)
Data Science
Линейная модель: Как работать с предикторами с большим количеством отсутствующих/малых значений?
00
Вопрос или проблема У меня есть линейная модель, используемая для прогнозирования, с около 30 предикторами, которые представляют собой процент использования автомобилей по различным почтовым индексам. Все эти предикторы имеют одну и ту же величину, так
Data Science
удаление столбца с более чем 60% пропущенных значений
00
Вопрос или проблема Как это указано в заголовке, я работаю с набором данных, и в определенном столбце отсутствует около 60% значений. Должен ли я просто удалить этот столбец вместо импутации? Причина заключается в том, что я работаю с набором данных о
Data Science
Работа с пропущенными данными в SVD
00
Вопрос или проблема Я новичок в машинном обучении и пытаюсь применить SVD к набору данных movielens для рекомендаций фильмов. У меня есть матрица “фильм-пользователь”, где строка – это идентификатор пользователя, столбец –
Data Science
Как реализовать одноимпутацию из условного распределения?
00
Вопрос или проблема На странице [*] 264 описан метод извлечения отсутствующего значения из условного распределения $P(\bf{x}_{mis}|\bf{x}_{obs};\theta)$, которое определяется как: Я не нашел никакой реализации этого подхода в коде. Мой вопрос: как это реализовать?