Data Science
Обработка пропущенных значений в предикторах для моделей градиентного бустинга (gbm()) в R
00
Вопрос или проблема В настоящее время я работаю над проектом предсказательной модели с использованием пакета gbm в R и столкнулся с проблемой пропущенных значений в одной из моих предикторных переменных. Я был бы признателен за ваши советы и рекомендации
Data Science
Как заполнитьmissing значения в дискретном столбце в прогнозах продаж для компании, занимающейся поставками лекарств.
00
Вопрос или проблема Я работал с набором данных, который содержит данные известной компании по поставкам наркотиков. Первые несколько записей в наборе данных выглядят следующим образом; Другие данные сопутствуют этому (основному) набору данных.
Data Science
Как справиться с большим количеством пропущенных значений в категориальной переменной
00
Вопрос или проблема У меня есть набор данных из примерно 5500 наблюдений. Одна из переменных — Пол, для которой пропущено как минимум 25% наблюдений. Отказ от пропущенных значений кажется немного грубым, однако я не нашел хорошего способа интерполяции бинарных данных.
Data Science
Импутация данных для сильно отсутствующих признаков
00
Вопрос или проблема В настоящее время я работаю с набором данных IEEE-CIS Fraud Detection, предоставленным через Kaggle, содержащим около 350 признаков и примерно 600 тысяч экземпляров. Однако некоторые признаки имеют большие объемы пропущенных значений
Data Science
Заменить пропущенные значения на наиболее частое число при условии
00
Вопрос или проблема Я пытаюсь заменить недостающие значения в столбце “Age”, но с учетом других столбцов в этих данных Titanic – Машинное обучение на основе катастрофы df.Age[(df['Sex'] == 0) & (df['Pclass'] == 1)] Я пытался сделать
Data Science
Обработка пропущенных значений в наборе данных о преступности в Чикаго
00
Вопрос или проблема Я занимаюсь небольшим проектом по набору данных о уровне преступности в Чикаго, и я заметил, что в нем более 600 000 значений NA, в основном в полях местоположения.Мне кажется, что, несмотря на наличие около 6 миллионов строк (данные
Data Science
Недостающие данные продолжают появляться.
00
Вопрос или проблема Я работаю над проектом и использую алгоритм машинного обучения Random Forest. Прежде чем использовать модель, я должен был очистить свои данные, и я уже удалил пропущенные значения, но когда я пытаюсь использовать свою модель, она
Data Science
Заполнение большого количества пропущенных значений произвольным значением
00
Вопрос или проблема У меня есть набор данных, скажем, с 1 миллионом наблюдений. В качестве глупого примера представим, что мы хотим предсказать, может ли человек стать специалистом по данным или нет (0/1). У меня есть переменные, в которых много пропусков
Data Science
Корреляция пропущенных значений
00
Вопрос или проблема Стоит ли изучать корреляцию пропусков между столбцами? Если у вас сильно коррелированные отсутствующие значения (скажем, между двумя столбцами, A и B), как это изменит или повлияет на ваш взгляд на данные? Добавляет ли это новую информацию при анализе данных?
Data Science
Как выполнить кросс-валидацию и заполнить пропущенные значения с помощью KNNImputer?
00
Вопрос или проблема Я работаю над задачей с контролируемым обучением с несбалансированными классами. У меня есть несколько вопросов о наилучшем способе обработки разбиения данных и недостающих значений. Мой текущий подход заключается в разбиении данных
Data Science
Как справиться с отсутствующими данными для наивного байесовского классификатора Бернулли?
00
Вопрос или проблема Я работаю с набором данных категориальных данных, который выглядит так: content_1 content_2 content_4 content_5 content_6 0 NaN 0.0 0.0 0.0 NaN 1 NaN 0.0 0.0 0.0 NaN 2 NaN NaN NaN NaN NaN 3 0.0 NaN 0.0 NaN 0.
Data Science
Отсутствующие значения населения в данных переписи населения
00
Вопрос или проблема У меня есть данные о населении с Census.gov: Общее население США по возрасту за год с 1940 по 2010 В зависимости от диапазона десятилетий, в данных отсутствуют дискретные значения населения для возрастов старше определенного возраста.
Data Science
Как справиться с отсутствующими значениями
00
Вопрос или проблема Я знаю, что эта тема была обсуждена extensively, но я не нашел ответа, который удовлетворял бы мои потребности. В настоящее время я стажируюсь и работаю с электронными платами. Эти электронные платы проходят через испытательные стенды.
Data Science
Ошибка в lmest: отсутствуют данные в ковариатах, влияющих на начальные вероятности.
00
Вопрос или проблема Я запускаю модель LM, используя пакет LMest, доступный в R. В наборе данных НЕТ пропущенных значений. pct_miss(df_long) [1] 0 n_miss(df_long) [1] 0 Функция lmest без ковариат работает нормально. Однако, когда я добавил ковариаты в
Data Science
Что делать, когда вы разрабатываете функцию, а знаменатель равен нулю?
00
Вопрос или проблема Это то, что кажется очень простым для решения, но я не смог найти никаких подсказок – возможно, я задаю неправильный вопрос в Google. Допустим, вы владеете интернет-компанией. У вас есть общий объем потребления вашего клиента
Data Science
Работа с разнообразными группами в регрессии
00
Вопрос или проблема Что произойдет, если определенный набор данных содержит разные «группы», которые следуют различным линейным моделям? Например, представим, что, изучая диаграмму рассеяния определенной характеристики $x_i$ против $y$, мы можем увидеть
Data Science
Как применить конвейер преобразования данных к неизвестным данным в задаче классификации временных рядов?
00
Вопрос или проблема Я работаю над задачей классификации человеческой активности на основе данных о позах. Из-за качества изображений при применении модели оценивания поз, в данных есть множество пропущенных значений. Мой конвейер преобразования данных
Data Science
Какой лучший подход к работе с пропущенными данными в наборе данных?
00
Вопрос или проблема У меня есть набор данных, содержащий пропущенные значения в некоторых столбцах. Я хотел бы знать, какой лучший подход для работы с этими недостающими данными. Следует ли мне удалять строки с пропущенными данными или заполнять отсутствующие
Data Science
Как сгенерировать недостающие значения для категориальных атрибутов в наборе данных?
00
Вопрос или проблема Я работаю над своей дипломной работой по трем известным наборам данных: adult, titanic и compass (рецидивизм), и пытаюсь сгенерировать недостающие значения для различных уровней отсутствия данных по атрибутам (например, пол, раса)
Data Science
Линейная модель: Как работать с предикторами с большим количеством отсутствующих/малых значений?
00
Вопрос или проблема У меня есть линейная модель, используемая для прогнозирования, с около 30 предикторами, которые представляют собой процент использования автомобилей по различным почтовым индексам. Все эти предикторы имеют одну и ту же величину, так