missing-data
Data Science
Вопрос или проблема В настоящее время я работаю над проектом предсказательной модели с использованием пакета gbm в R и столкнулся с проблемой пропущенных значений в одной из моих предикторных переменных. Я был бы признателен за ваши советы и рекомендации
Data Science
Вопрос или проблема Я работал с набором данных, который содержит данные известной компании по поставкам наркотиков. Первые несколько записей в наборе данных выглядят следующим образом; Другие данные сопутствуют этому (основному) набору данных.
Data Science
Вопрос или проблема У меня есть набор данных из примерно 5500 наблюдений. Одна из переменных — Пол, для которой пропущено как минимум 25% наблюдений. Отказ от пропущенных значений кажется немного грубым, однако я не нашел хорошего способа интерполяции бинарных данных.
Data Science
Вопрос или проблема В настоящее время я работаю с набором данных IEEE-CIS Fraud Detection, предоставленным через Kaggle, содержащим около 350 признаков и примерно 600 тысяч экземпляров. Однако некоторые признаки имеют большие объемы пропущенных значений
Data Science
Вопрос или проблема Я пытаюсь заменить недостающие значения в столбце “Age”, но с учетом других столбцов в этих данных Titanic – Машинное обучение на основе катастрофы df.Age[(df['Sex'] == 0) & (df['Pclass'] == 1)] Я пытался сделать
Data Science
Вопрос или проблема Я занимаюсь небольшим проектом по набору данных о уровне преступности в Чикаго, и я заметил, что в нем более 600 000 значений NA, в основном в полях местоположения.Мне кажется, что, несмотря на наличие около 6 миллионов строк (данные
Data Science
Вопрос или проблема Я работаю над проектом и использую алгоритм машинного обучения Random Forest. Прежде чем использовать модель, я должен был очистить свои данные, и я уже удалил пропущенные значения, но когда я пытаюсь использовать свою модель, она
Data Science
Вопрос или проблема У меня есть набор данных, скажем, с 1 миллионом наблюдений. В качестве глупого примера представим, что мы хотим предсказать, может ли человек стать специалистом по данным или нет (0/1). У меня есть переменные, в которых много пропусков
Data Science
Вопрос или проблема Стоит ли изучать корреляцию пропусков между столбцами? Если у вас сильно коррелированные отсутствующие значения (скажем, между двумя столбцами, A и B), как это изменит или повлияет на ваш взгляд на данные? Добавляет ли это новую информацию при анализе данных?
Data Science
Вопрос или проблема Я работаю над задачей с контролируемым обучением с несбалансированными классами. У меня есть несколько вопросов о наилучшем способе обработки разбиения данных и недостающих значений. Мой текущий подход заключается в разбиении данных
Data Science
Вопрос или проблема Я работаю с набором данных категориальных данных, который выглядит так: content_1 content_2 content_4 content_5 content_6 0 NaN 0.0 0.0 0.0 NaN 1 NaN 0.0 0.0 0.0 NaN 2 NaN NaN NaN NaN NaN 3 0.0 NaN 0.0 NaN 0.
Data Science
Вопрос или проблема У меня есть данные о населении с Census.gov: Общее население США по возрасту за год с 1940 по 2010 В зависимости от диапазона десятилетий, в данных отсутствуют дискретные значения населения для возрастов старше определенного возраста.
Data Science
Вопрос или проблема Я знаю, что эта тема была обсуждена extensively, но я не нашел ответа, который удовлетворял бы мои потребности. В настоящее время я стажируюсь и работаю с электронными платами. Эти электронные платы проходят через испытательные стенды.
Data Science
Вопрос или проблема Я запускаю модель LM, используя пакет LMest, доступный в R. В наборе данных НЕТ пропущенных значений. pct_miss(df_long) [1] 0 n_miss(df_long) [1] 0 Функция lmest без ковариат работает нормально. Однако, когда я добавил ковариаты в
Data Science
Вопрос или проблема Это то, что кажется очень простым для решения, но я не смог найти никаких подсказок – возможно, я задаю неправильный вопрос в Google. Допустим, вы владеете интернет-компанией. У вас есть общий объем потребления вашего клиента
Data Science
Вопрос или проблема Что произойдет, если определенный набор данных содержит разные «группы», которые следуют различным линейным моделям? Например, представим, что, изучая диаграмму рассеяния определенной характеристики $x_i$ против $y$, мы можем увидеть
Data Science
Вопрос или проблема Я работаю над задачей классификации человеческой активности на основе данных о позах. Из-за качества изображений при применении модели оценивания поз, в данных есть множество пропущенных значений. Мой конвейер преобразования данных
Data Science
Вопрос или проблема У меня есть набор данных, содержащий пропущенные значения в некоторых столбцах. Я хотел бы знать, какой лучший подход для работы с этими недостающими данными. Следует ли мне удалять строки с пропущенными данными или заполнять отсутствующие
Data Science
Вопрос или проблема Я работаю над своей дипломной работой по трем известным наборам данных: adult, titanic и compass (рецидивизм), и пытаюсь сгенерировать недостающие значения для различных уровней отсутствия данных по атрибутам (например, пол, раса)
Data Science
Вопрос или проблема У меня есть линейная модель, используемая для прогнозирования, с около 30 предикторами, которые представляют собой процент использования автомобилей по различным почтовым индексам. Все эти предикторы имеют одну и ту же величину, так