missing-data - ответы на вопросы

Data Science

Заполните отсутствующие значения (NA) в различных столбцах (независимо друг от друга), используя пакет imputeTS (в частности, функцию na_kalman).

00

Вопрос или проблема У моего друга недавно началась работа с R-studio, и он интересуется заполнением значений NA в разных столбцах, используя вышеупомянутую функцию. Также, так как он собирается проводить анализ временных рядов для каждого столбца, какой

Data Science

Книга по Data Science/Analysis, охватывающая обработку отсутствующих данных

00

Вопрос или проблема Я уже некоторое время пытаюсь изучать науку о данных. На самом деле, я закончил карьерный путь “Ассоциированный научный сотрудник по данным” на DataCamp. Однако, как вы можете ожидать, курсы не покрывают всё (у меня было

Data Science

Обработка пропущенных значений в медицинских данных

00

Вопрос или проблема У меня есть медицинский набор данных, который содержит информацию о матери и плоде во время беременности. В наборе данных есть некоторые пропущенные значения, с которыми я не знаю, как поступить. Вот короткий пример моего набора данных

Data Science

Важный выбор признаков с использованием алгоритмов уменьшения размерности.

00

Вопрос или проблема У меня есть набор данных с более чем 25000 признаков. Я выполнил удаление шума с использованием гистограммного подхода, и этот набор данных сократился до более чем 5000 признаков. Есть два класса: здоровые и инфицированные.

Data Science

Обработка данных в столбцах, когда 100% отсутствуют, но необходимо извлечь эти значения.

00

Вопрос или проблема У меня почти 20 признаков. Среди них некоторые категориальные, а некоторые числовые. Я уже преобразовал эти категориальные признаки в бинарное кодирование. Проблема в том, что среди 20 признаков два значения признаков (вся колонка) отсутствуют на 100%.

Data Science

Функция missForest в R не работает.

00

Вопрос или проблема Я пытаюсь использовать функцию missForest() из библиотеки ‘missForest’, но постоянно получаю одно и то же сообщение об ошибке. Вот код: библиотеки: library(dplyr) library(naniar) library(missForest) данные: url <

Data Science

Импутировать недостающее значение: транспонировать или нет?

00

Вопрос или проблема Я строю модель, которая заполняет пропущенные значения в DataFrame, содержащем количество посетителей в различных магазинах, каждый день: день магазин_a магазин_b магазин_c 2021-01-01 100 200 300 2021-01-02 110 220 290 2021-01-03 50

Data Science

Заполнение отсутствующих значений для признака “дней назад”

00

Вопрос или проблема У меня есть набор данных с признаками, такими как last_visit_n_days_ago, last_purchase_n_days_ago. Эти признаки недоступны для многих строк, что может иметь важное предсказательное значение. Вопрос в том, что вставить в эти ячейки

Data Science

Как лечить пациентов без событий в анализе времени до события?

00

Вопрос или проблема Я работаю с продольными данными для серии пациентов. Длительность наблюдения на уровне пациента неравномерна. Пациенты могут либо пережить дискретное событие (например, сердечный приступ), либо никогда не пережить это событие.

Data Science

Пропущенные значения стандартного отклонения

00

Вопрос или проблема В настоящее время я пытаюсь провести метаанализ. Я пересмотрел ссылки, которые хотел бы использовать, и убедился, что каждая из них соответствует моим критериям для этого метаанализа. Однако большинство ссылок не включают или не указывают

Data Science

Разделение CSV-данных с отсутствующей целевой переменной с помощью train_test_split в Python

00

Вопрос или проблема У меня есть набор данных в формате CSV, который состоит из обучающего набора с около 300 экземплярами и тестового набора с около 100 экземплярами. Проблема в том, что целевая переменная (столбец, который мы хотим предсказать) полностью

Data Science

Обработка пропущенных значений в предикторах для моделей градиентного бустинга (gbm()) в R

01

Вопрос или проблема В настоящее время я работаю над проектом предсказательной модели с использованием пакета gbm в R и столкнулся с проблемой пропущенных значений в одной из моих предикторных переменных. Я был бы признателен за ваши советы и рекомендации

Data Science

Как заполнитьmissing значения в дискретном столбце в прогнозах продаж для компании, занимающейся поставками лекарств.

00

Вопрос или проблема Я работал с набором данных, который содержит данные известной компании по поставкам наркотиков. Первые несколько записей в наборе данных выглядят следующим образом; Другие данные сопутствуют этому (основному) набору данных.

Data Science

Как справиться с большим количеством пропущенных значений в категориальной переменной

00

Вопрос или проблема У меня есть набор данных из примерно 5500 наблюдений. Одна из переменных — Пол, для которой пропущено как минимум 25% наблюдений. Отказ от пропущенных значений кажется немного грубым, однако я не нашел хорошего способа интерполяции бинарных данных.

Data Science

Импутация данных для сильно отсутствующих признаков

00

Вопрос или проблема В настоящее время я работаю с набором данных IEEE-CIS Fraud Detection, предоставленным через Kaggle, содержащим около 350 признаков и примерно 600 тысяч экземпляров. Однако некоторые признаки имеют большие объемы пропущенных значений

Data Science

Заменить пропущенные значения на наиболее частое число при условии

00

Вопрос или проблема Я пытаюсь заменить недостающие значения в столбце “Age”, но с учетом других столбцов в этих данных Titanic – Машинное обучение на основе катастрофы df.Age[(df['Sex'] == 0) & (df['Pclass'] == 1)] Я пытался сделать

Data Science

Обработка пропущенных значений в наборе данных о преступности в Чикаго

00

Вопрос или проблема Я занимаюсь небольшим проектом по набору данных о уровне преступности в Чикаго, и я заметил, что в нем более 600 000 значений NA, в основном в полях местоположения.Мне кажется, что, несмотря на наличие около 6 миллионов строк (данные

Data Science

Недостающие данные продолжают появляться.

00

Вопрос или проблема Я работаю над проектом и использую алгоритм машинного обучения Random Forest. Прежде чем использовать модель, я должен был очистить свои данные, и я уже удалил пропущенные значения, но когда я пытаюсь использовать свою модель, она

Data Science

Заполнение большого количества пропущенных значений произвольным значением

00

Вопрос или проблема У меня есть набор данных, скажем, с 1 миллионом наблюдений. В качестве глупого примера представим, что мы хотим предсказать, может ли человек стать специалистом по данным или нет (0/1). У меня есть переменные, в которых много пропусков

Data Science

Корреляция пропущенных значений

00

Вопрос или проблема Стоит ли изучать корреляцию пропусков между столбцами? Если у вас сильно коррелированные отсутствующие значения (скажем, между двумя столбцами, A и B), как это изменит или повлияет на ваш взгляд на данные? Добавляет ли это новую информацию при анализе данных?