data-imputation - ответы на вопросы

Data Science

Использование KNN-импутации из sklearn на большом наборе данных

00

Вопрос или проблема У меня есть большой набор данных ~ 1 миллион строк на 400 признаков, и я хочу заполнить недостающие значения с помощью sklearn KNNImputer. Попытавшись сделать это сразу, я столкнулся с проблемами памяти, но думаю, что могу решить это

Data Science

Обработка пропущенных значений в медицинских данных

00

Вопрос или проблема У меня есть медицинский набор данных, который содержит информацию о матери и плоде во время беременности. В наборе данных есть некоторые пропущенные значения, с которыми я не знаю, как поступить. Вот короткий пример моего набора данных

Data Science

Импутировать недостающее значение: транспонировать или нет?

00

Вопрос или проблема Я строю модель, которая заполняет пропущенные значения в DataFrame, содержащем количество посетителей в различных магазинах, каждый день: день магазин_a магазин_b магазин_c 2021-01-01 100 200 300 2021-01-02 110 220 290 2021-01-03 50

Data Science

Заполнение отсутствующих значений для признака “дней назад”

00

Вопрос или проблема У меня есть набор данных с признаками, такими как last_visit_n_days_ago, last_purchase_n_days_ago. Эти признаки недоступны для многих строк, что может иметь важное предсказательное значение. Вопрос в том, что вставить в эти ячейки

Data Science

Проблема с иммутацией внутри пайплайна в Sklearn [закрыто]

00

Вопрос или проблема Закрыто. Этот вопрос требует подробностей или пояснений. В данный момент он не принимает ответы. Хотите улучшить этот вопрос? Добавьте подробности и уточните проблему, отредактировав этот пост. Закрыто 4 часа назад.

Data Science

Как выполнить пропущенные значения с использованием простого импьютора (пользовательская функция)

00

Вопрос или проблема Я заполняю свои данные с помощью простого заполняющего устройства из sklearn. Я хочу протестировать множество различных способов применения преобразований к данным. То есть для логистической регрессии я хотел бы удалить nans и заменить

Data Science

Как я могу сравнить точность моделей импутации, если в файле уже есть пропущенные данные?

00

Вопрос или проблема Предположим, у меня есть набор данных из 50 000 записей, из которых примерно 2% отсутствовали изначально. Из того, что я узнал, нам нужно использовать индикаторы для сравнения модели импутации с истинным значением, чтобы проверить

Data Science

Импутация данных для сильно отсутствующих признаков

00

Вопрос или проблема В настоящее время я работаю с набором данных IEEE-CIS Fraud Detection, предоставленным через Kaggle, содержащим около 350 признаков и примерно 600 тысяч экземпляров. Однако некоторые признаки имеют большие объемы пропущенных значений

Data Science

Использование метода иммутации KNN имеет смысл при обработке пропущенных значений в наборах данных прогнозирования ветра?

00

Вопрос или проблема У меня есть набор данных под названием full_weather.csv с различными признаками. Я удалил некоторые столбцы, которые не коррелируют с прогнозированием ветра, и я нашел много NaN (нулевых значений в некоторых столбцах).

Data Science

Правильный порядок подготовки данных в машинном обучении

00

Вопрос или проблема Для упомянутых ниже шагов подготовки данных Обнаружение/обработка выбросов Импутация данных Масштабирование/стандартизация данных Балансировка классов Есть два под Questions Должны ли каждый из этих шагов выполняться после разделения

Data Science

Заполнение большого количества пропущенных значений произвольным значением

00

Вопрос или проблема У меня есть набор данных, скажем, с 1 миллионом наблюдений. В качестве глупого примера представим, что мы хотим предсказать, может ли человек стать специалистом по данным или нет (0/1). У меня есть переменные, в которых много пропусков

Data Science

Интерполяция и имputation геопространственных временных данных

00

Вопрос или проблема У меня есть набор данных, который представляет собой список длин широт, широт и временных меток. Этот набор данных представляет собой поездку автомобиля. Данные могут содержать пропуски и некоторый шум. Я хочу узнать, какие методы

Data Science

Отсутствующие значения населения в данных переписи населения

00

Вопрос или проблема У меня есть данные о населении с Census.gov: Общее население США по возрасту за год с 1940 по 2010 В зависимости от диапазона десятилетий, в данных отсутствуют дискретные значения населения для возрастов старше определенного возраста.

Data Science

Как реализовать одноимпутацию из условного распределения?

00

Вопрос или проблема На странице [*] 264 описан метод извлечения отсутствующего значения из условного распределения $P(\bf{x}_{mis}|\bf{x}_{obs};\theta)$, которое определяется как: Я не нашел никакой реализации этого подхода в коде. Мой вопрос: как это реализовать?