Data Science
Использование KNN-импутации из sklearn на большом наборе данных
00
Вопрос или проблема У меня есть большой набор данных ~ 1 миллион строк на 400 признаков, и я хочу заполнить недостающие значения с помощью sklearn KNNImputer. Попытавшись сделать это сразу, я столкнулся с проблемами памяти, но думаю, что могу решить это
Data Science
Обработка пропущенных значений в медицинских данных
00
Вопрос или проблема У меня есть медицинский набор данных, который содержит информацию о матери и плоде во время беременности. В наборе данных есть некоторые пропущенные значения, с которыми я не знаю, как поступить. Вот короткий пример моего набора данных
Data Science
Импутировать недостающее значение: транспонировать или нет?
00
Вопрос или проблема Я строю модель, которая заполняет пропущенные значения в DataFrame, содержащем количество посетителей в различных магазинах, каждый день: день магазин_a магазин_b магазин_c 2021-01-01 100 200 300 2021-01-02 110 220 290 2021-01-03 50
Data Science
Заполнение отсутствующих значений для признака “дней назад”
00
Вопрос или проблема У меня есть набор данных с признаками, такими как last_visit_n_days_ago, last_purchase_n_days_ago. Эти признаки недоступны для многих строк, что может иметь важное предсказательное значение. Вопрос в том, что вставить в эти ячейки
Data Science
Проблема с иммутацией внутри пайплайна в Sklearn [закрыто]
00
Вопрос или проблема Закрыто. Этот вопрос требует подробностей или пояснений. В данный момент он не принимает ответы. Хотите улучшить этот вопрос? Добавьте подробности и уточните проблему, отредактировав этот пост. Закрыто 4 часа назад.
Data Science
Как выполнить пропущенные значения с использованием простого импьютора (пользовательская функция)
00
Вопрос или проблема Я заполняю свои данные с помощью простого заполняющего устройства из sklearn. Я хочу протестировать множество различных способов применения преобразований к данным. То есть для логистической регрессии я хотел бы удалить nans и заменить
Data Science
Как я могу сравнить точность моделей импутации, если в файле уже есть пропущенные данные?
00
Вопрос или проблема Предположим, у меня есть набор данных из 50 000 записей, из которых примерно 2% отсутствовали изначально. Из того, что я узнал, нам нужно использовать индикаторы для сравнения модели импутации с истинным значением, чтобы проверить
Data Science
Импутация данных для сильно отсутствующих признаков
00
Вопрос или проблема В настоящее время я работаю с набором данных IEEE-CIS Fraud Detection, предоставленным через Kaggle, содержащим около 350 признаков и примерно 600 тысяч экземпляров. Однако некоторые признаки имеют большие объемы пропущенных значений
Data Science
Использование метода иммутации KNN имеет смысл при обработке пропущенных значений в наборах данных прогнозирования ветра?
00
Вопрос или проблема У меня есть набор данных под названием full_weather.csv с различными признаками. Я удалил некоторые столбцы, которые не коррелируют с прогнозированием ветра, и я нашел много NaN (нулевых значений в некоторых столбцах).
Data Science
Правильный порядок подготовки данных в машинном обучении
00
Вопрос или проблема Для упомянутых ниже шагов подготовки данных Обнаружение/обработка выбросов Импутация данных Масштабирование/стандартизация данных Балансировка классов Есть два под Questions Должны ли каждый из этих шагов выполняться после разделения
Data Science
Заполнение большого количества пропущенных значений произвольным значением
00
Вопрос или проблема У меня есть набор данных, скажем, с 1 миллионом наблюдений. В качестве глупого примера представим, что мы хотим предсказать, может ли человек стать специалистом по данным или нет (0/1). У меня есть переменные, в которых много пропусков
Data Science
Интерполяция и имputation геопространственных временных данных
00
Вопрос или проблема У меня есть набор данных, который представляет собой список длин широт, широт и временных меток. Этот набор данных представляет собой поездку автомобиля. Данные могут содержать пропуски и некоторый шум. Я хочу узнать, какие методы
Data Science
Отсутствующие значения населения в данных переписи населения
00
Вопрос или проблема У меня есть данные о населении с Census.gov: Общее население США по возрасту за год с 1940 по 2010 В зависимости от диапазона десятилетий, в данных отсутствуют дискретные значения населения для возрастов старше определенного возраста.
Data Science
Как реализовать одноимпутацию из условного распределения?
00
Вопрос или проблема На странице [*] 264 описан метод извлечения отсутствующего значения из условного распределения $P(\bf{x}_{mis}|\bf{x}_{obs};\theta)$, которое определяется как: Я не нашел никакой реализации этого подхода в коде. Мой вопрос: как это реализовать?