missing-data
Data Science
Вопрос или проблема У моего друга недавно началась работа с R-studio, и он интересуется заполнением значений NA в разных столбцах, используя вышеупомянутую функцию. Также, так как он собирается проводить анализ временных рядов для каждого столбца, какой
Data Science
Вопрос или проблема Я уже некоторое время пытаюсь изучать науку о данных. На самом деле, я закончил карьерный путь “Ассоциированный научный сотрудник по данным” на DataCamp. Однако, как вы можете ожидать, курсы не покрывают всё (у меня было
Data Science
Вопрос или проблема У меня есть медицинский набор данных, который содержит информацию о матери и плоде во время беременности. В наборе данных есть некоторые пропущенные значения, с которыми я не знаю, как поступить. Вот короткий пример моего набора данных
Data Science
Вопрос или проблема У меня есть набор данных с более чем 25000 признаков. Я выполнил удаление шума с использованием гистограммного подхода, и этот набор данных сократился до более чем 5000 признаков. Есть два класса: здоровые и инфицированные.
Data Science
Вопрос или проблема У меня почти 20 признаков. Среди них некоторые категориальные, а некоторые числовые. Я уже преобразовал эти категориальные признаки в бинарное кодирование. Проблема в том, что среди 20 признаков два значения признаков (вся колонка) отсутствуют на 100%.
Data Science
Вопрос или проблема Я пытаюсь использовать функцию missForest() из библиотеки ‘missForest’, но постоянно получаю одно и то же сообщение об ошибке. Вот код: библиотеки: library(dplyr) library(naniar) library(missForest) данные: url <
Data Science
Вопрос или проблема Я строю модель, которая заполняет пропущенные значения в DataFrame, содержащем количество посетителей в различных магазинах, каждый день: день магазин_a магазин_b магазин_c 2021-01-01 100 200 300 2021-01-02 110 220 290 2021-01-03 50
Data Science
Вопрос или проблема У меня есть набор данных с признаками, такими как last_visit_n_days_ago, last_purchase_n_days_ago. Эти признаки недоступны для многих строк, что может иметь важное предсказательное значение. Вопрос в том, что вставить в эти ячейки
Data Science
Вопрос или проблема Я работаю с продольными данными для серии пациентов. Длительность наблюдения на уровне пациента неравномерна. Пациенты могут либо пережить дискретное событие (например, сердечный приступ), либо никогда не пережить это событие.
Data Science
Вопрос или проблема В настоящее время я пытаюсь провести метаанализ. Я пересмотрел ссылки, которые хотел бы использовать, и убедился, что каждая из них соответствует моим критериям для этого метаанализа. Однако большинство ссылок не включают или не указывают
Data Science
Вопрос или проблема У меня есть набор данных в формате CSV, который состоит из обучающего набора с около 300 экземплярами и тестового набора с около 100 экземплярами. Проблема в том, что целевая переменная (столбец, который мы хотим предсказать) полностью
Data Science
Вопрос или проблема В настоящее время я работаю над проектом предсказательной модели с использованием пакета gbm в R и столкнулся с проблемой пропущенных значений в одной из моих предикторных переменных. Я был бы признателен за ваши советы и рекомендации
Data Science
Вопрос или проблема Я работал с набором данных, который содержит данные известной компании по поставкам наркотиков. Первые несколько записей в наборе данных выглядят следующим образом; Другие данные сопутствуют этому (основному) набору данных.
Data Science
Вопрос или проблема У меня есть набор данных из примерно 5500 наблюдений. Одна из переменных — Пол, для которой пропущено как минимум 25% наблюдений. Отказ от пропущенных значений кажется немного грубым, однако я не нашел хорошего способа интерполяции бинарных данных.
Data Science
Вопрос или проблема В настоящее время я работаю с набором данных IEEE-CIS Fraud Detection, предоставленным через Kaggle, содержащим около 350 признаков и примерно 600 тысяч экземпляров. Однако некоторые признаки имеют большие объемы пропущенных значений
Data Science
Вопрос или проблема Я пытаюсь заменить недостающие значения в столбце “Age”, но с учетом других столбцов в этих данных Titanic – Машинное обучение на основе катастрофы df.Age[(df['Sex'] == 0) & (df['Pclass'] == 1)] Я пытался сделать
Data Science
Вопрос или проблема Я занимаюсь небольшим проектом по набору данных о уровне преступности в Чикаго, и я заметил, что в нем более 600 000 значений NA, в основном в полях местоположения.Мне кажется, что, несмотря на наличие около 6 миллионов строк (данные
Data Science
Вопрос или проблема Я работаю над проектом и использую алгоритм машинного обучения Random Forest. Прежде чем использовать модель, я должен был очистить свои данные, и я уже удалил пропущенные значения, но когда я пытаюсь использовать свою модель, она
Data Science
Вопрос или проблема У меня есть набор данных, скажем, с 1 миллионом наблюдений. В качестве глупого примера представим, что мы хотим предсказать, может ли человек стать специалистом по данным или нет (0/1). У меня есть переменные, в которых много пропусков
Data Science
Вопрос или проблема Стоит ли изучать корреляцию пропусков между столбцами? Если у вас сильно коррелированные отсутствующие значения (скажем, между двумя столбцами, A и B), как это изменит или повлияет на ваш взгляд на данные? Добавляет ли это новую информацию при анализе данных?