Какой лучший подход к работе с пропущенными данными в наборе данных?

Содержание

Вопрос или проблема
Ответ или решение
Шаги для работы с отсутствующими данными:
Заключение

Вопрос или проблема

У меня есть набор данных, содержащий пропущенные значения в некоторых столбцах. Я хотел бы знать, какой лучший подход для работы с этими недостающими данными. Следует ли мне удалять строки с пропущенными данными или заполнять отсутствующие значения какой-либо оценкой, например, средним или медианой? Каков эффект этих подходов на анализ данных? Есть ли другие методы, которые я могу использовать для работы с пропущенными данными?

В основном они касаются данных по транспортировке химических продуктов, приведу три примера:

https://cartblanche22.docking.org/

https://gpcrdb.org/

https://zhanggroup.org/GLASS/

Исходя из личного опыта, я бы сказал, что хорошим первым шагом будет попытаться понять, почему данные отсутствуют изначально.

Существуют сценарии, в которых понимание этого может помочь вам выбрать подход для работы с недостающими данными. Например, я сталкивался с наборами данных в прошлом, где пропущенные значения просто представляли собой 0, что позволило мне заполнить эти поля точными значениями. Это также может помочь ответить на вопросы, такие как: “будет ли удаление этих значений вводить отборный bias?”.

После этого есть множество техник, которые вы могли бы рассмотреть. Как вы упомянули, вы могли бы

удалить данные (если оставшиеся данные все же будут хорошо представлять популяцию, и у вас останется достаточно строк для анализа)
заполнить поля с помощью простой метрики, такой как среднее или медиана, хотя качество вашего набора данных пострадает (особенно если вы говорите о значительном количестве строк)

Также есть более сложные техники, такие как:

разработка отдельной модели для предсказания недостающих значений
и многое другое

В конечном итоге, метод, который вы выберете, во многом зависит от вашей ситуации и набора данных, но хорошее исследование ваших данных (если масштаб вашего проекта это позволяет), чтобы понять, почему эти значения отсутствуют, будет хорошим первым шагом (основано на моем личном опыте)

Ответ или решение

Вопрос о том, как лучше всего справляться с отсутствующими данными в наборе данных, является одним из наиболее распространенных и сложных в области анализа данных. Отсутствие значений может существенно повлиять на результаты анализа, поэтому важно подойти к этому вопросу системно и обоснованно.

Шаги для работы с отсутствующими данными:

Понять причины отсутствующих данных: Прежде всего, необходимо выяснить, почему данные отсутствуют. Это может произойти по самым различным причинам: ошибки в сборе данных, отсутствие информации на этапе ввода или отсутствие данных в процессе эксперимента. Поняв причины, можно выбрать более подходящий метод обработки отсутствующих значений. Например, если отсутствие данных связано с неинформативным вводом, возможно, стоит рассмотреть возможность замены этих значений на нулевые.
Оценка объема отсутствующих данных: Важно проанализировать, насколько много данных отсутствует и какие именно переменные затронуты. Если у вас есть относительно небольшое количество отсутствующих значений (например, менее 5-10% в столбце), то использование методов исключения или простого заполнения может быть оправданным.
Выбор подхода к обработке отсутствующих значений:
- Удаление строк или столбцов: Если отсутствующие данные составляют значительную часть набора (скажем, более 30%), удаление строк или столбцов может привести к потере ценной информации. Но если после удаления все еще сохраняется репрезентативность данных, это может быть приемлемым вариантом.
- Заполнение отсутствующих значений:
  - Среднее или медиана: Заполнение отсутствующих значений средним или медианой — простой и часто используемый метод, однако он может исказить истинное распределение данных, особенно если данные сильно несимметричны.
  - Моделирование для предсказания: Более сложный и точный подход заключается в создании модели, которая будет предсказывать отсутствующие значения на основе других переменных. Это может быть сделано с использованием методов машинного обучения, таких как регрессия, деревья решений и других алгоритмов. Однако этот подход требует больше времени и ресурсов.
  - Множественное импутирование: Это продвинутый метод, который комбинирует несколько методов предсказания для получения ситуации, в которой отсутствующие значения заполняются несколькими возможными вариантами. Это может улучшить качество во многих случаях.
Проверка и валидация: После того как вы применили определенный метод для работы с отсутствующими данными, важно протестировать результаты. Вы можете использовать кросс-валидацию, чтобы оценить влияние выбранного метода на окончательную модель, а также проверить, не возникла ли предвзятость.
Документация принятых решений: Ключевым аспектом обработки отсутствующих данных является ведение документации по всем использованным методам и принятым решениям. Это поможет в будущем понять, как данные были обработаны, и оценить результативность принятых решений.

Заключение

Выбор подхода к работе с отсутствующими данными зависит от конкретной ситуации, объема данных и их характеристик. Являясь важным аспектом анализа данных, данное решение требует внимательного рассмотрения и понимания влияния различных методов на итоговые результаты. Поэтому всегда рекомендуется проводить предварительный анализ данных и использовать сложные методы, когда это оправдано.