Как обрабатывать неопределённые значения, которые имеют смысл?

Question 1

В настоящее время я пытаюсь создать несколько функций для улучшения производительности модели. Одна из этих функций, которую я хотел бы создать, соответствует разнице в днях между покупкой клиента и его последней покупкой. Создать эту функцию не проблема. Однако я не знаю, какое значение установить, если это первая покупка клиента. Какое значение следует установить и, более общо, как обрабатывать такие случаи?

   customer_id date_purchase  diff_last_purchase  first_purchase
0            1    2018.02.12                 NaN               1
1            1    2018.02.18                 6.0               0
2            2    2018.02.25                 NaN               1
3            3    2018.03.15                 NaN               1
4            3    2018.03.18                 3.0               0

Question 2

Недавно обсуждали такую же тему на работе. В итоге пришли к кодированию пропущенных значений как невозможных (отрицательные, очень высокие) или как информации, выведенной из набора данных (среднее, медиана). Некоторые более сложные методы используют модели, построенные на оставшихся данных (непропущенные столбцы), чтобы предсказать пропущенные.

Если используется подход на основе деревьев, установка значения -1 может быть хорошим началом, поскольку могут быть наблюдения, где предыдущая покупка была в тот же день (0).

С моделями, ориентированными на среднее (линейная регрессия), установка на среднее тоже может быть приемлемой, но необходимо вычислить среднее только на обучающем наборе и отдельно применить его к тестовому набору.

Question 3

В общем, если мы не знаем причину отсутствующих данных, трудно правильно их обработать. Эта причина может существенно повлиять на наш вывод. Поэтому моя первая рекомендация всегда пытаться выяснить, почему данные отсутствуют в первую очередь.

Обычно существуют 3 типа отсутствующих данных: (Определения на Википедии)

Полностью случайное отсутствие данных

Значения в наборе данных отсутствуют полностью случайно (MCAR), если события, приводящие к отсутствию любых данных-элементов, независимы как от наблюдаемых переменных, так и от ненаблюдаемых параметров интереса и происходят полностью случайно. Когда данные MCAR, проведенный анализ является непредвзятым; однако данные редко бывают MCAR.

Отсутствие данных случайным образом

Отсутствие данных случайным образом (MAR) происходит, когда отсутствие данных не является случайным, но может быть полностью объяснено переменными, по которым имеется полная информация. Поскольку MAR является предположением, которое невозможно статистически проверить, мы должны полагаться на его содержательную разумность.

Отсутствие данных не случайным образом

Отсутствие данных не случайным образом (MNAR) (также известно как неигнорируемый неответ) — это данные, которые не являются ни MAR, ни MCAR (то есть значение переменной, которая отсутствует, связано с причиной ее отсутствия).

Тоже из этой страницы Википедии:

Отсутствие данных снижает репрезентативность выборки и, следовательно, может исказить выводы о населении. В общем, существуют три основных подхода к обработке отсутствующих данных: (1) Импутация — когда значения заполняются вместо отсутствующих данных, (2) исключение — когда образцы с недопустимыми данными исключаются из дальнейшего анализа и (3) анализ — с прямым применением методов, не затронутых отсутствующими данными.

“В случае MCAR отсутствие данных не связано с каким-либо изучаемым переменным”, поэтому вы можете просто их удалить или применить разумную импутацию и продолжать анализировать данные. Я знаю только один тест для проверки MCAR, это Тест Литтла.

Я не знаю, как справляться со вторым и третьим случаями, так что все, что я могу сказать, — пожалуйста, обращайтесь с ними осторожно. Если доля отсутствующих данных слишком велика, я просто удаляю весь датафрейм.

Как обрабатывать неопределённые значения, которые имеют смысл?

Вопрос или проблема

Ответ или решение

Теория

Пример

Применение

Заключение