Машинное обучение с преднамеренными пропусками данных

Question 1

У меня есть набор данных, касающийся людей, завершающих обзоры, целевая переменная — является ли решение по обзору правильным/неправильным, а одна из моих характеристик — это показатель точности за последние 4 недели для рецензента.

Однако эти показатели точности не всегда доступны. Мой вопрос заключается в том, как моделировать эти данные — отсутствие доступных показателей точности может быть сигналом. Из моего исследования этого вопроса, я вижу, что пропущенные значения должны быть восполнены или удалены. Мне интересно, существуют ли техники, позволяющие включить факт отсутствия данных в набор данных.

Возможно, я мог бы преобразовать показатель в категориальную переменную {низкий, средний, высокий, недоступен} – будет ли это обычной практикой? Я открыт для предложений и хотел бы услышать, что обычно делают в таких сценариях.

Question 2

Обычный случай пропущенных значений, для которого данные заменяются или удаляются, предполагает, что пропуски появляются случайным образом, поэтому отсутствие значения не имеет значения для задачи.

Из вашего описания следует, что в ваших данных факт отсутствия значения значим сам по себе. Поэтому я бы сказал, что в данном случае имеет смысл представить эту информацию как категориальную переменную. Обратите внимание, что это может быть представлено как специальное значение для функции показателя, но это не обязательно должна быть та же переменная.

Question 3

Для помощи в поиске других ресурсов, это обычно называют “отсутствие не случайно”.

Некоторые модели, такие как xgboost, обрабатывают пропущенные значения по своей сути, делая разбиения дерева на реальное значение, но затем выбирая, в какую ветвь отправить пропущенные значения. (Другие реализации CART этого не делают, а семейство деревьев Куинлана действует совсем по-другому.)

Для других моделей я бы рекомендовал добавить функцию “индикатор отсутствия” и затем выполнить иммитацию. Особенно для линейных моделей, коэффициент по исходной функции может соответствовать “реальному” уклону, в то время как коэффициент по индикатору “исправляет” пропущенные значения (и любую используемую вами иммитацию). См., например, этот ответ на stats.SE.

Question 4

Если ваше исследование показало, что вам либо придется удалять наблюдения и проводить анализ с полными случаями, что приведет к потере данных и, следовательно, прогностической силы, либо соответствующим образом заполнить набор данных и также ввести меру для учета изменчивости, вы можете просто ввести Множественную Иммутацию (МИ) в ваш набор данных. Заполняя m наборов данных и объединяя их с использованием правил Рубина, вы сможете использовать свой алгоритм машинного обучения по мере необходимости.
Вот статья о MICE и дополнительная информация о применении в R. Вы найдете полезную литературу для углубления в тему в библиографии.
https://stefvanbuuren.name/publications/2011%20MICE%20-%20JSS.pdf
https://cran.r-project.org/web/packages/mice/mice.pdf

Машинное обучение с преднамеренными пропусками данных

Вопрос или проблема

Ответ или решение