Могут ли данные утекать из обучающего набора в тестовый набор, как и наоборот?

Содержание

Вопрос или проблема
Ответ или решение
Понимание утечки данных
Особенности вашего случая
Важные аспекты:
Опасения вашего коллеги
Заключение
Рекомендации

Вопрос или проблема

Я спорил с моим коллегой по этому поводу. Мы знаем, что утечка данных становится проблемой, когда обучающие данные имеют возможность заглянуть в тестовые данные перед фазой тестирования. Но является ли это действительно проблемой, если происходит обратное?

Я изменю наш точный случай использования по соображениям конфиденциальности. Но в основном, скажем, я предсказываю, примет ли таксист запрос на поездку. Некоторые из признаков, которые мы используем для этого, — это исторические данные водителя за все его поездки (например, его общий процент принятия). Теперь для обучающего набора данных я очевидно рассчитываю историю водителей только на основе обучающих данных. Однако для тестового набора данных я вычислил признаки истории водителя на основе всего набора данных. Причина в том, что исторические данные каждого водителя также будут доступны во время вывода в производственной среде. Кроме того, многие водители не будут иметь никаких исторических данных, если мы будем рассчитывать их только на основе тестового набора. Обратите внимание, что мой разбиение на обучающий и тестовый наборы основано на времени. Весь тестовый набор находится в будущем по сравнению с обучающим набором.

Мой коллега утверждает, что это неправильно и что это все еще утечка данных, но я не согласен.

Каковы были бы ваши взгляды на это?

Ответ или решение

Вопрос о том, может ли произойти утечка данных с обучающего набора на тестовый, и наоборот, является актуальным для многих специалистов в области анализа данных и машинного обучения. Проведем детальный анализ ситуации, описанной вами, и определим, что означает утечка данных в контексте вашего примера.

Понимание утечки данных

Утечка данных — это ситуация, когда информация из тестовой выборки каким-либо образом влияет на результаты модели, обучаемой на тренировочных данных. Это может привести к необъективным оценкам ее производительности. В вашем случае возникает вопрос о том, является ли использование исторических данных водителя, охватывающих весь набор данных, утечкой по отношению к тестовым данным.

Особенности вашего случая

Вы работаете с задачей прогнозирования поведения водителей такси на основании их предыдущих поездок. Вы рассчитываете исторические метрики (например, коэффициент принятия заказов) на основе всей доступной информации, что позволяет вам получить более полное представление о водителе. При этом ваше разделение на обучающий и тестовый наборы осуществляется на основе временного принципа, где тестовые данные находятся в будущем относительно обучающего набора.

Важные аспекты:

Временное разделение: Вы уже используете временное разделение, что ограничивает возможность «подглядывания» модели в будущее. Это позволяет сохранить целостность оценки модели.
Доступные данные в продакшене: Ваши особенности, такие как исторические данные по каждому водителю, будут доступны в момент индикации (inference) в продуктивной среде. Следовательно, использование этих данных при оценке модели является правомерным и необходимо для адекватного прогнозирования.
Отсутствие конкретной информации о тестовых данных: Если на этапе подготовки тестового набора вы не использовали информацию, которой не было в доступных данных во время обучения, это снижает вероятность утечки. Ваша модель предполагает наличие всей информации о водителе, что делает ее более применимой на практике.

Опасения вашего коллеги

Ваш коллега, возможно, считает, что обобщая историю водителей на весь набор данных, вы всё же допускаете утечку, поскольку это может создать ненадежные оценки. Если бы, например, данные, зафиксированные в тестовом наборе, каким-то образом влияли на выборку или обучение, это привело бы к более высокой оценке модели на тесте, что не соответствует реальным условиям.

Заключение

Ваша практика использования специализированных метрик исторических данных водителей не является утечкой информации, если эти данные доступны и применимы в реальной ситуации, когда модель будет использоваться в продуктивной среде. Таким образом, подход вашего коллеги может носить преувеличенный характер, и ваше решение сохраняет баланс между необходимостью точного прогнозирования и целостностью данных.