Выбор признаков, полученных из целевой переменной.

Вопрос или проблема

Я начинающий в области машинного обучения, хотя у меня обширный опыт в вычислительной технике. Я собираюсь начать проект по машинному обучению, и есть что-то, что я не совсем понимаю. Например, если я пытаюсь предсказать смертность населения с использованием модели машинного обучения, могу ли я включить в качестве признака количество этого населения, которое фактически является начальным количеством за вычетом всех смертностей? Можно ли использовать признаки, которые выведены из целевого признака?
Похожий пример — предсказание средней массы населения в момент времени t. Могу ли я использовать среднюю массу в момент времени t-1 в качестве входных данных для модели?
Другими словами, могу ли я использовать столбец, который я пытаюсь предсказать, в качестве входных данных в мою таблицу (например, предшествующее значение перед тем, которое я пытаюсь предсказать, n-1, чтобы предсказать n) или признаки, полученные из этого столбца?
Надеюсь, я ясно выразился. Как я уже сказал, только начинаю свое путешествие в области машинного обучения, и это одна из вещей, которая вызывает у меня некоторые первоначальные проблемы. Любая помощь очень ценится. Бонусные баллы, если кто-то сможет предоставить ссылку.
С наилучшими пожеланиями.

Проблема, которую вы описываете, связана с утечкой данных, что, грубо говоря, является проблемой при вводе информации о целевой переменной в ваши обучающие данные, и такая информация будет отсутствовать при прогнозировании новых, ранее невиданных экземпляров с помощью вашей модели.

.

Ответ или решение

Введение в машинное обучение (МО) может быть сложным, особенно когда речь идет о выборе признаков, которые извлекаются из целевой переменной. Ваш вопрос непосредственно касается проблемы, известной как "утечка данных" (data leakage). Рассмотрим этот аспект более подробно, применяя методологический подход FORREST.

Формирование понимания проблемы
Утечка данных возникает, когда информация о целевой переменной случайно попадает в тренировочный набор данных, и она будет недоступна при прогнозировании новых данных. Это может привести к чрезмерной оптимизации модели на тренировочных данных и снижению ее производительности на новых данных. Основной вопрос, который нужно рассмотреть: включение характеристик, полученных непосредственно из целевой переменной, потенциально угрожает полезности и обобщающей способности модели.

Объяснение концепций

  1. Утечка данных: Это основная проблема, когда в тренировочную фазу включаются переменные, которые имеют прямую или косвенную информацию о значениях целевой переменной. Такой подход может привести к ложной уверенности в производительности модели.
  2. Временные ряды и лаговые переменные: В вашем примере с предсказанием средней массы в момент времени t возможно использование переменных предыдущих периодов (например, массы в t-1) при условии, что они доступны в момент предсказания и не содержат информации о будущем. Это не будет считаться утечкой данных.

Рекомендации

  • Избегайте использования производных признаков от целевой переменной: Если вы создаете характеристику, которая напрямую или косвенно вычисляется с использованием целевой переменной, существует высокий риск утечки данных.
  • Используйте исправно лаговые переменные: Временные ряды – это область, где использование значений из предыдущих временных точек (лаговые переменные) может быть оправдано, если они не зависят от будущих событий.

Результаты
Включение неправильно подобранных признаков может исказить результаты модели, уменьшив её продуктивность в реальных условиях. В результате, ваша модель может демонстрировать впечатляющие результаты на тренировочном наборе данных, но столкнуться с проблемами при применении на новых данных.

Рекомендации по применению
Перед началом моделирования четко определите, какие данные будут доступны в будущем при предсказаниях, и постройте модель с оглядкой на эти ограничения.

В заключение и ссылки
Ваш вопрос затрагивает важные аспекты машинного обучения, и знание о проблеме утечки данных будет полезно для дальнейших проектов. Вы можете ознакомиться с дополнительной информацией на ресурсах, таких как Kaggle, и документацией по принципам построения моделей временных рядов и предпроцессинга данных.

Оцените материал
Добавить комментарий

Капча загружается...