Вопрос или проблема
Как указано в заголовке, после того как я провел отбор признаков, обязательно ли соблюдать то же самое соотношение (между набором для разработки и тестовым набором) в отборе модели?
Если я правильно понимаю, вы отобрали определенный набор признаков с использованием какой-либо техники отбора признаков и собираетесь обучить (разработать) модель.
Теперь вы хотите узнать, нужно ли использовать тот же набор признаков в тестовом наборе.
Если это так, то определенно ДА.
На самом деле для всех данных мы применяем процесс отбора признаков, а затем только разделяем данные для разработки (обучения) и тестирования.
Примечание: Если я неправильно понял или вам нужно что-то другое, пожалуйста, дайте больше информации.
Спасибо
Отбор признаков не имеет отношения к модели. Это просто нахождение списка потенциальных связанных (или даже несвязанных) признаков, которые могут быть в модели, поэтому не существует правила, что они обязательно должны быть из обучающего набора. Они могут быть из другой похожей модели, созданной кем-то другим. Это на самом деле дает большую достоверность, так как они уже были определены как действительные признаки в аналогичной модели. Однако как только признаки становятся частью обучающего набора, они должны быть и в тестовом наборе.
Ответ или решение
Определение оптимальных соотношений в данных для этапов разработки и тестирования является ключевым аспектом в процессе создания моделей машинного обучения. Вопрос о необходимости одинакового распределения при выборе признаков (feature selection) и выборе модели (model selection) требует тщательного анализа.
Теория
Фича-инжиниринг и выбор модели являются неотъемлемыми компонентами разработки алгоритмов на основе данных. Выбор признаков — это процесс идентификации наиболее значимых переменных из множества исходных данных, которые впоследствии будут использоваться для создания модели. Важно понимать, что выбор признаков обычно осуществляется до разделения набора данных на тренировочный и тестовый наборы. Это позволяет избежать утечки информации и обеспечить более объективную оценку модели.
Соотношение набора для разработки (development set) и тестового набора (test set) при выборе модели имеет свои особенности. Основная цель — создать модель, которая будет эффективно обобщать данные, что требует правильного выбора параметров модели и оценки ее производительности на тестовом наборе данных, который не был задействован в обучении.
Пример
Рассмотрим пример, когда у нас есть набор данных из 10 000 строк. Как только выбран наиболее релевантный набор признаков, следует разделить данные на подмножества для обучения и тестирования, например, в соотношении 80/20. Это соотношение будет одинаково использоваться как для задачи выбора параметров модели, так и для окончательной оценки ее качества.
При этом стоит отметить, что этап выбора признаков должен учитывать все данные до их разделения, чтобы избежать искусственного завышения оценки модели, что может произойти при воздействии на тестовые данные на этапе выбора признаков.
Применение
В практическом смысле соблюдение одинакового соотношения разработки и теста позволяет гарантировать, что выбор модели базируется на корректных оценках ее производительности. После того как выбран оптимальный набор признаков, он используется как для создания обучающего набора, так и для тестового. Это означает, что все выбранные признаки должны присутствовать во всех подмножествах данных.
Таким образом, хотя непосредственно выбора признаков и выбора модели необязательно делить данные в тех же самых соотношениях, после выбора признаков обязательно следует придерживаться единого подхода к разбиению данных для всех последующих этапов моделейрования. Это минимизирует риск возникновения систематических ошибок и повышает достоверность полученных результатов.
Своевременное и правильное применение данных принципов способно ощутимо увеличить точность и надежность создаваемых моделей.