Сколько признаков мне выбрать при выполнении отбора признаков для регрессионных алгоритмов? Являются ли R2 и RMSE хорошими мерами успеха для проверки на переобучение?

Question 1

Контекст: В настоящее время я разрабатываю и сравниваю модели машинного обучения для прогнозирования данных о жилье. У меня около 32000 точек данных, 42 признака, и я предсказываю цену жилья. Я сравниваю регрессор случайного леса, регрессор дерева решений и линейную регрессию. Я вижу, что наблюдается некоторое переобучение, так как мои начальные значения по сравнению с перекрестными валидированными значениями следующие:

RF: 10-кратный R-квадрат = 0.758, отрицательный RMSE = -540.2 по сравнению с непроверенным R-квадратом 0.877 и RMSE 505.6

DT: 10-кратный R-квадрат = 0.711, отрицательный RMSE = -576.4 по сравнению с непроверенным R-квадратом 0.829 и RMSE 595.8.

LR: 10-кратный R-квадрат = 0.695, отрицательный RMSE = -596.5 по сравнению с непроверенным R-квадратом 0.823 и RMSE 603.7

Я уже настроил гиперпараметры для RF и DT, поэтому я думал о выборе признаков как следующем шаге, чтобы уменьшить некоторое из этого переобучения (особенно учитывая, что я знаю важность признаков/коэффициенты). Я хочу провести отбор признаков сейчас с помощью метода фильтрации (например, Pирсона), так как хочу, чтобы признаки, используемые в каждой модели, были последовательными.

Вопрос: Как мне определить количество признаков для выбора с помощью отбора признаков? Это произвольно? Или мне просто нужно удалить все те, которые не имеют большой корреляции с данными? Есть ли способ получить оптимальный набор признаков без выполнения поиска по сетке или случайного поиска?

Вопрос для уточнения: Являются ли значения R2 и RMSE, полученные с помощью перекрестной проверки, хорошими мерами успеха для сравнения переобучения?

Question 2

Переобучение возникает, когда ваша модель слишком точно соответствует обучающим данным и, следовательно, может не справляться с новыми данными или надежно предсказывать будущие наблюдения. По сути, когда производительность на наборе для обучения (или валидации) значительно лучше, чем на тестовом наборе.
У вас противоположный случай: производительность на тестовом наборе значительно лучше, чем на наборе валидации.

Это может произойти, если два набора данных не принадлежат одной и той же распределению (как вы разделили наборы для обучения/валидации/теста?). В этом случае данные тестового набора могут быть намного проще для прогнозирования.

Еще одной возможностью является то, что размер тестового набора слишком мал.

Мой совет: перемешайте свой набор данных; разделите на 70% для обучения и 30% для теста. Выполните перекрестную проверку на обучающем наборе. Вычислите R2 для обоих наборов.

Question 3

Используйте методы отбора признаков для регрессионных задач. Большинство библиотек машинного обучения имеют свои разновидности алгоритмов отбора признаков. Например, scikit-learn — это библиотека машинного обучения и науки о данных в парадигме программирования Python, которая содержит множество реализаций алгоритмов отбора признаков (готовых к использованию).

Напоминаю. Существуют методы отбора признаков для задач классификации, поэтому вам следует изучить вопрос, прежде чем выбирать какие-либо алгоритмы отбора признаков, чтобы избежать получения бесполезных или вводящих в заблуждение результатов.

Вопрос или проблема

Ответ или решение

Как выбрать количество признаков для отбора

Арбитрарность выбора признаков

Оценка переобучения с помощью R² и RMSE

Заключение