Разделение данных для оценки регрессии методом наименьших квадратов (МНК)

Содержание

Вопрос или проблема
Ответ или решение
Теория
Примеры
Пример перекрёстной проверки
Пример использования Lasso для выбора признаков
Применение

Вопрос или проблема

Вот что я сделал: разделил свой набор данных на обучающие и тестовые наборы -> получил значительные признаки с помощью выбора признаков, используя последовательный селектор признаков (MLxtend) на обучающем наборе -> использовал значительные признаки для подгонки линейной предсказательной модели -> протестировал модель на тестовом наборе.

Однако ошибка как для моего тестового, так и для обучающего набора довольно велика. Стоит ли пересмотреть решение о разделении набора данных? Буду признателен за любую помощь!

(Я не специалист по науке о данных)

Неясно, в каком отношении вы разделили набор данных. Если набор данных мал, вы можете попробовать кросс-валидацию и проверить метрики. Также можно попробовать различные соотношения 80-20, 30-70 и сравнить метрики. После этого вы можете также проверить использование различных техник выбора признаков – Lasso, основанные на деревьях и т.д.

Ответ или решение

Разделение данных для регрессии методом наименьших квадратов (OLS) является важным шагом в построении и оценке модели. Этот процесс позволяет оценить, как хорошо модель может обобщать информацию на новых, невиденных данными. В вашем случае, хотя вы уже провели разделение данных на обучающий и тестовый наборы, а также использовали выбор признаков с помощью Sequential Feature Selector (SFS) из библиотеки MLxtend, проблема заключается в том, что ошибка на обеих наборах данных остаётся высокой. Давайте рассмотрим возможные решения данной проблемы.

Теория

Когда речь идёт о разделении данных и обучении моделей машинного обучения, существует несколько ключевых моментов, которые необходимо учесть:

Разделение данных: Оптимальная пропорция для разделения данных на обучающие и тестовые наборы зависит от размера и специфики вашего датасета. Наиболее распространённые пропорции включают 70-30, 80-20 и 60-40, где первая часть предназначена для обучения, а вторая — для тестирования модели.
Кросс-валидация: При небольших объемах данных использование перекрёстной проверки (cross-validation) может быть более предпочтительно. Метод КФ-склады (K-fold) обычно используется для оценки стабильности модели. Например, 10-кратная кросс-валидация делит данные на 10 частей, используя каждый кусок как тестовый набор, а остальные — как обучающие.
Выбор признаков: Выбранный метод выбора признаков может влиять на производительность модели. Помимо SFS, стоит исследовать другие методы, такие как Lasso, который добавляет L1-регуляризацию, уменьшение размерности с помощью PCA, или деревья решений, которые автоматически учитывают важность признаков.

Примеры

Рассмотрим пример работы с этими концепциями на практике:

Пример перекрёстной проверки

При небольшом количестве данных важно использовать подход кросс-валидации для стабильной оценки модели:

from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression

# Предположим, что у нас есть X и y, где X - ваш набор данных без меток, а y - целевая переменная
model = LinearRegression()
scores = cross_val_score(model, X, y, cv=10, scoring='neg_mean_squared_error')
mean_error = scores.mean()

print(f'Средняя квадратичная ошибка модели по перекрёстной проверке: {-mean_error}')

Пример использования Lasso для выбора признаков

Lasso-регрессия также может быть полезной, так как она склонна задавать коэффициенты многих признаков равными нулю, оставляя только самые влиятельные:

from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split

# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение Lasso-режессии
lasso = Lasso(alpha=0.1)
lasso.fit(X_train, y_train)

# Просмотр важных признаков
importance = lasso.coef_
print(f'Важность признаков: {importance}')

Применение

Теперь, когда вы ознакомились с теорией и примерами, рассмотрим, как эти элементы могут быть применены на практике в вашем проекте:

Пересмотр разделения данных: Попробуйте различные пропорции разделения, как 80-20 или 70-30. Это поможет определить, чувствительна ли ваша модель к количеству тренировочных данных.
Используйте кросс-валидацию: Если данные ограничены, используйте кросс-валидацию для более обоснованной оценки производительности вашей модели.
Изучение различных стратегий выбора признаков: Попробуйте применить методы, такие как Lasso или деревья решений, чтобы выбрать признаки. Это может оказать значительное влияние на производительность вашей линейной модели.
Диагностика и регулировка модели: Возможно, ваша модель страдает от недостаточной или чрезмерной подгонки. Рассмотрите возможность добавления регуляризационных методов или пересмотра гиперпараметров модели.

По итогу, улучшение процесса разделения данных, выбор оптимального метода для выбора признаков и тщательная диагностика модели шаг за шагом обеспечат вас моделью, способной более эффективно генерировать предсказания. Помните, что в машинном обучении нет универсального подхода, поэтому итеративное применение и адаптация вышеописанных методов помогут вам достичь лучших результатов.