- Вопрос или проблема
- Результаты OLS регрессии
- Ответ или решение
- Улучшение Omnibus и R² для модели OLS: Полный анализ и рекомендации
- Введение
- Понимание показателей
- 1. Omnibus тест и его значение
- 2. Коэффициент детерминации R²
- Рекомендации по улучшению
- 1. Добавление новых фичей
- 2. Трансформации переменных
- 3. Использование регуляризации
- 4. Проверка взаимодействий и мультиколлинеарности
- 5. Анализ остатков
- 6. Настройка модели
- 7. Использование традиционных методов
- Заключение
Вопрос или проблема
Проверяю в этом сообществе, может кто-то сможет помочь с этой проблемой, опубликованной на Cross Validated.
Подробный вопрос представлен ниже:
Результаты OLS регрессии
===============================================================================
Зависимая переменная: Убытки в тысячах R-квадрат: 0.305
Модель: OLS Скорректированный R-квадрат: 0.304
Метод: Метод наименьших квадратов F-статистика: 1171.
Дата: Пт, 20 Дек 2019 Вероятность (F-статистика): 0.00
Время: 11:12:52 Логарифм правдоподобия: -72503.
Количество наблюдений: 10703 AIC: 1.450e+05
Df остатков: 10698 BIC: 1.451e+05
Df модели: 4
Тип ковариации: непараметрический
======================================================================================
коэффициент стандартная ошибка t P>|t| [0.025 0.975]
--------------------------------------------------------------------------------------
const 539.6565 7.950 67.884 0.000 524.074 555.239
Возраст -6.1490 0.112 -54.971 0.000 -6.368 -5.930
Количество автомобилей -1.7906 2.151 -0.832 0.405 -6.007 2.426
M 97.2349 4.094 23.750 0.000 89.210 105.260
Одинокий 136.7923 4.094 33.410 0.000 128.767 144.818
==============================================================================
Omnibus: 7898.559 Durbin-Watson: 2.010
Вероятность(Omnibus): 0.000 Jarque-Bera (JB): 403312.043
Скошенность: 3.029 Вероятность(JB): 0.00
Куртозис: 32.456 Условно. номер: 187.
==============================================================================
Выше представлены результаты модели OLS, которую я запустил на Python.
Ниже представлены мои несколько выводов:
-
Omnibus: значение близко к нулю, чтобы указать на нормальное распределение
ошибки -
Prob(Omnibus): значение должно быть близко к 1 для нормального распределения
ошибок -
Скошенность: то же, что и выше, близко к нулю
-
Условный номер – указывает на мультиколлинеарность, поэтому он должен быть относительно малым числом, ниже 30. В приведенных ниже результатах он значительно выше 30, но с
функцией корреляции, я не увидел никакой корреляции (я нашел одну, но
исключил переменную, так что ничего не осталось)Результаты после логарифмического преобразования переменной y.
Результаты OLS регрессии
Зависимая переменная: Убытки в тысячах R-квадрат: 0.326
Модель: OLS Скорректированный R-квадрат: 0.326
Метод: Метод наименьших квадратов F-статистика: 1295.
Дата: Пт, 20 Дек 2019 Вероятность (F-статистика): 0.00
Время: 14:34:13 Логарифм правдоподобия: -9712.2
Количество наблюдений: 10703 AIC: 1.943e+04
Df остатков: 10698 BIC: 1.947e+04
Df модели: 4
Тип ковариации: непараметрический
======================================================================================
коэффициент стандартная ошибка t P>|t| [0.025 0.975]
--------------------------------------------------------------------------------------
const 6.3490 0.023 281.983 0.000 6.305 6.393
Возраст -0.0203 0.000 -64.137 0.000 -0.021 -0.020
Количество автомобилей 0.0007 0.006 0.118 0.906 -0.011 0.013
M 0.2137 0.012 18.429 0.000 0.191 0.236
Одинокий 0.3159 0.012 27.240 0.000 0.293 0.339
==============================================================================
Omnibus: 1231.182 Durbin-Watson: 1.998
Вероятность(Omnibus): 0.000 Jarque-Bera (JB): 1943.765
Скошенность: -0.825 Вероятность(JB): 0.00
Куртозис: 4.279 Условно. номер: 187.
=============================================================================
Корреляционная матрица:
Ac_No Возраст Годы опыта Количество автомобилей Убытки в тысячах Убытки в тысячах_лог
Ac_No 1.000000 0.008291 0.008437 -0.003056 -0.000794 -0.001057
Возраст 0.008291 1.000000 0.997161 0.008366 -0.442962 -0.509823
Годы опыта 0.008437 0.997161 1.000000 0.008545 -0.442115 -0.511495
Количество автомобилей -0.003056 0.008366 0.008545 1.000000 -0.011553 -0.004839
Убытки -0.000794 -0.442962 -0.442115 -0.011553 1.000000 0.849515
Убытки_лог -0.001057 -0.509823 -0.511495 -0.004839 0.849515 1.000000
Описание():
Возраст Количество автомобилей M Одинокий
count 10703.000000 10703.000000 10703.000000 10703.000000
mean 42.519761 2.497804 0.492292 0.490984
std 18.298802 0.951530 0.499964 0.499942
min 16.000000 1.000000 0.000000 0.000000
25% 24.000000 2.000000 0.000000 0.000000
50% 42.000000 2.000000 0.000000 0.000000
75% 61.000000 3.000000 1.000000 1.000000
max 70.000000 4.000000 1.000000 1.000000
R-квадрат также очень низкий в этом случае (0.33), хотя было небольшое улучшение с логарифмическим преобразованием (с 0.31 до 0.33).
Чтобы получить хорошую модель и чтобы значения “Omnibus” и других параметров были в пределах, что еще я могу сделать?
В statsmodels, Omnibus – это тест на скошенность и куртозис остатков. Идеально, если значение Prob(Omnibus) близко к нулю, что указывает на нормальность остатков.
Omnibus и Prob(Omnibus) не являются полезными мерами хорошести модели.
Одним из вариантов улучшения подгона модели является увеличение количества признаков. Примеры могут включать добавление взаимодействий и полиномиальных членов.
Ответ или решение
Улучшение Omnibus и R² для модели OLS: Полный анализ и рекомендации
Введение
При анализе результатов регрессионного моделирования, представленных в вашем запросе, могут возникнуть два основных вопроса: как улучшить значение статистики Omnibus, а также как повысить коэффициент детерминации R² для модели OLS. Оба показателя играют ключевую роль в оценке качества модели, и в данной статье мы рассмотрим методы, способные помочь в их улучшении.
Понимание показателей
1. Omnibus тест и его значение
Omnibus тест служит для проверки нормальности распределения остатков модели. Он объединяет тесты на асимметрию (skewness) и куртоз (kurtosis). Идеальное значение для статистики Omnibus — это число, близкое к нулю, а для Prob(Omnibus) — значение, близкое к единице. Если Prob(Omnibus) значительно ниже 0.05, это говорит о потенциальной не нормальности остатков.
2. Коэффициент детерминации R²
Коэффициент R² указывает на долю вариации зависимой переменной, которую можно объяснить независимыми переменными. Значение R² в 0.33 указывает на то, что только треть вариации зависимой переменной объясняется текущими предикторами, что считается низким показателем.
Рекомендации по улучшению
1. Добавление новых фичей
Увеличение числа предикторов модели может значительно повысить актуальность. Рассмотрите возможность добавления:
- Полиномов и взаимодействий между переменными. Например, можно проанализировать квадраты или кубы переменных, чтобы уловить возможные нелинейные связи.
- Дополнительных переменных, которые могут оказать влияние на зависимую переменную, например, информацию о доходах, сфере деятельности, количестве аварий, и т.д.
2. Трансформации переменных
Трансформации переменных, такие как логарифмическая или Box-Cox трансформация, могут помочь в снижении асимметрии данных и улучшении условности модели. Обратите внимание на текущие трансформации и экспериментируйте с другими форматами.
3. Использование регуляризации
Если у вас много предикторов, подумайте о таких методах, как Lasso и Ridge регрессия для борьбы с многофакторной коллинеарностью и повышения прогностической силы модели.
4. Проверка взаимодействий и мультиколлинеарности
Проверьте, присутствуют ли взаимодействия между переменными, которые могут не учитываться с помощью линейных регрессий. Кроме того, убедитесь, что ваша модель не страдает от мультиколлинеарности, например, путем вычисления VIF (коэффициентов инфляции дисперсии).
5. Анализ остатков
Исследуйте остатки вашей модели для выявления специфики, таких как:
- Наличие автокорреляции (проверка с помощью теста Дурбина-Уотсона).
- Оценка нормальности остатков с помощью Q-Q графиков.
6. Настройка модели
Проведите дополнительный анализ методов обучения, таких как K-кратная перекрестная проверка, для лучшего выбора модели и улучшения обобщающей способности модели.
7. Использование традиционных методов
Подумайте о применении других статистических методов, таких как случайный лес или градиентный бустинг, которые могут предложить лучшую адаптацию и учёт сложных взаимосвязей в данных.
Заключение
В процессе улучшения модели OLS важно учитывать как качественные, так и количественные аспекты исходных данных. Подходите к анализу со всех сторон, используя различные методы и техники. Это поможет как в улучшении Omnibus и R², так и в повышении качества предсказаний модели. Постоянное тестирование и переоценка моделей — ключевой аспект успешного анализа данных.
Для более глубокого понимания и анализа данных, пожалуйста, дайте знать, каковы ваши дальнейшие шаги и решения, чтобы мы могли помочь вам более эффективным образом в ваших аналитических стремлениях.