Улучшения Омнибуса и R-квадрата для модели OLS

Вопрос или проблема

Проверяю в этом сообществе, может кто-то сможет помочь с этой проблемой, опубликованной на Cross Validated.

Подробный вопрос представлен ниже:

                             Результаты OLS регрессии                            
===============================================================================
Зависимая переменная:     Убытки в тысячах   R-квадрат:                       0.305
Модель:                             OLS   Скорректированный R-квадрат:      0.304
Метод:                  Метод наименьших квадратов   F-статистика:                     1171.
Дата:                 Пт, 20 Дек 2019   Вероятность (F-статистика):       0.00
Время:                         11:12:52   Логарифм правдоподобия:         -72503.
Количество наблюдений:          10703   AIC:                         1.450e+05
Df остатков:                    10698   BIC:                         1.451e+05
Df модели:                            4                                         
Тип ковариации:             непараметрический                                         
======================================================================================
                         коэффициент    стандартная ошибка          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------------
const                539.6565      7.950     67.884      0.000     524.074     555.239
Возраст                   -6.1490      0.112    -54.971      0.000      -6.368      -5.930
Количество автомобилей    -1.7906      2.151     -0.832      0.405      -6.007       2.426
M                     97.2349      4.094     23.750      0.000      89.210     105.260
Одинокий               136.7923      4.094     33.410      0.000     128.767     144.818
==============================================================================
Omnibus:                     7898.559   Durbin-Watson:                   2.010
Вероятность(Omnibus):                  0.000   Jarque-Bera (JB):           403312.043
Скошенность:                           3.029   Вероятность(JB):                         0.00
Куртозис:                      32.456   Условно. номер:                         187.
==============================================================================

Выше представлены результаты модели OLS, которую я запустил на Python.

Ниже представлены мои несколько выводов:

  • Omnibus: значение близко к нулю, чтобы указать на нормальное распределение
    ошибки

  • Prob(Omnibus): значение должно быть близко к 1 для нормального распределения
    ошибок

  • Скошенность: то же, что и выше, близко к нулю

  • Условный номер – указывает на мультиколлинеарность, поэтому он должен быть относительно малым числом, ниже 30. В приведенных ниже результатах он значительно выше 30, но с
    функцией корреляции, я не увидел никакой корреляции (я нашел одну, но
    исключил переменную, так что ничего не осталось)

    Результаты после логарифмического преобразования переменной y.

Результаты OLS регрессии

    Зависимая переменная:     Убытки в тысячах   R-квадрат:                       0.326
    Модель:                             OLS   Скорректированный R-квадрат:      0.326
    Метод:                  Метод наименьших квадратов   F-статистика:                     1295.
    Дата:                 Пт, 20 Дек 2019   Вероятность (F-статистика):       0.00
    Время:                         14:34:13   Логарифм правдоподобия:         -9712.2
    Количество наблюдений:          10703   AIC:                         1.943e+04
    Df остатков:                    10698   BIC:                         1.947e+04
    Df модели:                            4                                         
    Тип ковариации:             непараметрический                                         
    ======================================================================================
                             коэффициент    стандартная ошибка          t      P>|t|      [0.025      0.975]
    --------------------------------------------------------------------------------------
    const                  6.3490      0.023    281.983      0.000       6.305       6.393
    Возраст                   -0.0203      0.000    -64.137      0.000      -0.021      -0.020
    Количество автомобилей     0.0007      0.006      0.118      0.906      -0.011       0.013
    M                      0.2137      0.012     18.429      0.000       0.191       0.236
    Одинокий                 0.3159      0.012     27.240      0.000       0.293       0.339
    ==============================================================================
    Omnibus:                     1231.182   Durbin-Watson:                   1.998
    Вероятность(Omnibus):                  0.000   Jarque-Bera (JB):             1943.765
    Скошенность:                          -0.825   Вероятность(JB):                         0.00
    Куртозис:                       4.279   Условно. номер:                         187.
    =============================================================================

Корреляционная матрица:

    Ac_No   Возраст Годы опыта Количество автомобилей  Убытки в тысячах Убытки в тысячах_лог
Ac_No   1.000000    0.008291    0.008437    -0.003056   -0.000794   -0.001057
Возраст 0.008291    1.000000    0.997161    0.008366    -0.442962   -0.509823
Годы опыта  0.008437    0.997161    1.000000    0.008545    -0.442115   -0.511495
Количество автомобилей  -0.003056   0.008366    0.008545    1.000000    -0.011553   -0.004839
Убытки    -0.000794   -0.442962   -0.442115   -0.011553   1.000000    0.849515
Убытки_лог  -0.001057   -0.509823   -0.511495   -0.004839   0.849515    1.000000

Описание():

Возраст Количество автомобилей  M   Одинокий
count   10703.000000    10703.000000    10703.000000    10703.000000
mean    42.519761   2.497804    0.492292    0.490984
std 18.298802   0.951530    0.499964    0.499942
min 16.000000   1.000000    0.000000    0.000000
25% 24.000000   2.000000    0.000000    0.000000
50% 42.000000   2.000000    0.000000    0.000000
75% 61.000000   3.000000    1.000000    1.000000
max 70.000000   4.000000    1.000000    1.000000

R-квадрат также очень низкий в этом случае (0.33), хотя было небольшое улучшение с логарифмическим преобразованием (с 0.31 до 0.33).

Чтобы получить хорошую модель и чтобы значения “Omnibus” и других параметров были в пределах, что еще я могу сделать?

В statsmodels, Omnibus – это тест на скошенность и куртозис остатков. Идеально, если значение Prob(Omnibus) близко к нулю, что указывает на нормальность остатков.

Omnibus и Prob(Omnibus) не являются полезными мерами хорошести модели.

Одним из вариантов улучшения подгона модели является увеличение количества признаков. Примеры могут включать добавление взаимодействий и полиномиальных членов.

Ответ или решение

Улучшение Omnibus и R² для модели OLS: Полный анализ и рекомендации

Введение

При анализе результатов регрессионного моделирования, представленных в вашем запросе, могут возникнуть два основных вопроса: как улучшить значение статистики Omnibus, а также как повысить коэффициент детерминации R² для модели OLS. Оба показателя играют ключевую роль в оценке качества модели, и в данной статье мы рассмотрим методы, способные помочь в их улучшении.

Понимание показателей

1. Omnibus тест и его значение

Omnibus тест служит для проверки нормальности распределения остатков модели. Он объединяет тесты на асимметрию (skewness) и куртоз (kurtosis). Идеальное значение для статистики Omnibus — это число, близкое к нулю, а для Prob(Omnibus) — значение, близкое к единице. Если Prob(Omnibus) значительно ниже 0.05, это говорит о потенциальной не нормальности остатков.

2. Коэффициент детерминации R²

Коэффициент R² указывает на долю вариации зависимой переменной, которую можно объяснить независимыми переменными. Значение R² в 0.33 указывает на то, что только треть вариации зависимой переменной объясняется текущими предикторами, что считается низким показателем.

Рекомендации по улучшению

1. Добавление новых фичей

Увеличение числа предикторов модели может значительно повысить актуальность. Рассмотрите возможность добавления:

  • Полиномов и взаимодействий между переменными. Например, можно проанализировать квадраты или кубы переменных, чтобы уловить возможные нелинейные связи.
  • Дополнительных переменных, которые могут оказать влияние на зависимую переменную, например, информацию о доходах, сфере деятельности, количестве аварий, и т.д.

2. Трансформации переменных

Трансформации переменных, такие как логарифмическая или Box-Cox трансформация, могут помочь в снижении асимметрии данных и улучшении условности модели. Обратите внимание на текущие трансформации и экспериментируйте с другими форматами.

3. Использование регуляризации

Если у вас много предикторов, подумайте о таких методах, как Lasso и Ridge регрессия для борьбы с многофакторной коллинеарностью и повышения прогностической силы модели.

4. Проверка взаимодействий и мультиколлинеарности

Проверьте, присутствуют ли взаимодействия между переменными, которые могут не учитываться с помощью линейных регрессий. Кроме того, убедитесь, что ваша модель не страдает от мультиколлинеарности, например, путем вычисления VIF (коэффициентов инфляции дисперсии).

5. Анализ остатков

Исследуйте остатки вашей модели для выявления специфики, таких как:

  • Наличие автокорреляции (проверка с помощью теста Дурбина-Уотсона).
  • Оценка нормальности остатков с помощью Q-Q графиков.

6. Настройка модели

Проведите дополнительный анализ методов обучения, таких как K-кратная перекрестная проверка, для лучшего выбора модели и улучшения обобщающей способности модели.

7. Использование традиционных методов

Подумайте о применении других статистических методов, таких как случайный лес или градиентный бустинг, которые могут предложить лучшую адаптацию и учёт сложных взаимосвязей в данных.

Заключение

В процессе улучшения модели OLS важно учитывать как качественные, так и количественные аспекты исходных данных. Подходите к анализу со всех сторон, используя различные методы и техники. Это поможет как в улучшении Omnibus и R², так и в повышении качества предсказаний модели. Постоянное тестирование и переоценка моделей — ключевой аспект успешного анализа данных.

Для более глубокого понимания и анализа данных, пожалуйста, дайте знать, каковы ваши дальнейшие шаги и решения, чтобы мы могли помочь вам более эффективным образом в ваших аналитических стремлениях.

Оцените материал
Добавить комментарий

Капча загружается...