Улучшения Омнибуса и R-квадрата для модели OLS

Question 1

Проверяю в этом сообществе, может кто-то сможет помочь с этой проблемой, опубликованной на Cross Validated.

Подробный вопрос представлен ниже:

                             Результаты OLS регрессии                            
===============================================================================
Зависимая переменная:     Убытки в тысячах   R-квадрат:                       0.305
Модель:                             OLS   Скорректированный R-квадрат:      0.304
Метод:                  Метод наименьших квадратов   F-статистика:                     1171.
Дата:                 Пт, 20 Дек 2019   Вероятность (F-статистика):       0.00
Время:                         11:12:52   Логарифм правдоподобия:         -72503.
Количество наблюдений:          10703   AIC:                         1.450e+05
Df остатков:                    10698   BIC:                         1.451e+05
Df модели:                            4                                         
Тип ковариации:             непараметрический                                         
======================================================================================
                         коэффициент    стандартная ошибка          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------------
const                539.6565      7.950     67.884      0.000     524.074     555.239
Возраст                   -6.1490      0.112    -54.971      0.000      -6.368      -5.930
Количество автомобилей    -1.7906      2.151     -0.832      0.405      -6.007       2.426
M                     97.2349      4.094     23.750      0.000      89.210     105.260
Одинокий               136.7923      4.094     33.410      0.000     128.767     144.818
==============================================================================
Omnibus:                     7898.559   Durbin-Watson:                   2.010
Вероятность(Omnibus):                  0.000   Jarque-Bera (JB):           403312.043
Скошенность:                           3.029   Вероятность(JB):                         0.00
Куртозис:                      32.456   Условно. номер:                         187.
==============================================================================

Выше представлены результаты модели OLS, которую я запустил на Python.

Ниже представлены мои несколько выводов:

Omnibus: значение близко к нулю, чтобы указать на нормальное распределение
ошибки
Prob(Omnibus): значение должно быть близко к 1 для нормального распределения
ошибок
Скошенность: то же, что и выше, близко к нулю
Условный номер – указывает на мультиколлинеарность, поэтому он должен быть относительно малым числом, ниже 30. В приведенных ниже результатах он значительно выше 30, но с
функцией корреляции, я не увидел никакой корреляции (я нашел одну, но
исключил переменную, так что ничего не осталось)

Результаты после логарифмического преобразования переменной y.

Результаты OLS регрессии

    Зависимая переменная:     Убытки в тысячах   R-квадрат:                       0.326
    Модель:                             OLS   Скорректированный R-квадрат:      0.326
    Метод:                  Метод наименьших квадратов   F-статистика:                     1295.
    Дата:                 Пт, 20 Дек 2019   Вероятность (F-статистика):       0.00
    Время:                         14:34:13   Логарифм правдоподобия:         -9712.2
    Количество наблюдений:          10703   AIC:                         1.943e+04
    Df остатков:                    10698   BIC:                         1.947e+04
    Df модели:                            4                                         
    Тип ковариации:             непараметрический                                         
    ======================================================================================
                             коэффициент    стандартная ошибка          t      P>|t|      [0.025      0.975]
    --------------------------------------------------------------------------------------
    const                  6.3490      0.023    281.983      0.000       6.305       6.393
    Возраст                   -0.0203      0.000    -64.137      0.000      -0.021      -0.020
    Количество автомобилей     0.0007      0.006      0.118      0.906      -0.011       0.013
    M                      0.2137      0.012     18.429      0.000       0.191       0.236
    Одинокий                 0.3159      0.012     27.240      0.000       0.293       0.339
    ==============================================================================
    Omnibus:                     1231.182   Durbin-Watson:                   1.998
    Вероятность(Omnibus):                  0.000   Jarque-Bera (JB):             1943.765
    Скошенность:                          -0.825   Вероятность(JB):                         0.00
    Куртозис:                       4.279   Условно. номер:                         187.
    =============================================================================

Корреляционная матрица:

    Ac_No   Возраст Годы опыта Количество автомобилей  Убытки в тысячах Убытки в тысячах_лог
Ac_No   1.000000    0.008291    0.008437    -0.003056   -0.000794   -0.001057
Возраст 0.008291    1.000000    0.997161    0.008366    -0.442962   -0.509823
Годы опыта  0.008437    0.997161    1.000000    0.008545    -0.442115   -0.511495
Количество автомобилей  -0.003056   0.008366    0.008545    1.000000    -0.011553   -0.004839
Убытки    -0.000794   -0.442962   -0.442115   -0.011553   1.000000    0.849515
Убытки_лог  -0.001057   -0.509823   -0.511495   -0.004839   0.849515    1.000000

Описание():

Возраст Количество автомобилей  M   Одинокий
count   10703.000000    10703.000000    10703.000000    10703.000000
mean    42.519761   2.497804    0.492292    0.490984
std 18.298802   0.951530    0.499964    0.499942
min 16.000000   1.000000    0.000000    0.000000
25% 24.000000   2.000000    0.000000    0.000000
50% 42.000000   2.000000    0.000000    0.000000
75% 61.000000   3.000000    1.000000    1.000000
max 70.000000   4.000000    1.000000    1.000000

R-квадрат также очень низкий в этом случае (0.33), хотя было небольшое улучшение с логарифмическим преобразованием (с 0.31 до 0.33).

Чтобы получить хорошую модель и чтобы значения “Omnibus” и других параметров были в пределах, что еще я могу сделать?

Question 2

В statsmodels, Omnibus – это тест на скошенность и куртозис остатков. Идеально, если значение Prob(Omnibus) близко к нулю, что указывает на нормальность остатков.

Omnibus и Prob(Omnibus) не являются полезными мерами хорошести модели.

Одним из вариантов улучшения подгона модели является увеличение количества признаков. Примеры могут включать добавление взаимодействий и полиномиальных членов.

Улучшения Омнибуса и R-квадрата для модели OLS

Вопрос или проблема

Результаты OLS регрессии

Ответ или решение

Улучшение Omnibus и R² для модели OLS: Полный анализ и рекомендации

Введение

Понимание показателей

1. Omnibus тест и его значение

2. Коэффициент детерминации R²

Рекомендации по улучшению

1. Добавление новых фичей

2. Трансформации переменных

3. Использование регуляризации

4. Проверка взаимодействий и мультиколлинеарности

5. Анализ остатков

6. Настройка модели

7. Использование традиционных методов

Заключение