Вопрос или проблема
Я проводил линейную регрессию с использованием набора данных Wooldridge под названием GPA2, который можно найти в библиотеке Python с именем wooldridge.
Я попытался провести два линейных регрессионных анализа. Первый:
results = smf.ols('colgpa ~ hsperc + sat', data=gpa).fit()
И второй
results = smf.ols('colgpa ~ hsperc + sat - 1', data=gpa).fit()
Как вы можете видеть, между ними нет значительных различий, я только убрал свободный член из второго уравнения. Однако несколько вещей изменились: (I) предупреждение о высокой мультиколлинейности исчезло, когда я убрал свободный член; (II) значение R-квадрат и скорректированного R-квадрат изменились с 0.273 до 0.954; (III) значение F-статистики изменилось с 1.77e-287 до 4.284e+04.
Почему это происходит только при удалении свободного члена? Разве они не должны быть довольно похожи?
Кроме того, при запуске фактора инфляции дисперсии у меня получилось довольно высокое значение для константы. Как это возможно?
Спасибо
-
Предупреждение о высокой мультиколлинейности исчезло:
Когда вы убираете свободный член из уравнения регрессии (указывая- 1
в формуле), это фактически удаляет константу из модели. Без константы независимые переменные (hsperc и sat) центрируются вокруг начала координат (0,0) в данных. Это центрирование уменьшает мультиколлинейность между независимыми переменными, так как они больше не обязаны проходить через фиксированную точку (свободный член). Следовательно, предупреждение о высокой мультиколлинейности исчезает. -
R-квадрат и скорректированный R-квадрат увеличились:
R-квадрат и скорректированный R-квадрат – это меры того, насколько хорошо модель соответствует данным. Убирая свободный член, вы фактически подгоняете модель через начало координат (0,0). Когда свободный член включен, модель может смещаться вверх или вниз, что приводит к другой подгонке. В этом случае, учитывая, что свободный член опущен, модель обязана проходить через начало координат, и полученная подгонка гораздо лучше отражает вариацию данных, что приводит к значительно более высоким значениям R-квадрат и скорректированного R-квадрат. -
F-статистика увеличилась:
F-статистика – это мера общей значимости модели регрессии. Когда свободный член опущен, модель ограничена проходить через начало координат, и эта более простая модель сравнивается с полной моделью (с свободным членом) с использованием F-статистики. В вашем случае, поскольку более простая модель (без свободного члена) лучше всего соответствует данным (о чем свидетельствуют более высокие значения R-квадрат), F-статистика становится гораздо больше, указывая на более значимую общую подгонку.
Что касается высокого фактора инфляции дисперсии (VIF) для свободного члена, это может произойти, если свободный член сильно коррелирует с одной или несколькими независимыми переменными в вашей модели. Поскольку свободный член фактически является столбцом единиц, он может быть сильно скоррелирован с другими переменными, имеющими относительно большие значения. Эта корреляция может привести к высокому VIF для свободного члена, что указывает на мультиколлинейность.
Ответ или решение
Почему результаты линейной регрессии могут изменитьcя при наличии или отсутствии постоянного члена?
При проведении линейной регрессии с использованием набора данных Wooldridge под названием GPA2 вы заметили значительные различия в результатах, когда в первом случае включен постоянный член (интерсепт), а во втором случае он был исключен. Эти отличия могут быть объяснены несколькими важными аспектами, связанными с моделью регрессии и характеристиками данных.
1. Наличие высокомультиколлинеарности
При включении постоянного члена в регрессионную модель переменные зачастую «навязываются» проходить через фиксированную точку (0,0). Это может привести к высокомультиколлинеарности между независимыми переменными. Устранение интерсепта позволяет избавиться от этой зависимости, так как модель уже не должна учитывать фиксированную точку на графике. В результате предупреждение о высокомультиколлинеарности исчезает.
2. Изменения в коэффициентах детерминации (R-квадрат и скорректированный R-квадрат)
Коэффициенты детерминации R-квадрат и скорректированный R-квадрат отражают, насколько хорошо модель объясняет вариацию зависимой переменной. Когда интерсепт включен, модель может смещаться вверх или вниз, чтобы лучше соответствовать данным. Исключив интерсепт, вы заставляете модель проходить через начало координат, что может привести к значительному увеличению R-квадрат и скорректированного R-квадрат (с 0.273 до 0.954). Это повышение указывает на то, что вторая модель лучше захватывает вариацию зависимой переменной.
3. Рост статистики F
Статистика F используется для проверки общей значимости модели регрессии. При удалении постоянного члена и сравнении двух моделей (с интерсептом и без) стало очевидным, что модель без интерсепта значительно лучше подходит для данных. Это объясняет, почему статистика F возрастает с 1.77e-287 до 4.284e+04. Этот рост указывает на то, что модель без постоянного члена объясняет данные гораздо более эффективно.
4. Высокий коэффициент инфляции дисперсии (VIF) для постоянного члена
Коэффициент инфляции дисперсии (VIF) показывает, насколько сильно возрастает дисперсия оценок коэффициентов, вызванная мультиколлинеарностью. Высокий VIF для постоянного члена может возникнуть из-за того, что этот член (колонка единиц) имеет высокую корреляцию с другими независимыми переменными. Это свидетельствует о возможном наличии взаимосвязей в модели, которые могут повлиять на точность оценок.
Заключение
Таким образом, даже небольшие изменения в конструкции модели линейной регрессии (в данном случае, наличие или отсутствие постоянного члена) могут значительно повлиять на её характеристики, такие как мультиколлинеарность, коэффициенты детерминации и статистику F. Это подчеркивает важность тщательной настройки моделей и учета различных факторов, которые могут влиять на результаты. Ваша работа с данными давно показывает, что при построении смоделированных предположений доскональная внимательность и понимание underlying mechanics могут привести к более точным и надежным выводам.