Вопрос или проблема
Вопрос: Почему мое значение предиктора (непрерывное) идеально коррелирует с моим логитным значением (при тестировании предположений модели логистической регрессии)?
Код:
# линейность в логите для непрерывной переменной: проверьте линейную зависимость между непрерывной предикторной переменной и логитом исхода: исследуйте диаграмму рассеяния между каждым предиктором и логитным значением
# Выберите только непрерывные предикторы
glm_h2_a1 <- df_master_aus %>%
dplyr::select(c(c_ns2))
predictors <- colnames(df_master_aus)
# объедините логит и упорядочите данные для графика
glm_h2_a1 <- glm_h2_a1 %>%
mutate(logit = log(probabilities/(1-probabilities))) %>%
gather(key = "predictors", value = "predictor.value", -logit)
# создайте диаграммы рассеяния:
ggplot(glm_h2_a1, aes(logit, predictor.value))+
geom_point(size = 0.5, alpha = 0.5) +
geom_smooth(method = "loess") +
theme_bw() +
facet_wrap(~predictors, scales = "free_y")
Примечание: Более сложная модель с дополнительными предикторами не всегда показывает такую линейность:
$$
\text{logit}=\hat\beta_0+\hat\beta_1x\\
\text{cor}(x, \text{logit})\\
=\text{cor}(x, \hat\beta_0+\hat\beta_1x)\\
=\text{cor}(x, \hat\beta_1x)
$$
Если оцененный коэффициент наклона $\hat\beta_1>0$, тогда $\text{cor}(x,\hat\beta_1x)=\text{cor}(x,x)=1$.
Таким образом, это не проверяет никаких предположений: по определению линейное предсказание вашей модели логистической регрессии имеет идеальную (возможно, отрицательную) корреляцию с признаком. Если вы понимаете, почему признак в простой линейной регрессии идеально коррелирует (возможно, отрицательно) с предсказаниями, та же идея применяется и здесь.
Ответ или решение
Причина, по которой ваше предсказуемое значение (непрерывное) идеально коррелирует с логитом (значением логистической регрессии) во время проверки предпосылок модели логистической регрессии, заключается в особой математике и степени свободы, заложенных в самой модели.
Логистическая регрессия и логит
Логистическая регрессия используется для моделирования вероятностей, когда зависимая переменная является бинарной. Основная операция логистической регрессии преобразует вероятность в логит с помощью следующей формулы:
[
\text{logit} = \log\left(\frac{p}{1 – p}\right)
]
где ( p ) – вероятность успешного исхода. В этой модели можно выразить логит через линейное уравнение:
[
\text{logit} = \hat\beta_0 + \hat\beta_1 x
]
где ( x ) – предсказуемая переменная, а ( \hat\beta_1 ) – коэффициент наклона.
Корреляция между предсказуемой переменной и логитом
Корреляция между предсказуемой переменной ( x ) и логитом можно записать как:
[
\text{cor}(x, \text{logit}) = \text{cor}(x, \hat\beta_0 + \hat\beta_1 x) = \text{cor}(x, \hat\beta_1 x)
]
Если ( \hat\beta_1 > 0 ), то можно сделать вывод, что:
[
\text{cor}(x, \hat\beta_1 x) = \text{cor}(x, x) = 1
]
Таким образом, существует идеальная положительная корреляция между предсказуемой переменной и логитом.
Причины идеальной корреляции
-
Линейная зависимость: В простой линейной модели, которую мы используем здесь, предсказуемая переменная ( x ) напрямую участвует в формуле, что неминуемо приводит к высокой корреляции.
-
Статистическая структура: Модель логистической регрессии предполагает, что при увеличении ( x ) логит (и, следовательно, вероятность) будет изменяться в предсказуемом направлении, что само по себе приводит к идеальному совпадению, если только не вводятся дополнительные переменные.
-
Искажение модели: Если в модели включены дополнительные предсказатели, которые не коррелируют с данной независимой переменной, это может усложнить картину, и линейность будет отображаться нестабильно.
Заключение
Идеальная корреляция вашего предсказуемого значения с логитом не является проблемой, а скорее следствием специфики линейной модели логистической регрессии. Она указывает на то, что зависимость была корректно задана в модели. Тем не менее, важно внимательно анализировать более сложные модели с множеством предсказателей, чтобы удостовериться, что на предпосылки логистической регрессии не влияют дополнительные факторы.
В общем, понимание этих корреляционных отношений поможет вам более успешно анализировать и интерпретировать результаты вашей модели логистической регрессии, а также проверять их соответствие статистическим предпосылкам.