Почему значение моего предсказателя (непрерывное) идеально коррелирует с моим логит-значением (при проверке предположений модели логистической регрессии)?

Содержание

Вопрос или проблема
Ответ или решение
Логистическая регрессия и логит
Корреляция между предсказуемой переменной и логитом
Причины идеальной корреляции
Заключение

Вопрос или проблема

Вопрос: Почему мое значение предиктора (непрерывное) идеально коррелирует с моим логитным значением (при тестировании предположений модели логистической регрессии)?

Код:

# линейность в логите для непрерывной переменной: проверьте линейную зависимость между непрерывной предикторной переменной и логитом исхода: исследуйте диаграмму рассеяния между каждым предиктором и логитным значением
# Выберите только непрерывные предикторы
glm_h2_a1 <- df_master_aus %>%
  dplyr::select(c(c_ns2)) 
predictors <- colnames(df_master_aus)
# объедините логит и упорядочите данные для графика
glm_h2_a1 <- glm_h2_a1 %>%
  mutate(logit = log(probabilities/(1-probabilities))) %>%
  gather(key = "predictors", value = "predictor.value", -logit)

# создайте диаграммы рассеяния:
ggplot(glm_h2_a1, aes(logit, predictor.value))+
  geom_point(size = 0.5, alpha = 0.5) +
  geom_smooth(method = "loess") + 
  theme_bw() + 
  facet_wrap(~predictors, scales = "free_y")

Изображение:

Примечание: Более сложная модель с дополнительными предикторами не всегда показывает такую линейность:

$$
\text{logit}=\hat\beta_0+\hat\beta_1x\\
\text{cor}(x, \text{logit})\\
=\text{cor}(x, \hat\beta_0+\hat\beta_1x)\\
=\text{cor}(x, \hat\beta_1x)
$$

Если оцененный коэффициент наклона $\hat\beta_1>0$, тогда $\text{cor}(x,\hat\beta_1x)=\text{cor}(x,x)=1$.

Таким образом, это не проверяет никаких предположений: по определению линейное предсказание вашей модели логистической регрессии имеет идеальную (возможно, отрицательную) корреляцию с признаком. Если вы понимаете, почему признак в простой линейной регрессии идеально коррелирует (возможно, отрицательно) с предсказаниями, та же идея применяется и здесь.

Ответ или решение

Причина, по которой ваше предсказуемое значение (непрерывное) идеально коррелирует с логитом (значением логистической регрессии) во время проверки предпосылок модели логистической регрессии, заключается в особой математике и степени свободы, заложенных в самой модели.

Логистическая регрессия и логит

Логистическая регрессия используется для моделирования вероятностей, когда зависимая переменная является бинарной. Основная операция логистической регрессии преобразует вероятность в логит с помощью следующей формулы:

[
\text{logit} = \log\left(\frac{p}{1 – p}\right)
]

где ( p ) – вероятность успешного исхода. В этой модели можно выразить логит через линейное уравнение:

[
\text{logit} = \hat\beta_0 + \hat\beta_1 x
]

где ( x ) – предсказуемая переменная, а ( \hat\beta_1 ) – коэффициент наклона.

Корреляция между предсказуемой переменной и логитом

Корреляция между предсказуемой переменной ( x ) и логитом можно записать как:

[
\text{cor}(x, \text{logit}) = \text{cor}(x, \hat\beta_0 + \hat\beta_1 x) = \text{cor}(x, \hat\beta_1 x)
]

Если ( \hat\beta_1 > 0 ), то можно сделать вывод, что:

[
\text{cor}(x, \hat\beta_1 x) = \text{cor}(x, x) = 1
]

Таким образом, существует идеальная положительная корреляция между предсказуемой переменной и логитом.

Причины идеальной корреляции

Линейная зависимость: В простой линейной модели, которую мы используем здесь, предсказуемая переменная ( x ) напрямую участвует в формуле, что неминуемо приводит к высокой корреляции.
Статистическая структура: Модель логистической регрессии предполагает, что при увеличении ( x ) логит (и, следовательно, вероятность) будет изменяться в предсказуемом направлении, что само по себе приводит к идеальному совпадению, если только не вводятся дополнительные переменные.
Искажение модели: Если в модели включены дополнительные предсказатели, которые не коррелируют с данной независимой переменной, это может усложнить картину, и линейность будет отображаться нестабильно.

Заключение

Идеальная корреляция вашего предсказуемого значения с логитом не является проблемой, а скорее следствием специфики линейной модели логистической регрессии. Она указывает на то, что зависимость была корректно задана в модели. Тем не менее, важно внимательно анализировать более сложные модели с множеством предсказателей, чтобы удостовериться, что на предпосылки логистической регрессии не влияют дополнительные факторы.

В общем, понимание этих корреляционных отношений поможет вам более успешно анализировать и интерпретировать результаты вашей модели логистической регрессии, а также проверять их соответствие статистическим предпосылкам.