ANOVA процедура – Регрессия

Question 1

Я новичок в регрессии. Может кто-то объяснить мне, как сумма квадратов регрессии показывает объясненную вариацию? По сути, почему это (у шляпа – у бар)? Надеюсь, я точно объясняю свой вопрос. Я пытался нарисовать график с регрессионной линией, фактическими значениями и средним, и по какой-то причине не могу понять, как это показывает объясненную часть. Как это объясняется? Есть ли какая-то формула, о которой я не знаю, которая объясняла бы, почему предсказанное значение – среднее показывает, как X влияет на Y?

Question 2

Как ANOVA (анализ дисперсии), так и (мультивариантная) линейная регрессия являются примерами общей линейной модели (GLM). В то время как ANOVA обычно сравнивает средние группы для категориальных предикторов, регрессия, как правило, применяется к непрерывным предикторам. Однако ANOVA можно рассматривать как специфический тип регрессии, когда категориальные предикторы кодируются соответствующим образом.

Использование категориальных предикторов в регрессии (ANOVA)

ANOVA может рассматриваться как модель регрессии с категориальными предикторами, определяющая, существуют ли значительные различия между средними значениями групп. Для этого мы кодируем категориальный предиктор с $ k $ уровнями, используя $ k-1 $ фиктивных переменных, где каждая фиктивная переменная представляет собой сопоставление группы с контрольной группой.

Интерпретация F-теста

В ANOVA и регрессии F-тест оценивает способность модели объяснять изменчивость в результате. Для ANOVA он проверяет, равны ли все средние значения групп; в регрессии он проверяет, объясняют ли предикторы (категориальные или непрерывные) значимо изменчивость в результате.

Понимание суммы квадратов регрессии (SSR)

Сумма квадратов регрессии, обозначаемая как $ \text{SSR} $, представляет собой изменчивость в результате, которая объясняется моделью. Она вычисляется как:

$$
\text{SSR} = \sum (\hat{y}_i – \bar{y})^2
$$

где:

$ \hat{y}_i $ — предсказанные (подогнанные) значения из модели регрессии,
$ \bar{y} $ — среднее наблюдаемое значение $ y $.

Почему $ (\hat{y}_i – \bar{y}) $ представляет объясненную вариацию

В регрессии $ \hat{y}_i $ представляет каждое подогнанное значение, которое является наилучшей оценкой модели для $ y $ с учетом предикторов. Разница $ (\hat{y}_i – \bar{y}) $ измеряет, насколько каждое подогнанное значение отклоняется от общего среднего $ \bar{y} $. Это отклонение указывает на то, насколько предсказание модели удаляется от простого среднего (которое предполагало бы отсутствие эффектов предикторов) к более тонкому предсказанию, которое учитывает взаимосвязи, зафиксированные в регрессии.

Таким образом, суммируя $ (\hat{y}_i – \bar{y})^2 $ для всех наблюдений, SSR количественно оценивает долю общей изменчивости, которую можно отнести к эффектам предикторов, а не к случайной изменчивости.

Связь SSR с общей и остаточной изменчивостью

В анализе регрессии общая сумма квадратов (SST) разлагается на:

$$
\text{SST} = \text{SSR} + \text{SSE}
$$

где:

$ \text{SST} = \sum (y_i – \bar{y})^2 $, общая изменчивость в $ y $,
$ \text{SSE} = \sum (y_i – \hat{y}_i)^2 $, остаточная (или необъясненная) изменчивость.

Это разложение показывает, что общая изменчивость в $ y $ является суммой объясненной изменчивости (SSR) и необъясненной изменчивости (SSE). Поэтому $ \text{SSR} $ фиксирует, насколько большая часть общей изменчивости в $ y $ объясняется подогнанными значениями модели, что делает ее ключевой мерой объяснительной силы модели.

Расширение ANOVA до ANCOVA

Включение непрерывных ковариантов в модель ANOVA приводит к анализу ковариации (ANCOVA), объединяющему как категориальные, так и непрерывные предикторы. Этот подход подчеркивает гибкость регрессионной структуры, интегрируя оба типа предикторов в рамках одной модели.

Практический пример

Например, рассмотрим оценку воздействия трех диет на потерю веса. Используя ANOVA, мы бы смоделировали диету как фактор с уровнями для каждого типа диеты. В регрессии мы бы закодировали диету с помощью двух фиктивных переменных и подогнали линейную модель. Коэффициенты для фиктивных переменных в регрессии соответствуют различиям между группами, оцененным в ANOVA, иллюстрируя, как ANOVA функционирует как модель регрессии для категориальных предикторов.

Сводка

В кратце, ANOVA — это специфическая форма регрессии, приспособленная для категориальных предикторов. Правильно кодируя эти предикторы, мы можем обрамить ANOVA в контексте регрессии, демонстрируя теоретическое равенство двух подходов. Для всестороннего изучения см. Kutner et al. (2004), который подробно обсуждает это равенство в прикладной статистике.

Ссылка

Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2004). Прикладные линейные статистические модели (5-е издание). McGraw-Hill Irwin.

ANOVA процедура – Регрессия

Вопрос или проблема

Использование категориальных предикторов в регрессии (ANOVA)

Интерпретация F-теста

Понимание суммы квадратов регрессии (SSR)

Почему $ (\hat{y}_i – \bar{y}) $ представляет объясненную вариацию

Связь SSR с общей и остаточной изменчивостью

Расширение ANOVA до ANCOVA

Практический пример

Сводка

Ссылка

Ответ или решение

Основы регрессионного анализа

Что такое сумма квадратов?

Формула для SSR

Почему разница ((\hat{y}_i – \bar{y})) представляет объясненную вариацию?

Связь SSR с общей и остаточной вариацией

Расширение понятия: ANOVA и ANCOVA

Заключение