ANOVA процедура – Регрессия

Вопрос или проблема

Я новичок в регрессии. Может кто-то объяснить мне, как сумма квадратов регрессии показывает объясненную вариацию? По сути, почему это (у шляпа – у бар)? Надеюсь, я точно объясняю свой вопрос. Я пытался нарисовать график с регрессионной линией, фактическими значениями и средним, и по какой-то причине не могу понять, как это показывает объясненную часть. Как это объясняется? Есть ли какая-то формула, о которой я не знаю, которая объясняла бы, почему предсказанное значение – среднее показывает, как X влияет на Y?

Как ANOVA (анализ дисперсии), так и (мультивариантная) линейная регрессия являются примерами общей линейной модели (GLM). В то время как ANOVA обычно сравнивает средние группы для категориальных предикторов, регрессия, как правило, применяется к непрерывным предикторам. Однако ANOVA можно рассматривать как специфический тип регрессии, когда категориальные предикторы кодируются соответствующим образом.

Использование категориальных предикторов в регрессии (ANOVA)

ANOVA может рассматриваться как модель регрессии с категориальными предикторами, определяющая, существуют ли значительные различия между средними значениями групп. Для этого мы кодируем категориальный предиктор с $ k $ уровнями, используя $ k-1 $ фиктивных переменных, где каждая фиктивная переменная представляет собой сопоставление группы с контрольной группой.

Интерпретация F-теста

В ANOVA и регрессии F-тест оценивает способность модели объяснять изменчивость в результате. Для ANOVA он проверяет, равны ли все средние значения групп; в регрессии он проверяет, объясняют ли предикторы (категориальные или непрерывные) значимо изменчивость в результате.

Понимание суммы квадратов регрессии (SSR)

Сумма квадратов регрессии, обозначаемая как $ \text{SSR} $, представляет собой изменчивость в результате, которая объясняется моделью. Она вычисляется как:

$$
\text{SSR} = \sum (\hat{y}_i – \bar{y})^2
$$

где:

  • $ \hat{y}_i $ — предсказанные (подогнанные) значения из модели регрессии,
  • $ \bar{y} $ — среднее наблюдаемое значение $ y $.

Почему $ (\hat{y}_i – \bar{y}) $ представляет объясненную вариацию

В регрессии $ \hat{y}_i $ представляет каждое подогнанное значение, которое является наилучшей оценкой модели для $ y $ с учетом предикторов. Разница $ (\hat{y}_i – \bar{y}) $ измеряет, насколько каждое подогнанное значение отклоняется от общего среднего $ \bar{y} $. Это отклонение указывает на то, насколько предсказание модели удаляется от простого среднего (которое предполагало бы отсутствие эффектов предикторов) к более тонкому предсказанию, которое учитывает взаимосвязи, зафиксированные в регрессии.

Таким образом, суммируя $ (\hat{y}_i – \bar{y})^2 $ для всех наблюдений, SSR количественно оценивает долю общей изменчивости, которую можно отнести к эффектам предикторов, а не к случайной изменчивости.

Связь SSR с общей и остаточной изменчивостью

В анализе регрессии общая сумма квадратов (SST) разлагается на:

$$
\text{SST} = \text{SSR} + \text{SSE}
$$

где:

  • $ \text{SST} = \sum (y_i – \bar{y})^2 $, общая изменчивость в $ y $,
  • $ \text{SSE} = \sum (y_i – \hat{y}_i)^2 $, остаточная (или необъясненная) изменчивость.

Это разложение показывает, что общая изменчивость в $ y $ является суммой объясненной изменчивости (SSR) и необъясненной изменчивости (SSE). Поэтому $ \text{SSR} $ фиксирует, насколько большая часть общей изменчивости в $ y $ объясняется подогнанными значениями модели, что делает ее ключевой мерой объяснительной силы модели.

Расширение ANOVA до ANCOVA

Включение непрерывных ковариантов в модель ANOVA приводит к анализу ковариации (ANCOVA), объединяющему как категориальные, так и непрерывные предикторы. Этот подход подчеркивает гибкость регрессионной структуры, интегрируя оба типа предикторов в рамках одной модели.

Практический пример

Например, рассмотрим оценку воздействия трех диет на потерю веса. Используя ANOVA, мы бы смоделировали диету как фактор с уровнями для каждого типа диеты. В регрессии мы бы закодировали диету с помощью двух фиктивных переменных и подогнали линейную модель. Коэффициенты для фиктивных переменных в регрессии соответствуют различиям между группами, оцененным в ANOVA, иллюстрируя, как ANOVA функционирует как модель регрессии для категориальных предикторов.

Сводка

В кратце, ANOVA — это специфическая форма регрессии, приспособленная для категориальных предикторов. Правильно кодируя эти предикторы, мы можем обрамить ANOVA в контексте регрессии, демонстрируя теоретическое равенство двух подходов. Для всестороннего изучения см. Kutner et al. (2004), который подробно обсуждает это равенство в прикладной статистике.

Ссылка

Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2004). Прикладные линейные статистические модели (5-е издание). McGraw-Hill Irwin.

Ответ или решение

Понимание ANOVA и регрессионного анализа: Как SSR показывает объясненную вариацию

Регрессионный анализ и ANOVA (анализ дисперсии) — это два мощных статистических инструмента, которые позволяют исследовать взаимосвязи между переменными. Несмотря на некоторые различия, они основываются на одном и том же теоретическом основании — общей линейной модели (GLM). В данном ответе мы сосредоточимся на понимании регрессионной суммы квадратов (SSR) и того, как она отражает объясненную вариацию.

Основы регрессионного анализа

Регрессионный анализ предполагает, что мы можем моделировать зависимость одной переменной (зависимой переменной Y) от одной или нескольких независимых переменных (X). В результате мы получаем уравнение регрессии, связывающее X и Y и позволяющее предсказать значения Y на основе значений X.

Что такое сумма квадратов?

Сумма квадратов (SS) — это мера вариации в данных. В контексте регрессии есть три основных компонента суммы квадратов:

  1. Общая сумма квадратов (SST) — показывает общую вариацию зависимой переменной Y относительно её среднего значения.
  2. Регрессионная сумма квадратов (SSR) — отражает часть вариации, объясняемую моделью, т.е. варьирование Y, обусловленное значениями X.
  3. Остаточная сумма квадратов (SSE) — описывает вариацию, которая остается необъясненной моделью.

Формально, эти компоненты взаимосвязаны следующим образом:

[
\text{SST} = \text{SSR} + \text{SSE}
]

Формула для SSR

Регрессионная сумма квадратов рассчитывается по следующей формуле:

[
\text{SSR} = \sum (\hat{y}_i – \bar{y})^2
]

где:

  • (\hat{y}_i) — предсказанные значения зависимой переменной, полученные из модели,
  • (\bar{y}) — среднее значение наблюдаемых значений Y.

Почему разница ((\hat{y}_i – \bar{y})) представляет объясненную вариацию?

Разница ((\hat{y}_i – \bar{y})) показывает, насколько предсказанное значение Y отличается от его среднего значения. Это отклонение рассказывает нам о том, на сколько результаты модели (значения, предсказанные на основе X) отличаются от простого среднего, которое могло бы быть следствием отсутствия влияния X.

Таким образом, чем больше разница ((\hat{y}_i – \bar{y})), тем больше объясненной вариации, так как модель значительно лучше предсказывает Y, чем просто усредненное значение. Суммируя все квадратные отклонения, мы получаем SSR — количественную меру влияния X на Y.

Связь SSR с общей и остаточной вариацией

Важно понимать, как SSR взаимодействует с общей и остаточной вариацией в модели. Total variability (SST) определяется как сумма объясненной вариации (SSR) и необъясненной вариации (SSE), что позволяет нам четко видеть, сколько вариации в данных объясняется моделью.

Расширение понятия: ANOVA и ANCOVA

ANOVA может рассматриваться как особый случай регрессии, когда мы используем категориальные независимые переменные. Когда мы хотим изучить влияние непрерывных переменных в дополнение к категориальным, мы можем использовать ANCOVA (анализ ковариации), который сочетает в себе как категориальные, так и непрерывные предикторы.

Заключение

В заключение, регрессионный анализ и ANOVA предлагают мощные методы для исследования зависимости между переменными. Регрессионная сумма квадратов (SSR) служит важным показателем объясненной вариации, демонстрируя, как хорошо модель объясняет изменения в зависимой переменной. Понимание связи между предсказанными значениями и средней величиной помогает исследователям и аналитикам лучше интерпретировать результаты своих моделей и принимать обоснованные решения на основе данных.

Оцените материал
Добавить комментарий

Капча загружается...