В чем разница между остаточной суммой квадратов и методом наименьших квадратов?

Вопрос или проблема

На первый взгляд они кажутся одинаковыми, но я не уверен.

Обновление: оглядываясь назад, это был не очень хороший вопрос. OLS относится к нахождению линии, которая соответствует данным, а RSS является функцией стоимости, используемой OLS. Она находит параметры, которые дают наименьшую сумму квадратов ошибок. OLS называется обычной, потому что мы выполняем линейную подгонку.

Вот определение из Википедии:

В статистике сумма квадратов остатков (RSS) – это сумма
квадратов остатков. Это мера расхождения между
данными и моделью оценки; Обычные наименьшие квадраты (OLS) – это метод
оценки неизвестных параметров в модели линейной регрессии,
с целью минимизации различия между наблюдаемыми
ответами в произвольном наборе данных и ответами, предсказанными
линейной аппроксимацией данных.

Таким образом, RSS является мерой, насколько хорошо модель аппроксимирует данные, а OLS является методом построения хорошей модели.

Обычные наименьшие квадраты (OLS)

Обычные наименьшие квадраты (OLS) являются рабочей лошадкой статистики. Они дают способ объяснять сложные результаты и поведение (например, тренды), используя линейность. Самое простое применение OLS – это подгонка линии.

Остатки

Остатки – это наблюдаемые ошибки на основе оценённых коэффициентов. В некотором смысле, остатки являются оценками ошибок.

Давайте объясним всё это, используя код на R:

Сначала подгоните линию обычных наименьших квадратов для набора данных бриллиантов из библиотеки UsingR:

library(UsingR)
data("diamond")
y <- diamond$price
	x <- diamond$carat
n <- length(y)
olsline <- lm(y ~ x)
plot(x, y,
     main ="Odinary Least square line",
     xlab = "Mass (carats)", 
     ylab = "Price (SIN $)", 
     bg = "lightblue", 
     col = "black", cex = 2, pch = 21,frame = FALSE)
abline(olsline, lwd = 2)

enter image description here

Теперь посчитаем остатки, т.е. сумму квадратов остатков:
В R вы можете легко посчитать остатки с помощью функции resid(olsline), для визуализации давайте посчитаем их вручную:

# Остатки, полученные с помощью метода R
e <- resid(olsline)
## Получаем остатки вручную, сначала получаем предсказанные значения Y
yhat <- predict(olsline)
# Остатки - это y - yhat, давайте проверим, сравнив это с функцией resid в R
ce <- y - yhat
max(abs(e-ce))
## Повторим это, вручную закодировав расчет Yhat
max(abs(e- (y - coef(olsline)[1] - coef(olsline)[2] * x)))
# Остатки - это длина красных линий
plot(diamond$carat, diamond$price,
    main ="Residuals sum of (actual Y - predicted Y)^2",
     xlab = "Mass (carats)", 
     ylab = "Price (SIN $)", 
     bg = "lightblue", 
     col = "black", cex = 2, pch = 21,frame = FALSE)
abline(olsline, lwd = 2)
for (i in 1 : n) 
  lines(c(x[i], x[i]), c(y[i], yhat[i]), col = "red" , lwd = 2)

enter image description here

Надеюсь, эти визуализации прояснят ваши сомнения между RSS и OLS

В некотором смысле, OLS – это модель для оценки линии регрессии на основе данных для обучения. RSS, в свою очередь, – это параметр, который позволяет оценить точность модели как для тестовых, так и для обучающих данных.

Математическая модель для обоих остаётся неизменной, а именно,

$$
\begin{equation}
RSS(\beta) = \sum_{i = 1}^{N} (\hat{\large \epsilon_{i}})^2 = \sum_{i = 1}^{N} \; (y_{i} – \sum^{p}_{j = 0}x_{ij} \; \beta_{j})^2
\end{equation}
$$

Разница,

RSS: Это функция потерь
OLS: Использует эту функцию потерь для предсказания зависимой переменной для линейной регрессии, минимизируя ее.

$$
\begin{equation}
\hat{Y} =
\underbrace{
\sum_{j=0}^{p} X_j \hat{\beta_{j}}
}_{\textsf{ Linear Equation}} \quad\textsf{где;} \hspace{1mm} X_{0} = 1
\end{equation}
$$

Примечание: Я включаю часть смещения в уравнение. Таким образом, чтобы не сделать его Аффинной функцией.

Сначала оцениваются параметры ($\beta$) с использованием линейной алгебры, первых и вторых производных, затем результат будет следующим

$$
\begin{equation}
\hat{\beta} = (X^TX)^{-1}X^TY
\end{equation}
$$

Значение прогноза определяется как,

$$
\begin{equation}
\hat{y} = X\hat{\beta} = X(X^TX)^{-1} X^Ty \tag{1.3}
\end{equation}
$$

OLS отличается от Наименьших квадратов (которые охватывают как линейные, так и нелинейные случаи), поэтому будьте осторожны при чтении ресурсов.

Ответ или решение

Разница между остаточной суммой квадратов (Residual Sum of Squares, RSS) и методом наименьших квадратов (Ordinary Least Squares, OLS) заключается в их функциях и назначении в статистическом анализе данных.

Остаточная сумма квадратов (RSS)

RSS — это показатель, используемый для оценки качества модели, описывающей данные. Он вычисляется как сумма квадратов разностей между наблюдаемыми значениями и значениями, предсказанными моделью. RSS измеряет, насколько хорошо модель объясняет данные, и чем меньше эта сумма, тем лучше модель подходит данным.

RSS:

  • Роль: Метрика или функция потерь, оценивающая качество модели.
  • Формула:
    [
    RSS(\beta) = \sum{i=1}^{N} (y{i} – \hat{y}{i})^2
    ]
    здесь (y
    {i}) — наблюдаемое значение, (\hat{y}_{i}) — предсказанное значение.

Метод наименьших квадратов (OLS)

OLS — это метод поиска наилучших параметров линейной регрессии, при котором минимизируется RSS. Используя OLS, вы можете построить линейную модель, которая наилучшим образом приближается к данным. Это достигается за счет определения параметров модели, которые минимизируют сумму квадратов отклонений (RSS).

OLS:

  • Роль: Методологический подход для построения линейной модели.
  • Основная задача: Минимизация RSS.
  • Формула для параметров модели:
    [
    \hat{\beta} = (X^TX)^{-1}X^TY
    ]
    где (X) — матрица признаков, (Y) — вектор зависимых переменных.

Заключение

Таким образом, RSS выступает в роли функции потерь, оценивающей отклонение предсказанной модели от реальных данных. OLS, напротив, представляет собой метод, который минимизирует эту функцию потерь для построения наилучшей линейной модели. RSS определяет, насколько успешной является модель, а OLS предоставляет средство для создания этой модели.

Этот контекст важен для понимания применения данных методов в статистике и аналитике данных, особенно когда речь идет о линейной регрессии. Важно не путать эти термины, хотя они и связаны: один определяет метрику отклонения, а другой— метод её минимизации.

Оцените материал
Добавить комментарий

Капча загружается...