В чем разница между остаточной суммой квадратов и методом наименьших квадратов?

Question 1

На первый взгляд они кажутся одинаковыми, но я не уверен.

Обновление: оглядываясь назад, это был не очень хороший вопрос. OLS относится к нахождению линии, которая соответствует данным, а RSS является функцией стоимости, используемой OLS. Она находит параметры, которые дают наименьшую сумму квадратов ошибок. OLS называется обычной, потому что мы выполняем линейную подгонку.

Question 2

Вот определение из Википедии:

В статистике сумма квадратов остатков (RSS) – это сумма
квадратов остатков. Это мера расхождения между
данными и моделью оценки; Обычные наименьшие квадраты (OLS) – это метод
оценки неизвестных параметров в модели линейной регрессии,
с целью минимизации различия между наблюдаемыми
ответами в произвольном наборе данных и ответами, предсказанными
линейной аппроксимацией данных.

Таким образом, RSS является мерой, насколько хорошо модель аппроксимирует данные, а OLS является методом построения хорошей модели.

Question 3

Обычные наименьшие квадраты (OLS)

Обычные наименьшие квадраты (OLS) являются рабочей лошадкой статистики. Они дают способ объяснять сложные результаты и поведение (например, тренды), используя линейность. Самое простое применение OLS – это подгонка линии.

Остатки

Остатки – это наблюдаемые ошибки на основе оценённых коэффициентов. В некотором смысле, остатки являются оценками ошибок.

Давайте объясним всё это, используя код на R:

Сначала подгоните линию обычных наименьших квадратов для набора данных бриллиантов из библиотеки UsingR:

library(UsingR)
data("diamond")
y <- diamond$price
	x <- diamond$carat
n <- length(y)
olsline <- lm(y ~ x)
plot(x, y,
     main ="Odinary Least square line",
     xlab = "Mass (carats)", 
     ylab = "Price (SIN $)", 
     bg = "lightblue", 
     col = "black", cex = 2, pch = 21,frame = FALSE)
abline(olsline, lwd = 2)

Теперь посчитаем остатки, т.е. сумму квадратов остатков:
В R вы можете легко посчитать остатки с помощью функции resid(olsline), для визуализации давайте посчитаем их вручную:

# Остатки, полученные с помощью метода R
e <- resid(olsline)
## Получаем остатки вручную, сначала получаем предсказанные значения Y
yhat <- predict(olsline)
# Остатки - это y - yhat, давайте проверим, сравнив это с функцией resid в R
ce <- y - yhat
max(abs(e-ce))
## Повторим это, вручную закодировав расчет Yhat
max(abs(e- (y - coef(olsline)[1] - coef(olsline)[2] * x)))
# Остатки - это длина красных линий
plot(diamond$carat, diamond$price,
    main ="Residuals sum of (actual Y - predicted Y)^2",
     xlab = "Mass (carats)", 
     ylab = "Price (SIN $)", 
     bg = "lightblue", 
     col = "black", cex = 2, pch = 21,frame = FALSE)
abline(olsline, lwd = 2)
for (i in 1 : n) 
  lines(c(x[i], x[i]), c(y[i], yhat[i]), col = "red" , lwd = 2)

Надеюсь, эти визуализации прояснят ваши сомнения между RSS и OLS

Question 4

В некотором смысле, OLS – это модель для оценки линии регрессии на основе данных для обучения. RSS, в свою очередь, – это параметр, который позволяет оценить точность модели как для тестовых, так и для обучающих данных.

Question 5

Математическая модель для обоих остаётся неизменной, а именно,

$$
\begin{equation}
RSS(\beta) = \sum_{i = 1}^{N} (\hat{\large \epsilon_{i}})^2 = \sum_{i = 1}^{N} \; (y_{i} – \sum^{p}_{j = 0}x_{ij} \; \beta_{j})^2
\end{equation}
$$

Разница,

RSS: Это функция потерь
OLS: Использует эту функцию потерь для предсказания зависимой переменной для линейной регрессии, минимизируя ее.

$$
\begin{equation}
\hat{Y} =
\underbrace{
\sum_{j=0}^{p} X_j \hat{\beta_{j}}
}_{\textsf{ Linear Equation}} \quad\textsf{где;} \hspace{1mm} X_{0} = 1
\end{equation}
$$

Примечание: Я включаю часть смещения в уравнение. Таким образом, чтобы не сделать его Аффинной функцией.

Сначала оцениваются параметры ($\beta$) с использованием линейной алгебры, первых и вторых производных, затем результат будет следующим

$$
\begin{equation}
\hat{\beta} = (X^TX)^{-1}X^TY
\end{equation}
$$

Значение прогноза определяется как,

$$
\begin{equation}
\hat{y} = X\hat{\beta} = X(X^TX)^{-1} X^Ty \tag{1.3}
\end{equation}
$$

OLS отличается от Наименьших квадратов (которые охватывают как линейные, так и нелинейные случаи), поэтому будьте осторожны при чтении ресурсов.

В чем разница между остаточной суммой квадратов и методом наименьших квадратов?

Вопрос или проблема

Ответ или решение

Остаточная сумма квадратов (RSS)

Метод наименьших квадратов (OLS)

Заключение