Вопрос или проблема
Основано на deeplearningbook
:
$$
\begin{align}
MSE &= E[(\theta_m^{-} – \theta)^2] \\
&= Bias(\theta_m^{-})^2 + Var(\theta_m^{-})\\
\end{align}
$$
где $m$ — это количество образцов в обучающем наборе, $\theta$ — это фактический параметр в обучающем наборе, а $\theta_m^{-}$ — это оцененный параметр.
Я не могу дойти до второго уравнения. Кроме того, я не понимаю, как получено первое выражение.
Примечание:
$Bias(\theta_m^{-})^2 = E(\theta_m^{-2}) – \theta^2$
Также как оцениваются смещение и дисперсия в классификации?
Доказательство этого ясно объяснено по ссылке в википедии
Для более подробного обсуждения, пожалуйста, обратитесь к вопросу на stackexchange
Ответ или решение
Вопрос, касающийся отношения между среднеквадратичной ошибкой (MSE), смещением и дисперсией, является важной темой в статистике и машинном обучении. Давайте разберемся с этим подробнее.
Объяснение выражения ( MSE = bias^2 + variance )
-
Определение MSE:
Среднеквадратичная ошибка (MSE) используется для измерения качества оценок модели. Она определяется как математическое ожидание квадрата разности между истинным значением параметра ( \theta ) и оцененным значением ( \theta_m^{-} ):
[
MSE = E[(\theta_m^{-} – \theta)^2]
]
Здесь ( \theta ) – это истинный параметр, а ( \theta_m^{-} ) – оценка этого параметра, полученная на основе ( m ) образцов из обучающего выборки. -
Разложение MSE на смещение и дисперсию:
Второе выражение, ( MSE = Bias(\theta_m^{-})^2 + Var(\theta_m^{-}) ), можно понимать так:-
Смещение (Bias) измеряет, насколько на самом деле наш оценщик отклоняется от истинного значения ( \theta ). Формально, смещение определяется как:
[
Bias(\theta_m^{-}) = E[\theta_m^{-}] – \theta
]
Таким образом, квадраты смещения составляют:
[
Bias(\theta_m^{-})^2 = (E[\theta_m^{-}] – \theta)^2
] -
Дисперсия (Variance) показывает, насколько оценки ( \theta_m^{-} ) разбросаны вокруг их среднего значения ( E[\theta_m^{-}] ):
[
Var(\theta_m^{-}) = E[(\theta_m^{-} – E[\theta_m^{-}])^2]
]
В совокупности, MSE можно представить как сумму квадрата смещения и дисперсии, что позволяет понять, почему модель может иметь высокую MSE: высокая дисперсия, смещение или их комбинация.
-
Доказательство
Доказательство данной формулы можно через применение свойств математического ожидания:
-
Раскроем квадрат:
[
E[(\theta_m^{-} – \theta)^2] = E[(\theta_m^{-} – E[\theta_m^{-}] + E[\theta_m^{-}] – \theta)^2]
] -
Далее, с использованием линейности математического ожидания и свойств дисперсии можно в конечном итоге прийти к разложению на смещение и дисперсию.
Оценка смещения и дисперсии для задач классификации
Смещение и дисперсия также применимы к задачам классификации, хотя их интерпретация может отличаться:
-
Смещение в контексте классификации отражает, насколько предсказания модели систематически отличаются от истинных классов. Если модель слишком проста (например, линейная для задач с не линейными зависимостями), это может привести к высокому смещению.
-
Дисперсия показывает, насколько сильно колеблются предсказания модели при различных обучающих выборках. Модели с высокой дисперсией имеют тенденцию "подгоняться" под обучающие данные и плохо обобщаются на новые примеры.
Стоит делать акцент на том, что балансировка между смещением и дисперсией является ключевым аспектом в обучении моделей, особенно в контексте переобучения и недообучения.
Для более детального изучения данной темы, вы можете обратиться к данной статье на Википедии и другим ресурсам, упомянутым в вашем вопросе.