Математика за этим, $MSE = смещение^2 + дисперсия$

Вопрос или проблема

Основано на deeplearningbook:

$$
\begin{align}
MSE &= E[(\theta_m^{-} – \theta)^2] \\
&= Bias(\theta_m^{-})^2 + Var(\theta_m^{-})\\
\end{align}
$$

где $m$ — это количество образцов в обучающем наборе, $\theta$ — это фактический параметр в обучающем наборе, а $\theta_m^{-}$ — это оцененный параметр.

Я не могу дойти до второго уравнения. Кроме того, я не понимаю, как получено первое выражение.

Примечание:

$Bias(\theta_m^{-})^2 = E(\theta_m^{-2}) – \theta^2$

Также как оцениваются смещение и дисперсия в классификации?

Доказательство этого ясно объяснено по ссылке в википедии

введите описание изображения здесь

Для более подробного обсуждения, пожалуйста, обратитесь к вопросу на stackexchange

Ответ или решение

Вопрос, касающийся отношения между среднеквадратичной ошибкой (MSE), смещением и дисперсией, является важной темой в статистике и машинном обучении. Давайте разберемся с этим подробнее.

Объяснение выражения ( MSE = bias^2 + variance )

  1. Определение MSE:
    Среднеквадратичная ошибка (MSE) используется для измерения качества оценок модели. Она определяется как математическое ожидание квадрата разности между истинным значением параметра ( \theta ) и оцененным значением ( \theta_m^{-} ):
    [
    MSE = E[(\theta_m^{-} – \theta)^2]
    ]
    Здесь ( \theta ) – это истинный параметр, а ( \theta_m^{-} ) – оценка этого параметра, полученная на основе ( m ) образцов из обучающего выборки.

  2. Разложение MSE на смещение и дисперсию:
    Второе выражение, ( MSE = Bias(\theta_m^{-})^2 + Var(\theta_m^{-}) ), можно понимать так:

    • Смещение (Bias) измеряет, насколько на самом деле наш оценщик отклоняется от истинного значения ( \theta ). Формально, смещение определяется как:
      [
      Bias(\theta_m^{-}) = E[\theta_m^{-}] – \theta
      ]
      Таким образом, квадраты смещения составляют:
      [
      Bias(\theta_m^{-})^2 = (E[\theta_m^{-}] – \theta)^2
      ]

    • Дисперсия (Variance) показывает, насколько оценки ( \theta_m^{-} ) разбросаны вокруг их среднего значения ( E[\theta_m^{-}] ):
      [
      Var(\theta_m^{-}) = E[(\theta_m^{-} – E[\theta_m^{-}])^2]
      ]

    В совокупности, MSE можно представить как сумму квадрата смещения и дисперсии, что позволяет понять, почему модель может иметь высокую MSE: высокая дисперсия, смещение или их комбинация.

Доказательство

Доказательство данной формулы можно через применение свойств математического ожидания:

  1. Раскроем квадрат:
    [
    E[(\theta_m^{-} – \theta)^2] = E[(\theta_m^{-} – E[\theta_m^{-}] + E[\theta_m^{-}] – \theta)^2]
    ]

  2. Далее, с использованием линейности математического ожидания и свойств дисперсии можно в конечном итоге прийти к разложению на смещение и дисперсию.

Оценка смещения и дисперсии для задач классификации

Смещение и дисперсия также применимы к задачам классификации, хотя их интерпретация может отличаться:

  • Смещение в контексте классификации отражает, насколько предсказания модели систематически отличаются от истинных классов. Если модель слишком проста (например, линейная для задач с не линейными зависимостями), это может привести к высокому смещению.

  • Дисперсия показывает, насколько сильно колеблются предсказания модели при различных обучающих выборках. Модели с высокой дисперсией имеют тенденцию "подгоняться" под обучающие данные и плохо обобщаются на новые примеры.

Стоит делать акцент на том, что балансировка между смещением и дисперсией является ключевым аспектом в обучении моделей, особенно в контексте переобучения и недообучения.

Для более детального изучения данной темы, вы можете обратиться к данной статье на Википедии и другим ресурсам, упомянутым в вашем вопросе.

Оцените материал
Добавить комментарий

Капча загружается...