Почему потери MSE и кросс-энтропии имеют одинаковый градиент?

На чтение 3 мин Опубликовано 20.11.2024

Вопрос или проблема

Я студент по специальности анализ данных, и когда я учился выводить функцию потерь логистической регрессии (потери кросс-энтропии), я обнаружил, что градиент совершенно идентичен градиенту методом наименьших квадратов для линейной регрессии, хотя две функции выглядят очень по-разному. Может кто-то объяснить, почему это так? Или это просто совпадение?

Ответ или решение

Понимание связи между среднеквадратичной ошибкой (MSE) и кросс-энтропийной функцией потерь является важным аспектом глубокого обучения и статистической обработки данных. Многие студенты и практикующие специалисты по данным задаются вопросом, почему градиенты этих двух функций имеют одинаковую форму, несмотря на различия в их описании. В этой статье мы подробно разберем это явление.

### Основные определения

Среднеквадратичная ошибка (MSE) используется в задачах регрессии. Она определяется как среднее значение квадратов разностей между фактическими значениями и предсказанными значениями модели:

\[
\text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i – \hat{y}_i)^2,
\]

где \(y_i\) — это фактические значения, а \(\hat{y}_i\) — предсказанные значения.

Кросс-энтропийная функция потерь чаще всего применяется в задачах классификации, особенно в логистической регрессии. Формулой для кросс-энтропии является:

\[
\text{Cross-Entropy} = -\frac{1}{N} \sum_{i=1}^{N} [y_i \log(\hat{y}_i) + (1 – y_i) \log(1 – \hat{y}_i)],
\]

где \(y_i\) — это бинарные метки классов (0 или 1), а \(\hat{y}_i\) — вероятности, предсказываемые моделью.

### Как градиенты совпадают?

Чтобы понять, почему градиенты MSE и кросс-энтропии совпадают, рассмотрим модель логистической регрессии, где сигмоидная функция используется для преобразования линейного выхода в вероятность:

\[
\hat{y} = \sigma(z) = \frac{1}{1 + e^{-z}},
\]

где \(z = w^T x\).

#### Градиенты для MSE
Градиент функции потерь MSE относительно линейного выхода \(z\):

\[
\frac{\partial \text{MSE}}{\partial z} = \frac{2}{N} \sum_{i=1}^{N} ( \hat{y}_i – y_i ) \cdot \frac{\partial \hat{y}_i}{\partial z}.
\]

При применении сигмоидной функции, производная \(\frac{\partial \hat{y}_i}{\partial z}\) равна \(\hat{y}_i (1 – \hat{y}_i)\).

#### Градиенты для кросс-энтропии
Для кросс-энтропии градиент относительно \(z\) можно выразить следующим образом:

\[
\frac{\partial \text{Cross-Entropy}}{\partial z} = \hat{y}_i – y_i.
\]

#### Сравнение
Хотя выражения выглядят по-разному, на практике градиенты совпадают при использовании сигмоиды. Оба случая имеют одинаковую производную \(\hat{y}_i (1 – \hat{y}_i)\), что приводит к аналогичной форме градиента:

\[
\frac{\partial \text{MSE}}{\partial z} \quad \text{и} \quad \frac{\partial \text{Cross-Entropy}}{\partial z}
\]

Результат в конечном итоге формируется, потому что оба метода применяют одно и то же трансформационное правило в контексте линейного моделирования, только в разных контекстах.

### Заключение

Совпадение градиентов MSE и кросс-энтропии не является простым совпадением. Оно основано на математической природе и свойствах сигмоидной функции, используемой в логистической регрессии. Каждый из этих подходов соответствует различным задачам, и понимание этого явления может значительно обогатить ваши познания в области машинного обучения. Правильный выбор функции потерь критически важен, учитывая специфику данных и требуемую структуру модели.