Вопрос или проблема
Я работаю над задачей классификации, используя признаки $\mathbf{x}$ для предсказания целевой переменной $y \in \mathbb{N}_0$. Под строгим правильным правилом оценивания я имею в виду функцию потерь $\ell(y,\hat{y})$, для которой, при любом входе $\mathbf{x}$, единственным локальным минимумом ожидаемой потери является
$$\operatorname{arg\,min}_{\hat{y}} \mathbb{E}_{y|\mathbf{x}} \left[\ell(y,\hat{y}) \right]=\mathbb{E}_{y|\mathbf{x}}[y|\mathbf{x}].
$$
Другими словами, функция потерь побуждает предсказывать ожидаемое значение целевой переменной, учитывая признаки. Известно, что функция потерь квадратной ошибки $$ \ell(y, \hat{y})=(y-\hat{y})^2$$
удовлетворяет этому свойству. Более того, если мы ограничим целевую переменную до бинарной классификации $y \in \{0,1\}$, тогда теорема представления Шервиша дает все строгие правила оценивания в виде интегралов, содержащих неотрицательную весовую функцию $W$:
$$ \ell(y,\hat{y}) = y \int_{\hat{y}}^1 (1-p) {W}(p) \mathrm{d}p + (1-y) \int_0^{\hat{y}} p {W}(p)\mathrm{d}p = \begin{cases} \int_{\hat{y}}^1 (1-p) {W}(p) \mathrm{d}p & y = 1 \\ \int_0^{\hat{y}} p {W}(p) \mathrm{d}p & y=0 \end{cases} . $$
Например, $W(p)=2$ дает функцию потерь квадратной ошибки, в то время как $W(p)=(p(1-p))^{-1}$ дает логарифмическую потерю.
Мне интересны аналогичные представления для более чем 2 классов, особенно когда область целевой переменной – это $\mathbb{N}_0=\{0,1,2,\dots\}$. Спасибо.
Для m классов 1 против всех:
$((y(i)* \int_1^{y_i}(1-p) W(p) dp) + \sum_0 ^{ m-1}((1-y) \int_{y_i}^0 pW(p)/(m-1) dp))$
Ответ или решение
Представление строго правильных правил оценки для многоклассовой классификации
Ваша задача заключается в разработке функции потерь, которая будет строго правильной (strictly proper) для многоклассовой классификации, где целевая переменная ( y ) принимает значения из множества ( \mathbb{N}_0 = {0, 1, 2, \ldots} ). Строгое правильное правило оценки означает, что минимизация ожидаемого значения потерь ведет к уникальному предсказанию, равному ожидаемому значению целевой переменной, независимо от входных данных ( \mathbf{x} ).
Общие положения
Для задачи бинарной классификации строго правильные функции потерь можно выразить через интегралы, учитывающие неотрицательные весовые функции ( W(p) ). Эти функции потерь могут быть записаны следующим образом:
[
\ell(y, \hat{y}) =
\begin{cases}
\int_{\hat{y}}^1 (1 – p) W(p) \, dp & \text{если } y = 1 \
\int_0^{\hat{y}} p W(p) \, dp & \text{если } y = 0
\end{cases}
]
Где ( W(p) ) — это неотрицательная функция, определяющая штраф за каждое возможное предсказание ( \hat{y} ).
Расширение на многоклассовую классификацию
При переходе к многоклассовой классификации, необходимо использовать обобщение, которое учитывает все классы. Пусть ( m ) — количество классов. Тогда целевая переменная ( y ) может принимать значения от 0 до ( m-1 ). Мы можем выразить функцию потерь для многоклассовой классификации следующим образом:
[
\ell(y, \hat{y}) = \sum{i=0}^{m-1} y(i) \left( \int{i}^{\hat{y}} (1 – p) W(p) \, dp \right) + \sum{j \neq y} (1 – y(j)) \left( \int{0}^{\hat{y}} \frac{p W(p)}{m-1} \, dp \right)
]
Пояснения к формуле
-
Первая часть: представляет собой выгоду, когда предсказанный класс совпадает с истинным. Мы интегрируем от предсказанного значения ( \hat{y} ) до класса ( i ), что позволяет оценить ожидаемую потерю при выборе данного класса.
-
Вторая часть: распределяет штрафы для неверных предсказаний. Здесь мы учитываем все классы, кроме истинного класса ( y ), и интегрируем от 0 до предсказанного значения.
Примеры
-
Квадрат ошибки (Squared Error Loss): Если мы применим функцию ( W(p) = 2 ), то получим классическую функцию потерь, которая минимизирует среднеквадратичную ошибку.
-
Логарифмическая потеря (Log Loss): Используя ( W(p) = (p(1-p))^{-1} ), получаем функцию потерь, схожую с логарифмической для случая многих классов.
Заключение
Таким образом, строго правильные функции потерь можно обобщить на многоклассовую классификацию через представление, основанное на весах и интегралах. Это дает нам гибкие инструменты для более точной оценки моделей и предсказаний в многоклассовых задачах. Всегда следует внимательно подбирать функции весов ( W(p) ) в соответствии с требованиями конкретной задачи, чтобы обеспечить лучшую производительность модели.