Линейный дискриминант - метод наименьших квадратов классификации Бишоп 4.1.3

Содержание

Вопрос или проблема
Ответ или решение
Линейная дискриминация – Классификация методом наименьших квадратов (глава 4.1.3)
Введение
Классификация и линейная дискриминация
Ошибки классификации и матрицы
Ответы на вопросы
Заключение

Вопрос или проблема

Пожалуйста, смотрите раздел 4.1.3 в “Распознавании образов” – Бишоп: “Метод наименьших квадратов для классификации”:

В линейной дискриминантной системе с 2 классами мы классифицируем вектор $\mathbf{x}$ как $\mathcal{C}_1$, если y($\bf{x}$)>0, и $\mathcal{C}_2$ в противном случае. Обобщая в разделе 4.1.3, мы определяем $\mathcal{K}$ линейных дискриминантных уравнений – по одному для каждого класса:

$y_{k}(\bf{x}) = \bf{w_k^Tx} + \mathit{w_{k0}} \tag {4.13}$

добавление ведущей 1 к вектору $\bf{x}$ дает $\tilde{\mathbf{x}}$.

И линейная дискриминантная функция для класса $\mathcal{K}$ задается следующим образом: $\bf y(x) = \widetilde{W}^{T}\tilde{x}$. Автор продолжает и представляется функцию суммы квадратов ошибки как:

$E_D(\widetilde{W}) = \frac{1}{2}Tr\{(\tilde{X}\widetilde{W} – T)^T(\tilde{X}\widetilde{W} – T)\} \tag {4.15}$

Мои сомнения касаются вышеприведенного уравнения 4.15.

Рассмотрим систему с 3 классами, имеющую только одно наблюдение, $\bf{x}\in \mathcal{C_2}$, мое понимание:

Пожалуйста, смотрите $\bf{Y}$ в верхней части схемы. Будет ли только $val(\mathcal{C_2})$ положительным: $\mathbf{x} \in \mathcal{C_2}$,
$y_{2}(\bf{x})$ > $\it{порог}(\mathcal{C_2})$? Является ли значение,
$val(\mathcal{C_k})$, отрицательным для дискриминантных
функций других классов? Если нет, можете ли вы кратко объяснить причину?

Матрица ошибок, $\bf{E}$, является матрицей 1×3. $\bf{E}^{T}E$ будет матрицей 3×3, с диагональными элементами, представляющими квадрат ошибки для
класса. Является ли $Tr$ в 4.15 следом – суммой диагональных элементов?
Если да, почему мы игнорируем вне диагональные значения ошибки/ почему они
не имеют значения?

П.С.: Если мое понимание неверно/ грубо неверно, буду признателен, если вы укажете на это.

Как отмечает Бишоп в этом разделе, метод наименьших квадратов плохо подходит для этой задачи, поэтому, возможно, нам не стоит тратить на его понимание слишком много времени. С другой стороны, прояснение недоразумений здесь может помочь в других местах.

Мы хотели бы, чтобы (т.е. метод наименьших квадратов стремится к тому, чтобы) $\operatorname{val}(\mathcal{C}_2)$ было близко к 1, а остальные близки к 0. Но значения могут быть очень даже отрицательными, положительными, больше 1 для любого из классов (правильных или нет)! Наша окончательная классификация, однако, обрабатывается так, как объясняется в разделе 4.1.2 (сразу после уравнения 4.9): класс с самым большим значением $y$ побеждает.
Да, здесь $\operatorname{Tr}$ означает след. В “методе наименьших квадратов” мы минимизируем среднюю квадратичную ошибку. Так получается, что сумма квадратов ошибок может быть красиво записана как след этих матриц, но случайные элементы матрицы вне диагонали нас здесь не беспокоят.

Ответ или решение

Линейная дискриминация – Классификация методом наименьших квадратов (глава 4.1.3)

Введение

В книге "Распознавание образов" под авторством Кристофера Бишопа говорится о методе наименьших квадратов для классификации, особенно в контексте линейных дискриминантных функций для многоклассовых задач. В данной секции, 4.1.3, рассматриваются различные аспекты, касающиеся ошибок классификации, матриц и анализа, что важно для правильного понимания системы характеристик и параметров легирования.

Классификация и линейная дискриминация

В системе, состоящей из двух классов, мы классифицируем вектор (\mathbf{x}) как принадлежность классу (\mathcal{C}_1) при условии, что (y(\mathbf{x}) > 0). Обобщая этот подход для (\mathcal{K}) классов, выделяется линейная дискриминационная функция в виде:

[
y_k(\mathbf{x}) = \mathbf{wk^Tx} + w{k0}
]

где (\mathbf{w_k}) – вектор весов для класса (k).

Добавление единицы к вектору (\mathbf{x}) формирует новый вектор (\tilde{\mathbf{x}}) и, таким образом, линейная дискриминация в контексте классов представляет собой вектор вида:

[
\mathbf{y(x)} = \tilde{\mathbf{W}}^T\tilde{\mathbf{x}}
]

Ошибки классификации и матрицы

Ошибки классификации описаны через функцию сумм квадратов ошибок:

[
E_D(\tilde{\mathbf{W}}) = \frac{1}{2} \text{Tr}{(\tilde{\mathbf{X}}\tilde{\mathbf{W}} – \mathbf{T})^T(\tilde{\mathbf{X}}\tilde{\mathbf{W}} – \mathbf{T})}
]

где (\text{Tr}) обозначает след матрицы. Рассмотрим подробнее ваши вопросы.

Ответы на вопросы

Значения функции дискриминации

В контексте вашей системы с тремя классами, действительно, тренд наименьших квадратов предполагает, что значения (val(\mathcal{C}_2)) стремятся быть близкими к 1 для истинного класса и близкими к 0 для остальных классов. Однако, значения (\mathbf{y_k}(\mathbf{x})) не ограничиваются только положительными или отрицательными. Они могут принимать различные значения (положительные, отрицательные, больше единицы и т.д.), где результат классификации определяется классом с наибольшим значением (y). Таким образом, важно понять, что в процессе классификации учитывается не только положительное значение, но и относительная величина значения класса.
Матрица ошибок и след

Вы правы, когда говорите, что (\bf{E}) представляет собой матрицу ошибок размером (1 \times 3), и, следовательно, операция (\mathbf{E}^T\mathbf{E}) создает матрицу размером (3 \times 3) с диагональными элементами, представляющими квадрат ошибок для каждого класса. Тrace (след) в данном контексте действительно означает сумму диагональных элементов. Отметим, что входящие в вычисления ненулевые элементы на диагонали показывают лишь ошибки, ассоциированные с прямыми прогнозами классов, тогда как элементы вне диагонали (off-diagonal) представляют собой перекрестные ошибки, которые, учитывая линейную модель, нас не интересуют. Эта игнорирование является свойством алгоритма наименьших квадратов, который стремится минимизировать среднюю квадратическую ошибку, не учитывая влияние ошибок на другие классы.

Заключение

Хотя метод наименьших квадратов не предназначен для обработки многоклассовой классификации, он предоставляет полезные визуализации и начальные практики. Правильное понимание устройства представленных математических моделей, ошибок и их отношений позволит вам более эффективно применять методы распознавания образов в вашей практике. Если у вас остались вопросы или возникли сомнения, не стесняйтесь задавать их для дальнейшего объяснения и прояснения.

Линейный дискриминант – метод наименьших квадратов классификации Бишоп 4.1.3