Вопрос или проблема
Предположим, мы ранее использовали нейронную сеть или другой классификатор C с $N$ обучающими образцами $I:=\{I_1,…I_N\}$ (которые имеют последовательность или контекст, но игнорируются C), принадлежащими $K$ классам. Предположим, по какой-то причине (возможно, из-за проблемы с обучением или неправильного назначения классов) классификатор C запутался и не работает хорошо. Способ, которым мы назначаем класс к каждому тестовому образцу $I$ с использованием C, следующий: $class(I):= arg max _{ {1 \leq j \leq K} } p_j(I)$, где $p_j(I)$ — это оценка вероятности того, что $I$ принадлежит $j$-му классу, предоставляемая C.
Теперь, поверх этого классификатора C, я хотел бы использовать Скрытую Марковскую Модель (СММ) для “исправления” ошибок, сделанных предыдущим классификатором C, не учитывающим контекст, с учетом контекстной/последовательной информации, не используемой C.
Пусть в моем СММ скрытое состояние $Z_i$ обозначает истинный класс $i$-го образца $I_i$, а $X_i$ — предсказанный класс с помощью C. Мой вопрос: как можно использовать вероятностную информацию $cl(I):= arg max _{ {1 \leq j \leq K} } p_j(I)$ для обучения этой СММ? Я понимаю, что матрица замешательства C может быть использована для определения вероятности эмиссии СММ, но как мы определяем переходные и стартовые/априорные вероятности? Мне кажется, что стартовый/априорный вектор вероятностей можно определить как $\pi:=(p_1(x_1), …, p_K(x_1))$. Но я могу ошибаться. Это мой главный вопрос.
Вопрос по теме: Можно определить СММ описанным выше способом (с использованием матрицы замешательства и вероятностной информации от C); результатирующий набор параметров назвать $\Theta_0$. Но после этого, стоит ли оценивать параметры, чтобы они лучше соответствовали данным $I$, использованным для C, инициализируя набор параметров упомянутыми в предыдущем абзаце значениями?
Насколько я знаю, вы не можете судить о скрытом классе, значение скрытого класса в момент времени t — это ‘некоторые промежуточные значения взвешенных значений всех скрытых классов’.
см. пункт – 2) последовательность скрытых состояний в блоге –
https://machinelearningstories.blogspot.com/2017/02/hidden-markov-model-session-1.html
поэтому ваше утверждение-
“Таким образом, пусть в моем СММ скрытое состояние Zi обозначает истинный класс $i$-го образца Ii, а Xi — предсказанный класс C- некорректно.
Как вы можете сравнить значение скрытого класса с фактическим, вы могли бы сравнить значение эмиссии и фактическое.
Вы можете попробовать ансамблирование СММ и Cs. Интересно, как именно вы пытаетесь использовать параметры из задачи классификации для временного ряда/последовательности (СММ).
Ответ или решение
Настройка параметров скрытой модели Маркова (HMM) для исправления ошибок предыдущего классификатора требует глубокого понимания как самой модели, так и ее составляющих. Давайте рассмотрим, как параметры HMM могут быть настроены с учетом контекста, который был упущен из виду первоначальным классификатором C.
### Эмиссионные вероятности
Эмиссионные вероятности в HMM определяют вероятность наблюдаемого состояния (в данном случае, предсказанного класса $X_i$) для каждого из скрытых состояний $Z_i$ (истинного класса). Ваша идея использовать матрицу ошибок классификатора C для определения этих вероятностей является обоснованной. Вероятности могут быть рассчитаны как отношения между правильно предсказанными и всеми предсказанными значениями соответствующих классов.
### Начальная или априорная вероятность
Вы выразили сомнение в том, как установить начальные вероятности $\pi$. Первоначальная гипотеза, где вы используете вероятностные оценки $p_j(I)$ для первого образца, может быть разумной отправной точкой, однако данная установка игнорирует какой-либо априорный контекст, который может оказывать влияние. Распределение начальной вероятности должно основывается на частотах истинных классов в данных обучения, если такие данные доступны.
### Переходные вероятности
Эти вероятности моделируют вероятность перехода из одного скрытого состояния в другое, то есть, как вероятности истинных классов переходят во времени. Переходные вероятности отображают последовательный контекст данных. Если у вас есть информация о том, как классы могут зависеть друг от друга во времени, она должна быть использована для настройки этих вероятностей. Если такой информации нет, переходные вероятности могут быть инициализированы равномерно или из эмпирических данных, если такие есть.
### Оценка параметров после инициализации
После начальной установки параметров, может быть целесообразно их дооценить, используя данные, на которых обучался классификатор C. Процедуры, такие как алгоритм Баума-Велша, могут быть использованы для максимизации правдоподобия обучения на основании данных. Это позволит улучшить параметры модели так, чтобы адаптировать ее к особенностям данных.
### Заключение
Ваша цель — использовать HMM для учета контекста и уменьшения ошибок, допущенных классификатором. Аккуратная настройка эмиссионных, начальных и переходных вероятностей с учётом особенностей данных поможет значительно улучшить качество классификации. Основываясь на изначальной интуиции и эмпирическом подходе, дооценка параметров после начальной настройки — это разумный шаг к построению более надежной модели.
Всегда необходима проверка модели на тестовых данных, прежде чем применять её в реальных условиях, чтобы убедиться, что способность модели к улучшению действительно реализована.