Почему в Naive Bayes вместо P(word|class), даже с предположениями о независимости и сглаживанием, не используется P(class|word)?

Вопрос или проблема

Я пытаюсь понять, почему Наивный Байес использует $ P(\text{word}|\text{class})$ вместо $ P(\text{class}|\text{word})$ для классификации текста. Оба подхода кажутся математически обоснованными при предположении независимости, но я не совсем убежден, почему $ P(\text{word}|\text{class})$ является стандартным выбором.

При предположении о независимости в Наивном Байесе оба подхода могут быть выражены как:

$
P(\text{class}|\text{document}) \propto \prod_{\text{words}} P(\text{word}|\text{class})
$

Или:

$P(\text{class}|\text{document}) \propto \prod_{\text{words}} P(\text{class}|\text{word})
$

Добавление некоторого сглаживания, чтобы избежать умножения на ноль.

Так почему первый вариант предпочтительнее? Пожалуйста, избегайте текста, сгенерированного LLM 🤗

Я думаю, что первая формула, которую вы описываете, упрощает проблему сильнее, чем Наивный Байес. Вторая формула кажется мне некорректной.

Вывод Наивного Байеса начинается с теоремы Байеса:

$$
P(\text{class|words})=\frac{P(\text{class})P(\text{words|class})}{P(\text{words})}
$$

Она упрощается путем игнорирования $P(\text{words})$, и аппроксимацией $P(\text{words|class})$ как $\prod_i P(\text{word}_i|\text{class})$:

$$
P(\text{class|words})\propto P(\text{class})\prod_i P(\text{word}_i|\text{class})
$$

Ваша первая формула технически корректна, но она игнорирует $P(\text{class})$, тогда как Наивный Байес не идет так далеко в упрощении проблемы.

Вторая формула не следует из приведенного выше вывода и выглядит как предположение о том, как вы могли бы декомпозировать $P(\text{class|words})$. Обратите внимание, что “$\text{document}$” — это просто другое название для “$\text{words}$“, поскольку документ представлен как набор слов.

Ответ или решение

Вопрос о том, почему в наивном байесовском классификаторе используется вероятность вида $ P(\text{word}|\text{class}) $ вместо $ P(\text{class}|\text{word}) $, является существенным для понимания работы этого простого, но мощного алгоритма. Чтобы понять, почему именно такой подход оправдан, необходимо обратиться к основам байесовской теоремы и поэтапно разобраться с тем, как расчет вероятностей может быть упрощен для задач классификации текста.

### Теория

Байесовская теорема является центральным элементом в вероятностных рассуждениях и выглядит следующим образом:

\[
P(\text{class|words}) = \frac{P(\text{class})P(\text{words|class})}{P(\text{words})}
\]

Для задач классификации текста нас интересует вычисление апостериорной вероятности $ P(\text{class|words}) $, что позволяет определить вероятность того, что данное сообщение или документ принадлежит определенному классу на основе наблюдаемых данных, то есть слов в документе.

Проблема прямого использования $ P(\text{class}|\text{word}) $ заключается в том, что оно требует расчет априорной вероятности слов, исходя из классов, что приводит к осложнению математической модели и делает её менее применимой. Матожидание $ P(\text{words}) $ в практике расчетов не учитывается, так как оно остается постоянным для всех классов в пределах одного и того же документа, и не влияет на процесс выбора наиболее вероятного класса.

### Пример

Рассмотрим простой пример: у вас есть набор данных с двумя классами — “спам” и “не спам”. Каждый документ (сообщение) представляет собой мешок слов. Для каждого сообщения вы хотите оценить, к какому из двух классов оно скорее всего принадлежит.

Если бы мы пытались использовать $ P(\text{class}|\text{word}) $, нам бы пришлось рассматривать необходимость получения больших объемов данных, поскольку для каждого комбинации слова и класса нужно иметь значительное количество наблюдаемых данных, чтобы безопасно оценить вероятность. В реальных условиях это может быть неправдоподобно ввиду больших объемов разнообразия возможных слов в языке.

### Применение

Наивное байесовское предположение о независимости утверждает, что каждое слово в документе независимо от других, условно зависимо от класса. Это позволяет разложить общую вероятность появления всех слов в документе как произведение индивидуальных вероятностей $ P(\text{word}|\text{class}) $ каждого слова. Таким образом:

\[
P(\text{class|words}) \propto P(\text{class})\prod_i P(\text{word}_i|\text{class})
\]

Именно эта формулировка позволяет эффективно использовать наивный байесовский алгоритм на практике: она обеспечивает прямую и легко интерпретируемую схему обучения, не требующую значительного количества дополнительной информации, существующей за пределами обучающей выборки.

Кроме того, данная методология подкрепляется практическими техниками, такими как добавление сглаживания (например, аддитивное сглаживание Лапласа), что позволяет избежать проблемы нулевых вероятностей для слов, которые ранее не встречались в обучающей выборке, улучшая устойчивость модели.

### Заключение

Использование вероятности $ P(\text{word}|\text{class}) $ вместо $ P(\text{class}|\text{word}) $ в наивных байесовских классификаторах оправдано с точки зрения математического обоснования, простоты вычислений и практическим применением. Оно упрощает моделирование, сохраняя при этом высокую эффективность благодаря допущениям о независимости, которые хотя и упрощены, но общеприняты в области обработки естественного языка, особенно при решении задач классификации текстов.