Как правильно вычислить оценку спам-сообщения как комбинацию фиксированных признаков и вероятности из наивного байесовского классификатора?

Question 1

Я создаю классификатор спама/не спама для электронных писем в качестве задания. Он не должен быть хорошим общим классификатором, а должен уметь обучаться на небольшом наборе размеченных писем пользователя (примерно 650 – 700 сообщений) и классифицировать остальные, предполагая, что распределения как спама/не спама, так и отдельных признаков остаются примерно одинаковыми.

Я начал с реализации простого наивного байеса с логарифмическими вероятностями на основе этого:
https://www.cs.rhodes.edu/~kirlinp/courses/ai/f18/projects/proj3/naive-bayes-log-probs.pdf

Это моя база, которую я пытаюсь улучшить. Я прочитал несколько статей и материалов по данной теме, попробовал реализовать более сложную модель многократного наивного байеса, но она работала значительно хуже.

В настоящее время данные классификатора поступают только из тела сообщений и темы (если она присутствует). Я также рассматриваю сообщения как наборы слов и явно удаляю некоторые слова из словаря, такие как “the”, “was” и т.д.

Поскольку многие сообщения содержат HTML-код с ссылками, цветами, URL и адресами электронной почты, что является информацией, которую я в данный момент не использую, я хотел бы извлекать информацию и из этих данных. Однако это оказывается крайне сложно сделать это в численно стабильном варианте.

Например, в адресах электронной почты и URL я ищу крайне очевидные ключевые фразы, такие как “click”, “unsubscribe”, “ad”, “cash” и т.д.

Я пытался добавлять и вычитать константы из логарифмической вероятности, умножая на некоторые коэффициенты, такие как 0.999/1.001, но ничего не выглядит численно стабильно, и небольшие изменения в коэффициентах/константах приводят к большим изменениям в точности.

Качество оценки, по которому оценивается задание, предполагает вес 10x за ложные срабатывания. Мой текущий фильтр обычно производит 0-5 ложных срабатываний на наборе данных из 650 сообщений, но обычно более 30 ложных отрицаний. На самом сложном наборе данных (который является черным ящиком для меня, не знаю, как он выглядит) я получаю 94 ложных отрицания.

Есть ли у кого-то с большим опытом советы, как справиться с расчетами?

Спасибо!

Question 2

Похоже, вы пытаетесь улучшить производительность вашего классификатора спама, добавляя дополнительные признаки в вашу модель. Один из подходов, который вы могли бы рассмотреть, – это использовать функцию извлечения признаков для извлечения полезной информации из HTML-кода и адресов электронной почты в сообщениях. Эта функция могла бы принимать сообщение в качестве входных данных и возвращать вектор признаков, представляющий сообщение. Вы могли бы затем использовать этот вектор признаков в качестве входных данных для вашего наивного байесовского классификатора.

Чтобы извлечь полезные признаки из HTML-кода и адресов электронной почты, вы могли бы рассмотреть возможность использования регулярных выражений для поиска конкретных паттернов. Например, вы могли бы использовать регулярное выражение для поиска адресов электронной почты, которые содержат определенные ключевые фразы, такие как “click”, “unsubscribe”, “ad” или “cash”. Вы также могли бы использовать регулярные выражения для поиска URL, которые содержат эти ключевые фразы, или для идентификации специфических HTML-тегов или атрибутов, которые часто используются в спам-письмах.

В дополнение к использованию регулярных выражений вы также могли бы рассмотреть другие методы извлечения признаков из HTML-кода и адресов электронной почты. Например, вы могли бы использовать методы обработки естественного языка для идентификации ключевых фраз или настроения в тексте электронного письма, или вы могли бы использовать методы машинного обучения для выявления паттернов или аномалий в данных.

Как только вы извлекли признаки из сообщений, вы можете использовать эти признаки для обновления логарифмических вероятностных оценок, которые вы сейчас используете в своем наивном байесовском классификаторе. Вы можете сделать это, добавляя или вычитая логарифмические вероятности дополнительных признаков к логарифмическим вероятностям существующих признаков.

Важно быть осторожным при добавлении или вычитании логарифмических вероятностей, так как небольшие изменения в логарифмических вероятностях могут привести к большим изменениям в вероятности. Чтобы избежать этой проблемы, вам может потребоваться рассмотреть возможность использования метода сглаживания, такого как сглаживание Лапласа, чтобы сгладить логарифмические вероятности и сделать вашу модель более устойчивой к небольшим изменениям в данных.

Другой подход, который вы могли бы попробовать, – это использование другого алгоритма классификации, который лучше подходит для обработки высокоразмерных данных и большого количества признаков. Например, вы могли бы попробовать использовать линейную опорную векторную машину (SVM) или классификатор случайного леса, которые, как известно, хорошо работают с высокоразмерными данными.

Если вы хотите продолжать использовать наивный байесовский классификатор, вы могли бы попробовать использовать классификатор Бернуллиевского наивного байеса, который предназначен для бинарных данных, в отличие от многократного наивного байеса, который предназначен для данных с подсчетами. Это может быть более подходящим для типов признаков, которые вы хотите включить.

В плане улучшения производительности вашего классификатора может быть полезно попробовать использовать кросс-валидацию для оценки производительности различных моделей и конфигураций гиперпараметров и выбрать модель и конфигурацию, которые показывают наилучшие результаты. Вы также могли бы рассмотреть возможность использования методов выбора признаков для выявления наиболее важных признаков для вашей задачи классификации и уменьшения размерности ваших данных.

Надеюсь, это поможет! Дайте знать, если у вас есть другие вопросы.

Как правильно вычислить оценку спам-сообщения как комбинацию фиксированных признаков и вероятности из наивного байесовского классификатора?

Вопрос или проблема

Ответ или решение