Почему моя модель наивного Байеса всегда предсказывает электронные письма как спам?

Содержание

Вопрос или проблема
Ответ или решение
Теоретическая часть
Основные компоненты Наивного Байеса:
Пример
Применение
Рекомендации:

Вопрос или проблема

Я работаю над реализацией модели классификации Наивного Байеса для обнаружения спам-сообщений, и пытаюсь сделать это с нуля, без использования библиотек машинного обучения. Я использую набор данных (spam.csv) и разделяю его на категории спама и “не спама” (ham). Цель — классифицировать электронные письма как “не спам” (ham) или спам. Однако, независимо от входных данных, моя модель всегда предсказывает, что письмо является спамом.

Вот краткое изложение того, что я сделал на данный момент:

Предобработка данных: я разделил данные на обучающую и тестовую выборки.
Фичер инжиниринг: я вычислил вероятности слов как для спам, так и для “не спам” сообщений.
Моделирование: я реализовал алгоритм Наивного Байеса с нуля, где вычисляю вероятность появления каждого слова в “не спаме” и спам-сообщениях.
Прогнозирование: похоже, модель всегда прогнозирует спам, хотя некоторые тестовые письма очевидно “не спам”.

Вот часть моего кода, где я вычисляю вероятности и делаю предсказания:

    # Вычисление вероятностей для спам и "не спам" сообщений
spam_prob = calulate_prob(concatnais_messages(train_data[train_data['Category']=='spam']['Message']),
                          train_data[train_data['Category']=='spam']['Message']
                          .apply(lambda line: len(line.split(' '))).sum())

ham_prob = calulate_prob(concatnais_messages(train_data[train_data['Category']!='spam']['Message']),
                         train_data[train_data['Category']!='spam']['Message']
                         .apply(lambda line: len(line.split(' '))).sum())

# Функция прогнозирования
def predict(X):
    helper_tag = {
        'ham': (train_data['Category'].value_counts() / train_data.shape[0]).iloc[0],
        'spam': (train_data['Category'].value_counts() / train_data.shape[0]).iloc[1],
    }
    prediction = []
    for x_row in X:
        is_ham = np.log(validate_mail(x_row, helper_tag['ham'], ham_prob))
        is_spam = np.log(validate_mail(x_row, helper_tag['spam'], spam_prob))
        prediction.append('spam' if is_spam > is_ham else 'ham')
    return np.array(prediction)

Кто-нибудь сталкивался с этой проблемой раньше? Возможно, проблема заключается в том, как я рассчитываю вероятности или обрабатываю данные?

Я буду признателен за любой совет о том, где я мог ошибиться. Я реализую это с нуля, поэтому любые предложения или советы по отладке приветствуются!

Я загрузил полный блокнотик на Google Colab и соответствующий репозиторий GitHub, если кто-то хочет взглянуть или предложить улучшения:

Заранее спасибо за вашу помощь!

Ответ или решение

Проблема, с которой вы столкнулись в реализации модели Наивного Байеса для классификации спама, требует глубокого анализа. Давайте подробно разберем возможные причины, из-за которых ваша модель всегда классифицирует письма как спам, и предложим пути их решения.

Теоретическая часть

Наивный Байес — это простой, но мощный алгоритм для задач классификации, особенно хорошо себя зарекомендовавший в задачах, связанных с обработкой естественного языка, таких как фильтрация спама. Он основывается на теореме Байеса, которая описывает вероятность события на основе априорных знаний об условиях, которые могут быть связаны с этим событием. Главная "наивность" модели заключается в предположении о независимости признаков: она полагает, что каждый признак в наборе данных независим от других признаков.

Основные компоненты Наивного Байеса:

Априорная вероятность для классов (спам и хам в вашей задаче) определяется как доля наблюдений каждого класса в обучающей выборке.
Условные вероятности признаков рассчитываются для каждого слова в тексте: вероятность появления слова при условии, что письмо спам или хам.

Пример

На практике использование Наивного Байеса подразумевает расчет вероятностей для всех слов в сообщениях и дальнейшую оценку вероятности того, что данное сообщение принадлежит категории спам или хам. Наивный Байес использует логарифмическую шкалу для предотвращения проблем с переполнением при умножении большого количества маленьких вероятностей.

Применение

Теперь вернемся к вашему коду. Возможно, обвинения в том, что модель всегда классифицирует письма как спам, могут быть связаны с несколькими частыми ошибками:

Неверный расчет вероятностей: Проверьте, правильно ли вы рассчитываете вероятности для каждого слова в обеих категориях. Ошибка в формуле или недочет в коде может привести к смещению весов в сторону спама.
Смещение данных (Data Imbalance): Если доля спам-писем значительно выше, модель может научиться предсказывать спам для всех сообщений, чтобы минимизировать логистическую потерю. Проверьте распределение классов в обучающей выборке и, если нужно, примените методы балансировки, такие как undersampling или oversampling.
Инициализация и аппроксимация: Иногда, когда в обучающем наборе данных слишком маленький объем данных для одного из классов, возникающие нулевые вероятности можно устранить применением сглаживания (например, аддитивное сглаживание Лапласа).
Ошибка в реализации алгоритма: Проверьте функцию calulate_prob. Это может быть тривиальной опечаткой в названии, ведущей к нерезультативному расчету вероятностей. Также перепроверьте сам алгоритм, возможно, стоит добавить промежуточные проверки и вывод результатов для верификации правильности расчетов.
Подгонка под тестовую выборку: Возможно, ваша модель «запоминает» тренировочные данные, но не может адаптироваться к тестовым, постарайтесь её валидации на кросс-валидации и обеспечьте разделение на обучение/валидацию/тест правильно.

Можно также обратить внимание на подсчет логарифмов в функции validate_mail. Убедитесь, что вы используете правильный метод для суммирования логарифмических вероятностей, так как это часто источник ошибок в наивной реализации.