Минимальное количество признаков для модели наивного Байеса

Содержание

Вопрос или проблема
Ответ или решение
Понимание ситуации
Минимальное количество признаков
Рекомендации
Заключение

Вопрос или проблема

Я продолжаю читать, что Наивный Байес требует меньше признаков, чем многие другие алгоритмы машинного обучения. Но каково минимальное количество признаков, которое вам на самом деле нужно, чтобы получить хорошие результаты (90% точности) с моделью Наивного Байеса? Я знаю, что на этот вопрос нет объективного ответа — это зависит от ваших конкретных признаков и от того, что именно вы пытаетесь узнать — но я ищу численный ориентир на этот счет.

Я спрашиваю, потому что у меня есть набор данных с около 280 признаками и я хочу понять, недостаточно ли этого количества признаков для использования с Наивным Байесом. (Я пытался запустить Наивный Байес на своем наборе данных и, хотя я получил 86% точности, я не могу доверять этому числу, так как мои данные несбалансированы, и я полагаю, что это может быть причиной высокой точности. В данный момент я пытаюсь решить эту проблему.)

На случай, если это важно: конкретная проблема, над которой я работаю, заключается в генерации временных меток для статей Википедии. Многие разы инфобокс статьи Википедии содержит дату. Однако часто эта дата появляется в тексте статьи, но отсутствует в инфобоксе. Я хочу использовать Наивный Байес, чтобы определить, какая дата из всех дат, которые мы находим в тексте статьи, должна быть помещена в инфобокс. Каждый раз, когда я нахожу предложение с датой в нем, я превращаю его в вектор признаков — указывая, в каком номере абзаца я это нашел, сколько раз эта конкретная дата встречается в статье и т.д. Я ограничил себя небольшим подмножеством статей Википедии — только статьями об яблоках — и в результате у меня всего около 280 признаков. Есть ли идеи, достаточно ли этого объема данных?

Спасибо!

Количество признаков для получения минимальной точности является эмпирическим вопросом, который зависит от конкретной проблемы. Есть проблемы, где один признак приведет к “достаточно хорошей” производительности, а есть другие проблемы, где никакое количество признаков не будет достаточным.

Наивный Байес действительно предоставляет наиболее предсказуемые признаки для каждого класса. Таким образом, увеличение производительности за счет добавления признаков можно вычислить.

Для вашей конкретной проблемы больше признаков (больше текстовых сигналов) и больше наблюдений (больше статей Википедии) увеличат точность.

Ответ или решение

Минимальное количество признаков для модели Наивного Байеса: исчерпывающее руководство

Когда речь заходит о применении алгоритма Наивного Байеса, часто упоминается, что он требует меньше признаков по сравнению с другими алгоритмами машинного обучения. Однако точное минимальное количество признаков, необходимое для достижения хороших результатов, таких как 90% точности, является вопросом, на который нельзя ответить однозначно.

Понимание ситуации

Тип задачи и данные: Ваша текущая задача заключается в определении, какой из найденных дат в тексте статьи подходит для заполнения инфобокса в статьях Википедии. Поскольку вы ограничены размером выборки статей только по яблокам и имеете около 280 признаков, это вызывает некоторые вопросы о достаточности ваших данных.
Имбаланс данных: Как вы уже упомянули, у вас есть проблемы с имбалансировкой данных, что может значительно повлиять на точность модели. При высокой точности (86%) следует проявить осторожность, так как это может быть результатом того, что модель просто запоминает большинство классов, игнорируя редкие.