Классификация текста неверно классифицирует?

Question 1

Я пытаюсь решить задачу бинарной классификации. Мои метки — абьюзивные (1) и не абьюзивные (0). Мой набор данных был несбалансирован (больше 1, чем 0), и я использовал увеличенное количество выборок для меньшинства (т.е. 1), чтобы сбалансировать мой набор данных. Я также провел предварительную обработку, выделение признаков с использованием TF-IDF и затем передал набор данных в конвейер, используя 3 алгоритма классификации, а именно: логистическую регрессию, SVM и дерево решений.

Мои метрики оценки:

    Логистическая регрессия:
[[376  33]
 [ 18  69]]
          точность    полнота  f1-мера   поддержка

       0       0.95      0.92      0.94       409
       1       0.68      0.79      0.73        87

точность                               0.90       496
макро среднее          0.82      0.86      0.83       496
взвешенное среднее       0.91      0.90      0.90       496

    SVM:
[[383  26]
 [ 23  64]]
          точность    полнота  f1-мера   поддержка

       0       0.94      0.94      0.94       409
       1       0.71      0.74      0.72        87

точность                               0.90       496
макро среднее          0.83      0.84      0.83       496
взвешенное среднее       0.90      0.90      0.90       496

    Дерево решений:
[[383  26]
 [ 28  59]]
          точность    полнота  f1-мера   поддержка

       0       0.93      0.94      0.93       409
       1       0.69      0.68      0.69        87

точность                               0.89       496
макро среднее          0.81      0.81      0.81       496
взвешенное среднее       0.89      0.89      0.89       496

Проблема, с которой я сталкиваюсь, заключается в том, что некоторые новые абьюзивные тексты классифицируются как не абьюзивные. Я думаю, что моя доля ложных срабатываний (FP) и ложных отрицаний (FN) слишком высока и их необходимо уменьшить. У вас есть какие-либо предложения, как уменьшить FP и FN или другие предложения для решения моей проблемы? Спасибо.

Question 2

Все 3 алгоритма дают очень схожие результаты. И глядя на размер выборки для оценки, я думаю, что обучающая выборка не слишком велика. Это говорит мне о том, что если есть какая-либо возможность, то это
a) в выделении признаков
b) в том, чтобы не предсказывать менее уверенные случаи
c) получение большего объема данных для обучения более сложного алгоритма

a) Выделение признаков – TFIDF или счетчик векторов имеют реальную проблему, когда тестовые слова находятся за пределами словаря обучения. Если вы можете использовать общий языковой словарь для встраивания как обучающего, так и тестового наборов, то результаты должны улучшиться. Есть открытые предобученные встраивания, такие как USE, Glove и т.д., чтобы это сделать.

b) Доверие к предсказанию – наряду с предсказанием класса вы также можете получить вероятность классификации. Затем проверьте – ниже какого порога вероятности ваша f1-мера становится слишком низкой. Не предсказывайте для этих случаев с низкой вероятностью. Большинство практических систем принимают ограничения ИИ.

c) Большее количество данных позволит вам изучить более сложные алгоритмы, такие как бустинг, что может улучшить результаты. Надеюсь, вы уже проводите кросс-валидацию.

Кроме того, в зависимости от стоимости ошибки, вы можете определить, следует ли приоритизировать FP или FN. Соответственно оптимизируйте точность/полноту.

Классификация текста неверно классифицирует?

Вопрос или проблема

Ответ или решение

Ошибочная классификация текста в задачах бинарной классификации: Анализ и рекомендации

1. Анализ текущей ситуации

2. Статистика ошибок

3. Рекомендации по улучшению

a) Улучшение обработки признаков

b) Учитывайте уверенность предсказаний

c) Увеличение объема данных

d) Усовершенствование метрических показателей

4. Заключение