Вопрос или проблема
У меня есть набор данных постов для анализа настроений, которые помечены как -1 (негативные), 1 (позитивные) или 0 (нейтральные).
Я задумываюсь над тем, как с этим работать. Вот мои идеи:
- создать мультиклассовый классификатор: я пробовал с использованием случайного леса, и результаты довольно правильные; однако у меня есть определенное количество негативов в положительных и наоборот; я бы предпочел, чтобы ошибка лучше попадала в нейтральные.
- создать бинарный классификатор, но при предсказании, если вероятности слишком сбалансированы, вернуть нейтральное. Однако мне кажется, что я не использую нейтральные данные — разве это не трата данных? Может быть, использование OneVsAll будет лучше?
- создать перцептрон/нейронную сеть с tаnh нейроном на выходе; но я не знаю, какая хорошая функция потерь может быть использована здесь.
Вы знаете, есть ли что-то из этого, что теоретически/практически лучше?
Обнаружение настроений может быть неоднозначным и иногда неопределенным. Так что только после того, как вы убедитесь, что ваши данные чисто помечены, сбалансированы и хорошо предобработаны, я бы продолжил переобучение.
Обнаружение нейтральных с помощью порогового значения от бинарного классификатора интересно, но не дает большого прироста, потому что нейтральные не обязательно являются “отсутствием” или “отменой” позитивных/негативных сигналов.
Тем не менее, все еще есть смысл в укреплении “спектральной природы” этой проблемы. Вы можете создать пользовательский ансамбль, схожий с OneVsOneClassifier
, но вместо мажоритарного голосования можно применить правило для нейтрализации неоднозначностей и противоречий. Таким образом, большинство неправильно классифицированных позитивных или негативных хотя бы будут менее ошибочными. Для этого можно использовать любой базовый оценщик, включая нейронные сети перцептронов.
Ответ или решение
Вопрос о классификации данных по бинарной и нейтральной шкале часто возникает в контексте анализа настроений, где данные разметаны на отрицательные (-1), положительные (1) и нейтральные (0) метки. Для решения этой задачи могут быть использованы различные подходы, каждый из которых имеет свои преимущества и ограничения.
Многоклассовая классификация
Первый подход заключается в использовании многоклассового классификатора, например, случайного леса. Этот метод позволяет напрямую моделировать три возможных исхода, что теоретически должно обеспечить более точное распределение по меткам. Однако недостаток заключается в том, что не всегда можно избежать ошибочной классификации, когда отрицательные посты попадают в категорию положительных и наоборот. В таких случаях было бы предпочтительнее, чтобы ошибки происходили в сторону нейтральной категории, что минимизирует риск серьезных ошибок.
Бинарная классификация с пороговым определением нейтральности
Второй подход предполагает обучение бинарного классификатора для определения только положительных и отрицательных постов, а в случае, если предсказанные вероятности практически равны, отнесение таких случаев к нейтральной категории. Проблема здесь заключается в неиспользовании всех доступных данных, связанных с нейтральной категорией, что может неблагоприятно сказаться на качестве модели. Одновременное использование стратегии OneVsAll могло бы потенциально улучшить ситуацию, поскольку каждая из классов рассматривается отдельно против всех остальных.
Нейронные сети и функция потерь
Третий подход — это использование нейронных сетей. Выходной слой с активацией tanh
может быть полезен из-за своей способности извлекать значения от -1 до 1. Ключевым моментом здесь является выбор функции потерь. Возможным вариантом может быть Huber loss или Kullback-Leibler divergence, которые более устойчивы к выбросам, чем традиционная Mean Squared Error.
Рекомендации по выбору метода
Определяющий элемент выбора метода — это характеристики вашего набора данных. Важно убедиться, что данные чистые, сбалансированные и хорошо предобработаны. Это позволит минимизировать двусмысленности и обеспечить более точные прогнозы. В некоторых случаях может быть полезно разрабатывать ансамбли на основе техники OneVsOne, где применяется правило для "нейтрализации" противоречий, что позволит снизить вероятность ошибочного отнесения постов в категории, находящихся на противоположных концах спектра.
В итоге, каждый из подходов имеет свои плюсы и минусы, и выбор зависит от конкретных требований к точности и природе данных. Грамотное предобработка и проверка гипотез на тестовых наборах могут значительно увеличить качество итоговой модели.