SVC и несимметричные вероятности

Вопрос или проблема

У меня есть набор данных, в котором я пытаюсь выполнить бинарную классификацию. Моя метрика для оптимизации — это отрицательная логарифмическая потеря. Я попробовал несколько моделей, используя различные классификаторы, в частности boosting, логистическую регрессию, MLP и SVC. Для всех моих моделей я использовал устойчивый масштабатор (только на не-boosting моделях), так как в моем наборе данных есть значительное количество выбросов, а также калибровку вероятностей. Однако у меня возникла интересная дилемма.

Все мои модели, похоже, имеют асимметричные вероятностные выходы, то есть если мой входной вектор был [-1,-1,-1] с вероятностью 27% для класса 1, то ввод [1,1,1] не даст 73% (дополнение к первому вектору) для класса 1. Единственная модель, которая справляется с этим хорошо, это SVC, хотя я не уверен, почему. Моя основная гипотеза о том, почему фактические вероятности асимметричны, заключается в дисбалансе определенных категориальных значений, что, возможно, сбивает с толку MLP и обучение логистической регрессии, особенно из-за переобучения на этих признаках.

Однако, почему это не влияет на SVC? Неужели SVC невосприимчив к несбалансированным наборам признаков? Или возможно, что мои асимметричные вероятности не связаны с дисбалансом в моих признаках?

.

Ответ или решение

Конечно, давайте разберемся в данном вопросе, касающемся классификации методом опорных векторов (SVC) и асимметрии вероятностей в контексте бинарной классификации.

Теоретическая часть

Сначала важно понять основы работы различных алгоритмов классификации и их обработки вероятностей. В бинарной классификации модели предоставляют вероятностную оценку для принадлежности к классу 1. Например, если модель выдает вероятность 27% для случая [-1, -1, -1], это означает вероятность того, что эта точка относится к классу 1.

Асимметрия возникающих вероятностей может быть следствием нескольких факторов:

  1. Имбаланс в данных: Если набор данных содержит неравное распределение классов или категориальных признаков, модели, такие как логистическая регрессия и многослойный перцептрон (MLP), могут демонстрировать резистентность к точной калибровке вероятностей.

  2. Нелинейные модели: Модели классификации не всегда симметрично обрабатывают входные данные, особенно если они используют нелинейные методы для обучения сложных паттернов, что часто имеет место в MLP.

  3. Калибровка вероятностей: Даже при калибровке вероятностей, модели могут предоставлять вероятности, отличные от симметричных. Используемые калибровочные методики, такие как калибровка Платта или изотоническая регрессия, направлены на улучшение вероятностной интерпретируемости, что может приводить к различным вероятностным распределениям.

Теперь, почему SVC может демонстрировать отличные от других моделей результаты.

Пример

Метод опорных векторов особенно подходит для работы с различной природой данных, в том числе имбалансированных. Это обусловлено его основным механизмом работы, выстраивающим гиперплоскость, которая максимально разделяет данные в высокоразмерном пространстве. В случае с использованием ядра (например, RBF), SVC способен обрабатывать нелинейные разделения в данных.

Данные действия по калибровке вероятностей для SVC часто включают в себя использование метода Платта, который хорошо подходит для получения надежных вероятностных оценок, что может уменьшать асимметрию вероятностей.

Применение

Если говорить о возможных стратегиях решения вашей задачи:

  1. Анализ Влияния Входных Данных: Прежде всего стоит проанализировать характер имеющихся входных данных. Сильная асимметрия чаще всего может быть признаком значительной имбалансировки, что может привести к обучению моделей на базисе ошибочных данных.

  2. Обработка Имбалансированных Данных: Попробуйте использовать методы обработки, такие как SMOTE, для создания более сбалансированного набора данных. Это может оказать положительное воздействие на логистическую регрессию и MLP.

  3. Калибровка вероятностей: Тщательно настройте базовые параметры калибровки вероятностей и перепроверьте, обеспечивают ли они надлежащее улучшение обработки вашей задачи. Использование перекрестной проверки для регулярного тестирования может помочь в нахождении оптимальных значений.

  4. Анализ SVC: Если SVC показывает лучший результат с точки зрения симметричного распределения вероятностей, исследуйте, какие внутренние характеристики данных подходят именно для этого метода. Возможно, SVC лучше выдвигается на вашем множестве данных благодаря способности работать с многочастичным решением, что позволяет избежать переобучения.

В результате, подходя к задаче с учетом особенностей различных моделей и их специфичных характеристик, есть возможность улучшить симметрию вероятностей и общую качество бинарной классификации.

Оцените материал
Добавить комментарий

Капча загружается...