Оценка модели на несовершенном наборе для проверки

Вопрос или проблема

Я хотел бы получить помощь с оценкой моей модели классификации. Это типичная модель, которая для каждого входного значения выдает вектор чисел с плавающей запятой, представляющий вероятности меток, и я классифицирую входное значение с помощью метки с наивысшей вероятностью.

Но у меня есть проблема с оценкой этой модели. Причина в том, что мой валидационный набор не идеален. Мой валидационный набор может содержать несколько “правильных” меток для каждого входного значения.

Пример:

Предположим, есть 4 возможных класса: собака, кошка, лягушка, попугай. Тогда мой валидационный набор может выглядеть так:
валидируемый набор

В этом примере только для входного значения 1 мы знаем точный ответ. Но для входных значений 2 – 4 мой валидационный набор не уверен, какая метка правильная. Это может быть любая метка из набора. Для входа 2, если модель говорит “кошка”, я знаю, что это неверно. Но если она говорит “лягушка”, я считаю это правильным, даже если в реальности это “попугай”. Я с этим согласен, потому что нет возможности получить эту информацию.

А теперь по поводу оценки. Вычислить точность легко. Достаточно проверить, находится ли метка, выданная моделью, в возможном наборе меток в валидационном наборе. Но как насчет других методов оценки? Есть ли какие-то рекомендации? Мне очень нравится матрица ошибок, но я не могу придумать, как модифицировать ее для этого случая.

Спасибо за все ваши предложения.

Ответ или решение

Теория

При оценке моделей классификации на неполном или несовершенном валидационном наборе данных необходимо учитывать наличие множественных правильных меток для одного и того же примера. Это накладывает определенные ограничения и потребности в адаптации стандартных метрик и методов оценки. Среди классических метрик оценки классификационных моделей — таких как точность, полнота, F1-мера и анализ матрицы ошибок (confusion matrix) — некоторые могут потребовать модификации или введения дополнительных критериев.

Одним из основных способов оценивания таких моделей при наличии множественных правильных ответов для одного примера может служить модифицированная точность. Это возможность считать результат правильным, если предсказанная моделью метка находится среди множества допустимых. Однако стандартные методы оценки, такие как матрица ошибок, становятся более сложными в интерпретации. Матрица ошибок, изначально отражающая распределение верных и ошибочных классификаций между заранее определёнными классами, может терять свою информативность, так как границы "правильности" размыты.

Пример

Рассмотрим данный вами пример с классами "собака", "кошка", "лягушка" и "попугай" и ситуацией, когда в валидационном наборе для input2 допустимыми метками считаются "лягушка" и "попугай". Если модель возвращает "лягушку", мы считаем, что ответ верный. Однако сама модель может иметь более сложную распределённую непрерывную структуру предсказаний, и оценка на основе исключительно правильности метки может быть недостаточной для понимания современного состояния модели.

Применение

Для оценки модели в таких условиях можно использовать следующие рекомендации и подходы:

  1. Модификация традиционных метрик:

    • Условная точность – считает предсказания корректными, если класс модели попадает в множество допустимых меток.
    • Модифицированная матрица ошибок – добавление возможностей для отображения неопределённых или множественных допустимых меток может помочь интерпретации. Например, можно создать дополнительный класс "множественная метка", который будет отслеживать совпадения в распределении вероятностей модели с несколькими возможными метками.
  2. Учет вероятностей:

    • Оценка вероятностных распределений может являться полезной. Например, использование метрик, таких как максимальная вероятность для допустимых меток. Это поможет глубже понять, насколько уверена модель в своих прогнозах среди множества допустимых вариантов.
  3. Анализ на уровне выборок:

    • Проводите анализ по выборкам, исследуя, какие входные данные имеют множественные метки, и глубже изучайте предсказания модели в этих случаях. Это может выявить, например, доминирование одного класса в спорных ситуациях.
  4. Использование прослеживаемости (traceability):

    • Путем добавления объясняющей возможности, например, интерпретация на основе кластеризации или методом SHAP, можно понять, почему модель делает те или иные предсказания.
  5. Дополнительные метрики:

    • Рассмотрите возможность введения нестандартных метрик, основанных на вероятностных графах, которые позволяют учитывать не только наличие правильного класса в числе допущенных, но и расстановку приоритетов в случае многомерных распределений вероятностей.

Заключая, важно помнить, что точная оценка моделей на неполном валидационном наборе данных требует комплексного подхода, который будет учитывать характеристики самих данных, специфику задач и глубже изучит внутренние закономерности работы модели. Изучите возможности различных комбинаций метрик, специфичных для вашей области и задачи, которые могут лучше всего описать производительность вашей системы.

Оцените материал
Добавить комментарий

Капча загружается...