Вопрос или проблема
В Википедии говорится: “В двоичной классификации показатель recall называется чувствительностью” в разделе о Recall. Отличаются ли они в случае многоклассовой классификации?
коротко: не совсем, recall и точность очень похожи на чувствительность и специфичность. Это просто вопрос, что делить на что.
Чувствительность и специфичность — это конкретно метрики двоичной классификации, используемые для оценки того, насколько хорошо модель способна предсказывать истинные и ложные значения. Чувствительность — это процент истинных положительных результатов относительно всех положительных, а специфичность — процент истинных отрицательных относительно всех отрицательных. Другими словами, чувствительность — это мера того, насколько хорошо вы справляетесь с одной выборкой, а специфичность — мера того, насколько хорошо вы справляетесь с другой выборкой.
Это полезно, например, для диагностики заболевания, но концепция “истины” и “лжи” менее актуальна в поиске документов. Похоже, что точность и полнота — это специфические для области проявления чувствительности и специфичности; хотя математика очень похожа, способ расчета отношений несколько отличается, и его последствия тоже немного отличаются. В то время как чувствительность и специфичность сосредоточены на понимании того, насколько хорошо предсказываются истинные и ложные наборы, точность и полнота сосредоточены только на описании производительности истинных (то есть релевантных) документов.
изображение точности и полноты
изображение чувствительности и специфичности
в отношении вашего вопроса, учитывая запрос, есть только два варианта: документ может быть релевантным или нет. Вы можете вычислить точность и полноту по различным подклассам в вашем тестовом наборе или можете вычислить по всему тестовому набору. Но я не вижу логического способа вычислить память и полноту чисто многоклассовым методом.
Ответ или решение
Вопрос о том, являются ли чувствительность и полнота (recall) тем же самым в контексте мультиклассовой классификации, требует немного более глубокого анализа различий и сходств этих показателей в бинарной и многоклассовой классификации.
Понимание терминов
Чувствительность (или Sensitivity) в бинарной классификации показывает способность модели правильно идентифицировать положительные экземпляры, то есть это отношение истинно положительных результатов к сумме истинно положительных и ложно отрицательных.
Полнота (или Recall) также используется для оценки способности модели выявлять все релевантные случаи. В бинарной классификации действительно чувствительность и полнота являются синонимами.
Мультиклассовая классификация
Когда мы переходим от бинарной классификации к многоклассовой, ситуация становится более сложной, но концепции сохраняют связь. В многоклассовой классификации по-прежнему можно рассчитывать полноту для каждого класса. Полнота для каждого отдельного класса определяется как отношение истинно положительных предсказаний для этого класса ко всем реальным экземплярам этого класса.
Формулы:
- [Полнота для класса i] = TP_i / (TP_i + FN_i), где TP — истинно положительные, FN — ложно отрицательные.
Совпадение и различия
Хотя термины чувствительность и полнота взаимозаменяемы в бинарной классификации, в многоклассовой классификации акцент скорее делается на термине "полнота" для каждого класса, а не на общем термине "чувствительность", который всё же больше используется в контексте бинарных задач.
Заключение
По сути, в контексте многоклассовой классификации термин "полнота" является более подходящим и широко применяемым, чтобы избежать путаницы и подчеркнуть аспект доступности модели к каждому из возможных классов. Это не значит, что понятие чувствительности уходит, просто его использование несколько выходит за рамки стандартной практики в мультиклассовом контексте.
Таким образом, хотя концептуально чувствительность и полнота сохраняют связь и сходство, в многоклассовой классификации более уместно говорить о полноте, применяемой для каждого отдельного класса. Это обеспечивает более ясное представление о способности модели правильно идентифицировать случаи каждого класса и, соответственно, более точные метрики для оценки её эффективности.