Какие метрики classification_report лучше всего сообщать/интерпретировать для бинарной метки? Индивидуальные или макро средние для обоих классов? scikit-learn

Содержание

Вопрос или проблема
Ответ или решение
Фокус на класс интереса
Макро и взвешенные средние метрики
Рекомендации
Советы

Вопрос или проблема

Во-первых, пожалуйста, простите мое невежество; я новичок, но готов учиться дальше.

Пример: Я использую классификатор случайного леса для прогнозирования бинарного исхода. Бинарный исход равен 1, если люди в наборе данных когда-либо испытывают определенное состояние здоровья, и равен 0, если они не испытывают это состояние.

Я настроил и запустил модель, используя scikit-learn и связанные пакеты в среде программирования Python. Затем я произвожу следующий отчет о классификации, приведенный ниже. Я понимаю, как интерпретировать точность, точность, восстановление (чувствительность) и т.д. Но я запутался в следующем…

Вопрос: Я хочу сообщить наиболее подходящие метрики производительности из classification_report — будут ли это только метрики для класса “= 1” или средние показатели по обоим классам (т.е. 0 и 1). Таким образом, если у меня есть бинарный исход, и = 1 (т.е. Да) является интересующим исходом для целей прогнозирования, было бы более уместно сообщить и обсудить точность, восстановление, F1 для класса “= 1”? Или вместо этого было бы более уместно и полезно сообщить макро (или взвешенные) средние метрики точности, восстановления, F1 с учетом метрик обоих классов? Например, я понимаю, что метрики точности и восстановления класса “= 0” лучше в этом примере, и они повлияют на макро/взвешенные средние метрики в отчете классификации. Но я не совсем уверен, будет ли уместным (и полезным) сообщить средние показатели по обоим классам (0 и 1) в таблице, а не только метрики производительности класса “= 1”. Например, макро средняя точность = 0.715 вместо 0.494 для только класса = 1.

Заранее огромное спасибо за ваше время, понимание и помощь!

Для вашего случая это похоже на проблему несбалансированного класса, так как соотношение 0:1 составляет примерно 5:1. В этом случае я бы посмотрел на индивидуальные показатели для 0 и 1. Мы должны уделять большое внимание метрикам для 1 в этом случае.

Также всегда полезно знать, какова ваша бизнес-цель, и согласовать вашу метрику оценки с этой целью.

Ответ или решение

Когда дело касается выбора метрик для оценки бинарной классификации с использованием отчета classification_report из scikit-learn, важно учитывать несколько факторов, чтобы сделать обоснованный выбор, особенно в контексте дисбаланса классов. Вам стоит рассмотреть следующие аспекты:

Фокус на класс интереса

В вашем случае, класс "1" представляет интерес, поскольку это положительный результат, свидетельствующий о наличии определенного заболевания. При дисбалансе классов, когда "0" встречается намного чаще, чем "1" (как у вас – 5:1), необходимо особое внимание уделить метрикам для класса "1".

Определенные метрики:

Precision (точность): указывает, какая доля предсказанных положительных примеров действительно оказалась положительной. Особенно важна в задачах, где ложные срабатывания (например, неверная информация о состоянии здоровья) неприемлемы.
Recall (полнота): измеряет, какую долю всех реальных положительных случаев модель правильно идентифицировала. Это критично, если вы хотите свести к минимуму случаи пропущенной болезни.
F1-score: гармоническое среднее между Precision и Recall. Рекомендуется для оценки модели в условиях дисбаланса классов.

Макро и взвешенные средние метрики

Макро средние предоставляют одинаковый вес обеим классам, что может быть не столь эффективно в дисбалансированных данных. Однако они дают общее представление о производительности модели, игнорируя дисбаланс.

Взвешенные средние учитывают дисбаланс классов при вычислении среднего, что может быть полезнее для понимания общей точности модели.

Советы

Убедитесь, что метрики, на которые вы ориентируетесь, соответствуют бизнес-целям. Общение с заинтересованными сторонами поможет согласовать ожидания.
Если модель будет использоваться в производственных системах, где дисбаланс классов может измениться, тестируйте и адаптируйте модель соответственно.

Ваш подход к выбору метрик должен быть обоснованным и тщательно продуманным, основываясь на задачах модели и специфике данных.