Какой F1-скор используется для задач семантической сегментации?

На чтение 3 мин Опубликовано 25.09.2024

Вопрос или проблема

Я прочитал несколько статей о современных моделях семантической сегментации, и во всех из них авторы используют для сравнения метрику F1-меры, но не указали, используют ли они “микро” или “макро” версию.

Кто-нибудь знает, какая F1-мера используется для описания результатов сегментации и почему так очевидно, что авторы не определяют это в статьях?

Примеры статей:

https://arxiv.org/pdf/1709.00201.pdf

https://arxiv.org/pdf/1511.00561.pdf

Я посмотрел очень быстро и только первую статью, так что мог что-то упустить, но мне кажется, что задача является задачей бинарной классификации. Если это правильно, то нет необходимости в усреднении F1-меры.

Также в этой статье авторы даже дают формулу F1-меры (!), поэтому я бы сказал, что они довольно тщательно описывают меры оценки, которые используют. Я воспринял бы это как дополнительное свидетельство того, что усреднения нет, так как маловероятно, что они не упомянули бы об этом.

Ответ или решение

В задачах семантической сегментации чаще всего используется мультиклассовая F1-мера, и обычно более предпочтительно использовать "мкро" (micro) усреднение, особенно в контексте изображений, где классы могут быть несбалансированными. Однако выбор между "мкро" (micro) и "макро" (macro) F1-мерой может зависеть от особенностей конкретного исследования и от того, как модели обрабатывают классы.

1. Micro F1-меры: Рассчитывается, объединив все предсказания и истинные метки по всем классам, что делает её особенно чувствительной к частоте классов. В задачах семантической сегментации, где некоторые классы могут встречаться реже (например, объекты на изображении), micro F1-мера может более точно отражать общую производительность модели, так как она подсчитывает все истинно-положительные, ложно-положительные и ложно-отрицательные результаты для всех классов как единое целое.

2. Macro F1-меры: Рассчитывается индивидуально для каждого класса, а затем усредняется. Это дает равное значение всем классам, независимо от их частоты. В случае семантической сегментации, где класса может быть много, и некоторые из них могут быть редкими, макро F1-мера может быть менее информативной, поскольку будет подвержена влиянию классов с низкой частотой.

В большинстве случаев авторам не нужно упоминать конкретный выбор между micro и macro F1, когда контекст подразумевает, что используется одно из них. В научных работах, если F1-мера не удостоена дополнительных разъяснений, предположительно, подразумевается, что речь идет о микромере, особенно если они обрабатывают крупные классы.

Кроме того, в зависимости от специфики задач, предпочтения могут изменяться. Если у вас есть конкретные проблемы с использованием F1-меры в своих исследованиях, рекомендуется всегда проверять дополнительные источники или обсуждения, чтобы найти наиболее подходящую метрику для ваших данных.

Таким образом, в большинстве современных публикаций по семантической сегментации можно ожидать использование micro F1-меры, хотя, как упоминалось, выбор может варьироваться в зависимости от особенностей выполняемой работы.