Вопрос или проблема
Я прочитал несколько статей о современных моделях семантической сегментации, и во всех из них авторы используют для сравнения метрику F1-меры, но не указали, используют ли они “микро” или “макро” версию.
Кто-нибудь знает, какая F1-мера используется для описания результатов сегментации и почему так очевидно, что авторы не определяют это в статьях?
Примеры статей:
Я посмотрел очень быстро и только первую статью, так что мог что-то упустить, но мне кажется, что задача является задачей бинарной классификации. Если это правильно, то нет необходимости в усреднении F1-меры.
Также в этой статье авторы даже дают формулу F1-меры (!), поэтому я бы сказал, что они довольно тщательно описывают меры оценки, которые используют. Я воспринял бы это как дополнительное свидетельство того, что усреднения нет, так как маловероятно, что они не упомянули бы об этом.
Ответ или решение
В задачах семантической сегментации чаще всего используется мультиклассовая F1-мера, и обычно более предпочтительно использовать "мкро" (micro) усреднение, особенно в контексте изображений, где классы могут быть несбалансированными. Однако выбор между "мкро" (micro) и "макро" (macro) F1-мерой может зависеть от особенностей конкретного исследования и от того, как модели обрабатывают классы.
1. Micro F1-меры: Рассчитывается, объединив все предсказания и истинные метки по всем классам, что делает её особенно чувствительной к частоте классов. В задачах семантической сегментации, где некоторые классы могут встречаться реже (например, объекты на изображении), micro F1-мера может более точно отражать общую производительность модели, так как она подсчитывает все истинно-положительные, ложно-положительные и ложно-отрицательные результаты для всех классов как единое целое.
2. Macro F1-меры: Рассчитывается индивидуально для каждого класса, а затем усредняется. Это дает равное значение всем классам, независимо от их частоты. В случае семантической сегментации, где класса может быть много, и некоторые из них могут быть редкими, макро F1-мера может быть менее информативной, поскольку будет подвержена влиянию классов с низкой частотой.
В большинстве случаев авторам не нужно упоминать конкретный выбор между micro и macro F1, когда контекст подразумевает, что используется одно из них. В научных работах, если F1-мера не удостоена дополнительных разъяснений, предположительно, подразумевается, что речь идет о микромере, особенно если они обрабатывают крупные классы.
Кроме того, в зависимости от специфики задач, предпочтения могут изменяться. Если у вас есть конкретные проблемы с использованием F1-меры в своих исследованиях, рекомендуется всегда проверять дополнительные источники или обсуждения, чтобы найти наиболее подходящую метрику для ваших данных.
Таким образом, в большинстве современных публикаций по семантической сегментации можно ожидать использование micro F1-меры, хотя, как упоминалось, выбор может варьироваться в зависимости от особенностей выполняемой работы.