Как работает класс фона в обнаружении объектов?

Содержание

Вопрос или проблема
Ответ или решение
Понимание проблемы
Расчет ложных положительных (FP)
Примеры из матрицы путаницы
Выводы

Вопрос или проблема

Я использую YOLOv5 для обнаружения объектов.

Я понимаю, что любые помеченные классы, которые не предсказываются, то есть ложные отрицательные (FN), отображаются как фон. Но как рассчитываются ложные срабатывания (FP)? Если фон не помечен явно в данных, как мы рассчитываем ложные срабатывания?

Пожалуйста, посмотрите на следующую матрицу ошибок для справки.

Последняя строка — это “фон FN”. Последний столбец — “фон FP”.

Текст
Источник изображения: https://github.com/ultralytics/yolov5/issues/6738

Любой предсказанный ограничивающий прямоугольник, который имеет уверенность выше порога, будет считаться предсказанием. После этого мы ищем истинные значения, которые вы предоставляете. Мы фильтруем любые предсказания, которые имеют IoU выше порога.

Из этих предсказаний мы выбираем предсказание с наивысшей уверенностью. Повторите это для всех истинных предсказаний. Из оставшихся предсказаний, которые имеют достаточно высокую уверенность, мы считаем ложными срабатываниями предсказания фона.

В вашем примере значения в строке kizu — это предсказания с меткой kizu и уверенностью выше установленного порога. Для значений в этой строке и в столбце фона: это предсказания с меткой kizu, но без сопоставленного (в частности, без рассматриваемой метки) истинного значения. Другими словами, это ложное срабатывание для kizu, которое не связано ни с одной из ваших меток истинных значений, правильно помеченных или нет.

Ответ или решение

Фоновые классы в задачах детекции объектов, особенно в таких системах, как YOLOv5, играют критически важную роль в оценке производительности модели. Давайте разберём, как они работают и как именно рассчитываются ложные положительные (FP) результаты в контексте фонового класса.

Понимание проблемы

При использовании YOLOv5 для обнаружения объектов каждое предсказание, которое имеет достатительный уровень уверенности, фиксируется. Однако каждый предсказанный объём, который не соответствует ни одному из истинных объектов (ground truth), считается ложноположительным (FP) для фонового класса. Важно отметить, что фон не является явным классом, поэтому необходимо правильно структурировать логику обработки предсказаний.

Расчет ложных положительных (FP)

Предсказания модели: После того как модель YOLOv5 выдаёт предсказания, осуществляется фильтрация по заданному порогу уверенности. Это означает, что только те предсказания, которые превышают установленный уровень уверенности, рассматриваются для дальнейшего анализа.
Сравнение с истинными метками: После фильтрации предсказаний необходимо сопоставить их с данными ground truth. Этот шаг включает в себя вычисление коэффициента пересечения и объединения (IoU) между предсказанными и истинными рамками. Если IoU предсказания с истинной меткой превысит заданный порог (например, 0.5), то предсказание считается истинным положительным (TP).
Определение FP в фоновой категории: Предсказания, которые не соответствуют ни одной из истинных рамок с достаточно высоким IoU, классифицируются как ложные положительные. В частности, если предсказанная рамка имеет высокую уверенность, но не попадает в категорию ни одной из меток в ground truth, она будет относиться к фоновой категории. Эти предсказания фиксируются в последней колонке матрицы путаницы.

Примеры из матрицы путаницы

Используя вашу матрицу путаницы в качестве примера, значения в строке, относящейся к какому-то объекту (например, "kizu"), представляют собой все предсказания с меткой "kizu" и уверенность выше порога, которые не были сопоставлены с истинной меткой. Значения в колонке "фон" соответствуют предсказаниям, которые помимо ответа "kizu" также не соответствуют никаким истинным объектам.

Выводы

Фоновый класс в задачах детекции объектов не просто выполняет формальную роль, он необходим для более точной и реальной оценки производительности модели. Понимание метрик, таких как FP для фоновых классов, помогает разработчикам настраивать и улучшать алгоритмы, обеспечивая более качественный вывод и повышение точности модели в сложных сценариях. Это знание является критически важным для дальнейшего улучшения моделей машинного обучения в области компьютерного зрения.

В заключение, осознание механики работы фоновых классов углубляет понимание процессов, происходящих внутри YOLOv5, и ключевым образом влияет на эффективность применения данной технологии в реальных задачах.