Почему используются прямоугольники ограничивающие, выровненные по осям, в обнаружении объектов

Вопрос или проблема

Я понимаю (думаю), почему в объектном детектировании результатом является прямоугольник:

это простая форма, которую можно определить с помощью 4 переменных (2 пары координат противоположных углов или 1 пара координат + ширина и высота)

Таким образом, более сложная форма может потребовать больше параметров, что могло бы усложнить ситуацию. Но, например, что если использовать круг? В этом случае потребуется всего 3 параметра: 1 пара координат центра + радиус. Есть ли что-то очевидное, что я упускаю?

И все же, что касается рамки ограничивающего прямоугольника, мне интересно, что произойдет, если добавить 5-й параметр, который будет описывать угол рамки. Например, рассмотрим iPhone на этом изображении:

Может быть, я неправильно об этом думаю, но в моей голове сети было бы легче “понять”, что мы хотим, чтобы она обнаруживала повёрнутую рамку, которая выравнивается с фактическим iPhone, чем рамку, выровненную по осям. Для человека также проще нарисовать повёрнутую рамку (и я бы сказал, более интуитивно), чем рамку, выровненную по осям, не так ли?

И независимо от того, будет ли это проще для сети, повёрнутая рамка будет более точным результатом обнаружения.

Существует некоторая работа по этому вопросу, я наткнулся на этот блог.
https://developer.nvidia.com/blog/detecting-rotated-objects-using-the-odtk/

Ответ или решение

Вопрос о том, почему в обнаружении объектов обычно используют ось-ориентированные ограничивающие рамки (Axis-Aligned Bounding Boxes, AABB), действительно имеет множество аспектов, которые стоит рассмотреть.

Простота и эффективность: Ось-ориентированные ограничивающие рамки определяются всего четырьмя параметрами: двумя парами координат противоположных углов или одной парой координат плюс ширина и высота. Это делает вычисления более простыми и быстрыми, что особенно важно в задачах реального времени, таких как видеонаблюдение и автономное вождение.
Обработка и обучение: В большинстве существующих архитектур нейронных сетей, таких как YOLO и Faster R-CNN, используется принципы, которые рассчитаны на работы с AABB. Эти методы эффективно работают и обеспечивают высокую скорость распознавания. Изменение формата меток, например переход на вращенные рамки, потребовало бы значительных изменений в самой модели, что могло бы привести к увеличению времени и сложности обучения.
Адаптивность к множеству случаев: Основанные на AABB подходы могут быть легко интегрированы с системами, использующими различные метрики для оценки качества детекции. Например, несколько минимизированных параметров позволяют легко задавать пороги точности и производить интеграцию с другими алгоритмами обработки.
Сложность применения вращенных рамок: Хотя действительно, вращенные ограничивающие рамки (Rotated Bounding Boxes) могут давать более точное описание объектов, они также требуют более сложных вычислений. Работая с четырьмя параметрами (координаты центра, угол и радиус), мы повышаем вычислительную нагрузку. А также необходимо учитывать различные угловые ориентирования объектов, что добавляет математическую сложность и необходимость в изменениях в алгоритмах обучения.
Интуитивная восприятие vs. вычислительная эффективность: Вы правы в том, что интуитивно люди могут воспринимать вращенные рамки как более естественные, особенно для некоторых объектов, таких как смартфоны. Тем не менее, в контексте автоматизированного детектирования учитываются такие факторы, как скорость выполнения задачи и вычислительные ресурсы.
Современные исследования: Научное сообщество активно работает над задачами распознавания, включая использование вращенных ограничивающих рамок. Как вы отметили, работы, такие как предложенные NVIDIA, изучают возможность улучшения с помощью более сложных техник. Ожидается, что такие исследования приведут к более точным и эффективным методам в будущем.

В заключение, ось-ориентированные ограничивающие рамки представляют собой хорошо зарекомендованный стандарт в области обнаружения объектов благодаря своей простоте, скорости и способности интегрироваться с существующими алгоритмами. Однако исследования в области вращенных рамок показывают перспективы для дальнейшего улучшения точности в будущем, и это направление определенно достойно внимания.