Подход для извлечения/обрезки изображений признаков с использованием глубокого обучения без аннотаций.

Question 1

Представим, что я хочу получить множество изображений шляп из видео. Как мне в принципе создать что-то, что научится распознавать и обрезать или ограничивать рамкой шляпы? Я слышал, что для обучения нужна выборка с вручную нарисованными ограничивающими рамками, но кажется, что должна быть возможность для нейронной сети идентифицировать это самостоятельно?

Я пытаюсь понять возможность получения изображений из видео для разных предметов. Например, дать ей изображения 1000 шляп, и тогда она будет вырезать изображения шляп из множества видеозаписей.

Я думаю, это может быть интересной вещью для работы, но мне нужно некоторое консультирование в отношении подхода к этому.

Также, следующая логичная вещь – это как-то надевать шляпы на людей в фильмах, но это будет на втором этапе.

Спасибо

Question 2

Итак, у вас есть набор изображений, содержащих только обрезанные шляпы? Одна идея – использовать синтетические данные для обучения детектора объектов. Будет лучше, если у вас будут обрезки натурных изображений с шляпами, а не только шляпы сами по себе (так как это уменьшит сдвиг между доменами).

В основном, следующее: (1) взять ваши изображения шляп и сгенерировать «эталонные» изображения, случайным образом вставляя случайное количество шляп (в случайных позах) в случайное фоновое изображение (откуда угодно, желательно похожее на фоны изображений, которые вы планируете использовать на этапе тестирования). (2) Обучить модель детектора объектов (например, Mask-RCNN, Faster R-CNN, или YOLO9000) с использованием вашего синтетического набора данных (поскольку вы знаете «реальные» позиции шляп на изображениях, так как вы их сделали). (3) Разложить видео на последовательность кадров изображений и запустить ваш обученный детектор по каждому кадру. (4) Использовать вывод детектора для получения позиций шляп и их обрезки.

Простым дополнением было бы создание синтетических видео для обучения, где ваши шляпы двигаются, и вы отслеживаете их; другой идеей может быть попытка сделать синтетические изображения более реалистичными, например, приложив случайных людей или хотя бы головы под шляпами.

Основной проблемой является адаптация домена между синтетическими и реальными изображениями. Любые из множества современных методов для обработки сдвига домена вероятно помогут. Например, использование GANs (также здесь).

Вам может быть интересно узнать, что эта простая синтетическая методика оказалась полезной на практике. Например, Тремблей и др. в NVIDIA недавно использовали ее для обучения детектора объектов посредством рандомизации домена. Другие применения включают робототехнику.

Гораздо более тривиальное, но более легкое в реализации решение – это обучить классификатор шляп $C$, который принимает изображение или патч изображения и выдает, содержит ли патч шляпу или нет. Используя ваш набор данных обрезанных шляп как истинные положительные примеры и получая истинные отрицательные примеры путем случайного обрезания патчей из любого случайного набора изображений, вы можете обучить $C$. Для данного видео вы просто используете подход скользящего окна, где для каждого патча изображения в каждом кадре вы запускаете $C$ на нем. Затем вы можете пороговое значение вывода $C$ и/или обрезать области с высокими значениями от классификатора.

Подход для извлечения/обрезки изображений признаков с использованием глубокого обучения без аннотаций.

Вопрос или проблема

Ответ или решение

Проблема

Подход

Преимущества и вызовы

Альтернативный подход

Заключение