Проектирование предобученной глубоконейронной сети для сравнения изображений

Question 1

Я довольно нов в области глубокого обучения и действительно надеюсь, что вы сможете мне помочь.

Я хочу написать программу на Python, которая позволит мне выбрать область на эталонном изображении. Этот подизображение переменного размера затем должно быть использовано для поиска в базе данных изображений. Затем должны быть предоставлены части изображений с наибольшим сходством с эталонным подизображением. Однако у меня большие проблемы с размером эталонных и базовых изображений. Я пытался изучить предобученные глубокие нейронные сети (например, VGG19) и использовать признаки последнего слоя для вычисления сходства. Но эти нейронные сети, похоже, принимают входные массивы только в определенных разрешениях.
Должен ли я тогда изменить масштаб эталонного изображения? Изображения в базе данных, скорее всего, будут намного больше, чем эталонное. Должен ли я тогда разбить все изображения в базе данных на меньшие подмножества? Или использовать алгоритм единственного выстрела, например, YOLO?

Поскольку существует так много различных алгоритмов, я буду очень благодарен за любой комментарий или идею.

Лассе

Question 2

На данный момент это невозможно.

Не существует такой базы данных, которая поддерживала бы произвольный индексированный поиск изображений по содержимому или запросы изображений. Базы данных изображений (IDB) индексируются с использованием семейства R-деревьев или членов семейства квадродеревьев. Они поддерживают только ограниченные SQL (текстовые) запросы.

Вам придется искать изображение за изображением для каждого запрашиваемого изображения, что разрушит смысл наличия базы данных.

Question 3

Сеть, такая как VGG19, имеет часть, которая генерирует представление изображения, за которой следуют слои классификации. Вы можете использовать ту часть, которая создает представление, и выполнить эту операцию для всех ваших подизображений, а также для всех изображений в вашей базе данных, которые вы хотите сравнить. Затем вы можете сравнить представления, чтобы найти наиболее похожее изображение, например, используя метод ближайшего соседа (просто найдите пример с наименьшим расстоянием в пространстве представлений, но есть более быстрые способы сделать это, чем просто каждую раз вычислять все расстояния).

Сети, такие как VGG19, требуют фиксированного размера/разрешения изображений. Вы можете использовать специализированные сети, которые не требуют этого, но попробуйте это позже. На данный момент просто измените масштаб ваших изображений или обрежьте их, или и то, и другое (вы можете обрезать по нескольким способам, чтобы получить несколько представлений, которые все указывают на одно и то же оригинальное изображение).

Последний шаг. Вместо использования ближайших соседей для поиска наиболее похожего представления, вы можете обучить слои классификации делать это за вас. Я не уверен, что это поможет вашим результатам, но думаю, что это стоит попробовать.

Проектирование предобученной глубоконейронной сети для сравнения изображений

Вопрос или проблема

Ответ или решение

1. Извлечение признаков из изображений

Подготовка изображений

2. Обработка подизображения

3. Извлечение признаков

4. Поиск по схожести

5. Оптимизация поиска

6. Дополнительные шаги

Заключение