Оценка приложения CNN

Question 1

Я был бы рад, если бы кто-то мог дать мне некоторые советы и оценки для следующего проекта. (Я относительно нов в области машинного обучения и глубокого обучения, и у меня есть только немного теоретических знаний.)

Моя цель – создать детектор углов квитанций на изображениях. Я начал создавать набор данных с изображениями квитанций, где метками являются 4 угловые точки квитанции.

Мой план состоит в том, чтобы обучить свёрточную нейронную сеть (CNN) на этом наборе данных, и мне интересно, не могли бы вы дать оценку, сколько изображений мне потребуется в моем наборе данных для успешного обучения (будет ли это несколько сотен или несколько тысяч)? Будет ли это довольно простая задача для сети или сложная из-за большого количества пикселей на изображениях?

Редактирование: (Спасибо за ваши ответы до сих пор!)

Мои данные – это изображение со списком угловых точек квитанции [[x, y], [x, y], [x, y], [x, y]]
Я планирую использовать нейронную сеть, чтобы получить эти 4 угловые точки
На следующем этапе фон будет обрезан с использованием этих 4 точек

Я начал использовать предобученную ResNet18 с использованием PyTorch и застрял с следующими вопросами, так как задача отличается от основных учебных пособий по классификации, которые я нашёл до сих пор:

Как мне нужно преобразовать вектор меток с 4 углами?
Как выглядит выходной результат?
Мне нужно использовать полносвязную сеть (FCN) для этой задачи, поскольку это своего рода задача сегментации?

Question 2

Чтобы обучить модель CNN на изображениях набора данных, будь то сотни или тысячи, вам нужна хорошая вычислительная мощность или инфраструктура на вашем компьютере. При обычной конфигурации, скажем, с 4 ГБ ОЗУ, вы можете продолжать и обучать модель на сотнях изображений, и это будет работать хорошо, также вы сможете проверять и тестировать ваши данные. Кроме того, вы также можете попробовать Google Colaboratory для алгоритма вашей модели CNN, подключившись к размещённому времени выполнения, так как он выделяет 12 ГБ ОЗУ для каждого отдельного пользователя.

Question 3

Невозможно сказать, сколько изображений вам понадобится, не зная больше деталей. Возможно, вам удастся обучить хорошо работающую модель на менее чем ста изображениях в зависимости от разнообразия ваших данных и сложности вашего случая использования.

В общем, приложения машинного обучения представляют собой смесь программного обеспечения и данных. Получение данных правильным гораздо важнее, чем сам код. Обучить модель сейчас довольно просто. Существует множество учебных пособий о том, как писать код или инструменты, которые вы можете использовать бесплатно (я лично использую hasty.ai) для быстрой прототипизации. Использовать эти инструменты особенно удобно, когда вы новичок в машинном обучении, так как это значительно снижает сложность. Создание правильного набора данных – это то, что вам нужно сделать самостоятельно.

Оценка приложения CNN

Вопрос или проблема

Ответ или решение

1. Размер датасета

2. Степень сложности задачи

3. Подготовка меток

4. Архитектура сети

5. Формат вывода

6. Использование FCN (сегментация)

Дополнительные рекомендации