Использование ImageNet в Keras?

Вопрос или проблема

Керас упоминает, что предоставил модели, предобученные на ImageNet. Однако не уточняется, что они имеют в виду под “ImageNet” – имеется ли в виду определённый поднабор ImageNet из полного набора изображений? Я имею в виду, мне трудно представить, что они использовали все 14 миллионов изображений для предобучения, но, возможно, я ошибаюсь.

Я прочитал довольно много исследований о некоторых предполагаемых архитектурах, и все они обучены на поднаборах ImageNet, специфичных для конкурса ImageNet Large Scale Visual Recognition Challenge, и это явно упоминается в статьях. Конечно, если эти веса Keras на самом деле представляют собой весь ImageNet, проблем нет 🙂 Но мне хотелось бы получить какую-то подтверждение/утверждение.

Кто-нибудь знает более конкретно, что подразумевается под “ImageNet”? https://keras.io/api/applications/

Ссылка на Keras, которую вы предоставили, сама содержит ссылки на определение каждой модели. Например, ResNet-50 соответствующая статья расположена по адресу:
https://arxiv.org/abs/1512.03385

В статье явно указано:

Эксперименты

4.1. Классификация ImageNet

Мы оцениваем наш метод на наборе данных классификации ImageNet 2012 [36], который состоит из 1000 классов. Модели обучены на 1,28 миллионах обучающих изображений, и оценены на 50к валидационных изображениях. Мы также получаем конечный результат на 100к тестовых изображениях, сообщаемый тестовым сервером. Мы оцениваем как top-1, так и top-5 показатели ошибок.

Большинство моделей, которые участвуют в конкурсе ImageNet, используют один и тот же поднабор, с подтверждением из каждой статьи.

Ответ или решение

Keras, как библиотека для глубокого обучения, предлагает предобученные модели, которые обучались на наборе данных ImageNet. Однако важно уточнить, что именно подразумевается под «ImageNet» в контексте Keras. Давайте подробно рассмотрим это.

### Что такое ImageNet?

ImageNet — это обширный набор данных для компьютерного зрения, который содержит более 14 миллионов изображений, размеченных по более чем 20,000 классов. Однако, когда речь идет о глубоких нейронных сетях и предобучении моделей, чаще всего упоминается подмножество данных, используемое в рамках конкурса ImageNet Large Scale Visual Recognition Challenge (ILSVRC).

### Подмножество ILSVRC

Для подсчета результатов в ILSVRC используется более ограниченный набор данных — ImageNet 2012, который включает 1.28 миллиона изображений для обучения и 50,000 изображений для валидации. Эти изображения разбиты на 1000 классов, и именно этот набор часто используется в исследованиях и статьях, связанных с компьютерным зрением и современными архитектурами глубоких нейронных сетей.

### Модели Keras и ImageNet

Когда Keras упоминает, что предоставляет модели, предобученные на ImageNet, это скорее всего означает, что они были обучены на том самом подмножестве данных, используемом для ILSVRC, т.е. на 1.28 миллиона изображений из 1000 классов. Это подтверждается исследовательскими трудами, включая известные статьи, такие как работа по архитектуре ResNet-50, где четко указано, что модели оценивались именно на этом наборе данных.

#### Как это повлияло на обучение?

Использование подмножества ILSVRC позволяет моделям Keras эффективно обучаться и предоставлять мощную базу для дальнейшей настройки на специфические задачи. Предобученное представление, полученное от 1.28 миллиона изображений, позволяет применять эти модели для различных задач в области компьютерного зрения, таких как классификация изображений и детекция объектов, существенно сокращая время и усилия, затрачиваемые на обучение с нуля.

### Заключение

Подводя итог, можно утверждать, что Keras использует предобученные модели, обученные на подмножестве данных из ImageNet, в частности на наборе ILSVRC, включающем 1.28 миллиона изображений для обучения в 1000 классах. Это обеспечивает эффективность и производительность предобученных моделей для последующих задач, что делает их удобным выбором для разработчиков и исследователей в области глубокого обучения.

### Рекомендации

Для получения более детальной информации о конкретных архитектурах и используемом подмножестве изображений, рекомендуется ознакомиться с оригинальными статьями, связанными с конкретными моделями Keras, которые могут дать более точные данные о процессе обучения и наборе данных.