Как изображение переводится в векторные представления признаков?

Вопрос или проблема

Как изображение кошки или собаки переводится в числовую матрицу. Возьмем VGG16, используя матричный вывод финального слоя перед слоем классификации. Что представляет собой матричный вывод? Как он связан с изображением?! Как алгоритм кластеризации, такой как KNN, использует его, чтобы узнать, что на изображении есть собака или кошка, и сгруппировать их?!

Ваш вопрос немного труден для восприятия, но я постараюсь на него ответить наилучшим образом.

Изображения можно преобразовать в трехмерные матрицы, хранящие числовые значения красного, зеленого и синего для каждого пикселя как отдельное значение. В результате это фактически 3 матрицы того же размера, что и оригинальное изображение, сложенные друг на друга и отображающие силу цветов R/G/B в каждой точке изображения.

Вывод VGG16 перед чтением или слоем “классификации” по сути представляет собой единый вектор, который концептуально содержит всю информацию, необходимую для классификации изображения. Это имеет смысл, поскольку очевидно, что вся информация, необходимая модели для классификации изображения, должна быть сжата в этом финальном векторе.

Когда специалисты по машинному обучению говорят “извлечение признаков”, это скорее абстрактный термин. Признак (например, нос собаки) не буквально переводится в числовое значение в векторе признаков, но некоторым образом содержится в соответствующей информации изображения.

Что касается KNN, лично я не настолько опытен в кластеризации, как хотелось бы. Однако основная идея кластеризации заключается в том, что для немаркированного набора данных (например, множество изображений кошек и собак, которые не указаны как изображения кошек или собак) модель все равно может быть использована для попытки группировки похожих объектов. В случае кошек и собак должны быть некоторые очевидные визуальные отличия, которые модель заметит, не обязательно “зная”, что изображения, которые она рассматривает, – это изображения различных животных (в конце концов, что такое животное для модели машинного обучения?). После того как модель создала эти группировки, от практикующего (то есть от вас!) зависит, какие метки будут использоваться. Как человек, вы довольно легко сможете сказать: “о, это группа изображений собак”.

Если задуматься, большинство обучения в реальном мире является неконтролируемым/кластеризацией. Когда вы были младенцем, вы, вероятно, могли отличить носорога от черепахи задолго до того, как узнали, что одно называется “носорог”, а другое “черепаха”.

Ответ или решение

Преобразование изображения в числовые представления является важной задачей в области машинного обучения и компьютерного зрения. Это позволяет алгоритмам различать и классифицировать объекты на изображении, таким образом делая информацию, содержащуюся в изображении, доступной для обработки. В данной статье мы рассмотрим, как изображения преобразуются в числовые векторы признаков и как эти векторы могут быть использованы, например, ВGG16 и алгоритмом кластеризации KNN, для распознавания объектов, таких как кошки и собаки, на изображениях.

### Теория

Для обработки изображений в системах искусственного интеллекта сначала необходимо преобразовать изображения в форму, которая может быть обработана компьютером. Обычно цифровое изображение представляется как трехмерная матрица, где две оси характеризуют размеры изображения (ширина и высота), а третья ось — цветовые каналы (как правило, RGB: красный, зеленый и синий). Эта трехмерная матрица содержит информацию о интенсивности каждого из этих цветов для каждого пикселя изображения.

Переход от изображения к его признаковому представлению включает несколько этапов. Одним из самых популярных подходов является использование предварительно обученных глубоких нейронных сетей, таких как VGG16. Эта сеть используется для извлечения признаков перед классификацией.

#### Выбор слоя в VGG16

Последний слой перед классификацией в сети VGG16, состоящий из полносвязного слоя нейронов, известен как предпоследний слой. Выходной вектор этого слоя называют вектором признаков или вектором вложений (feature embeddings). Эти вложения являются обобщённым высокоуровневым представлением содержимого изображения. Они содержат усредненную информацию, выученную сетью о тех аспектах изображения, которые важны для классификации: формы, текстуры, паттерны и другие абстрактные признаки.

### Пример

Чтобы лучше понять, как происходит выделение признаков, представим себе, что VGG16 анализирует отдельное изображение собаки. На низших уровнях (первых слоях) нейронная сеть извлекает простейшие признаки, такие как края и текстуры. На средних уровнях она распознает более сложные формы, такие как строение морды или уши животного. На последних уровнях, включая предпоследний слой, она уже формирует абстрактное представление всех этих признаков, указывающее на то, что на изображении, скорее всего, собака.

### Применение алгоритма KNN

Теперь, когда мы имеем числовое представление изображения в виде вектора признаков, можно использовать его в различных алгоритмах машинного обучения, например, в k-ближайших соседях (KNN).

#### Принцип работы KNN

Алгоритм KNN является методом кластеризации (или классификации), который работает по принципу аналогии: он анализирует расстояние от одного точки в пространстве признаков изображения (вектор вложений) до других точек. Предположим, что у нас имеется множество векторов признаков, каждый из которых отвечает за определенное изображение кошки или собаки. KNN вычисляет расстояние (например, Евклидово) между вектором нового изображения и всеми другими векторами в обучающем множестве.

Затем алгоритм выбирает k ближайших векторов и подсчитывает, какой из классов (например, кошка или собака) встречается чаще среди соседей. На основе этого голосования KNN делает предположение, к какому классу принадлежит анализируемое изображение. Таким образом, даже если модели неизвестно, что она видит именно собаку или кошку, она может с высокой точностью определить категорию благодаря заранее выученным векторным вложениям.

#### Преимущества и недостатки

Преимущество подхода использования предобученных признаков совместно с KNN заключается в простоте и возможности работать даже с недостатком размеченных данных. Однако основной недостаток заключается в том, что эффективность KNN сильно зависит от выбора значения k и от качества извлечения признаков; кроме того, он не подходит для огромных наборов данных из-за необходимости хранения всех примеров.

### Заключение

Процесс трансляции изображения в числовые матрицы и их последующая обработка с использование алгоритмов, таких как KNN, демонстрируют замечательную способность современных технологий машинного обучения обрабатывать сложные визуальные данные. Эти методы позволяют алгоритмам различать объекты на изображении, несмотря на отсутствие естественного “понимания” того, что представляют собой эти объекты, таким образом имитируя основные аспекты человеческого восприятия и категоризации.