Как преобразовать изображения (.jpg) в векторные для классификации изображений

Question 1

В настоящее время я работаю над проектом, который включает классификацию изображений как изображений собак или кошек. Интерес заключается в том, что я хочу сделать это без использования сверточных нейронных сетей, в основном потому, что я пока не совсем их понимаю и не хочу просто копировать чей-то код с Github.

Я знаю, что алгоритмы классификации в Sci-Kit Learn требуют, чтобы данные на входе x были в векторизованной форме, чтобы классификатор мог соответствовать данным, но я не уверен, как это сделать. Легко сделать это с текстовыми данными (feature_selection.text.CountVectorizer/TfidfVectorizer), но я понятия не имею, как это работает с изображениями. Как я могу преобразовать файлы изображений .jpg в векторы/матрицы, чтобы модели на SK-Learn это поняли?

Заранее спасибо, и прошу прощения, если это глупый вопрос.

Question 2

Вы можете использовать функцию imread из библиотеки imageio с np.array из numpy:

from imageio import imread
import numpy as np
filename="/path/to/dog.jpg"
vectorized_picture = np.array(imread(filename))

При вводе этих данных в ML-движок, вам, вероятно, потребуется преобразовать их в столбиковую матрицу (по крайней мере, в курсе машинного обучения от профессора Эндрю Нга на Coursera, который я прохожу). Если так, вы можете это сделать следующим образом:

reshaped_vectorized_picture = vectorized_picture.reshape(1, -1).T

Вам нужно установить обе библиотеки через apt, brew или pip (предпочтительный вариант)

pip install numpy imageio

Question 3

Для текстов нам нужен метод векторизации, потому что все токены, которые у нас есть в наших входных данных, должны быть в числовом формате, чтобы их можно было обработать любым алгоритмом, с которым мы работаем, и я согласен, что для этого есть множество функций.

Но это работает по-другому с точки зрения изображений. Изображение — это не что иное, как двумерный массив значений его пикселей. Если у вас есть цветное изображение размером 512×512, это не что иное, как массив формы 512x512x3 (3 обозначает цветовой канал) со значениями от 0 до 255.

Вы можете извлечь это, считав через библиотеки, такие как opencv, imageio, PIL и т.д.

Question 4

Я использую модуль skimage, вы можете импортировать его следующим образом:

from skimage import data

Вы можете импортировать изображение в одну переменную следующим образом:

picture_imported = imageio.imread('picture.jpg')

Но эта переменная является imageio.core.util.Array. Чтобы получить это как ndarray, просто:

picture = np.copy(picture_imported)

Question 5

Изображение содержит в себе некоторые значения. Предположим, на изображении человек стоит перед деревом, поэтому мы можем сказать, что каждый объект определяется разными значениями, предположим, для дерева значение присваивается 1, для человека — 2, а для фона — 0. Однако это только для примера, в действительности значения варьируются от 0 до 255 для каждого пикселя для черно-белого изображения, и для RGB-изображения существует 3 канала.

Эти значения пикселей обозначают интенсивность пикселей. Меньшие числа, ближе к нулю, представляют более темные оттенки, а большие числа, ближе к 255, представляют более светлые или белые оттенки. (Если честно, я тоже не знаю, как эти значения назначаются, но можем предполагать).

После всего этого мы выполняем нормализацию каждого пикселя (масштабирование данных в диапазон 0-1 называется нормализацией). Масштабирование пикселей в диапазоне от 0 до 1 можно сделать, установив аргумент rescale путем деления максимального значения пикселя на минимальное значение пикселя: 1/255 = 0.0039.

И, насколько я понимаю, после получения наших масштабированных значений эти значения используются как векторы для выполнения дальнейших операций, таких как вычисления со сверточными слоями и т.д.
…..исправьте меня, если я ошибаюсь…

Как преобразовать изображения (.jpg) в векторные для классификации изображений

Вопрос или проблема

Ответ или решение

Теоретическая основа

Пример реализации

Применение на практике

Нормализация

Пример использования с Sci-Kit Learn

Заключение