Форма сглаженного слоя в CNN

На чтение 3 мин Опубликовано 17.01.2025

Содержание

Вопрос или проблема
Слой (тип) Размерность Выхода Кол-во Параметров
dense (Dense) (None, 10) 16010
Ответ или решение
Теория
Пример
Применение

Вопрос или проблема

Если у меня есть сверточный слой с размерностью (5,5,4), (т.е. 4 блока признаков размером 5x5x1), какой будет размер сглаженного слоя, если я применю сглаживание к сверточному слою?

Для простой свертки (игнорируя padding и шаг), размерность выхода свертки равна input_size – filter_size + 1. Таким образом, для одномерной свертки с размером фильтра 3 на входе размера 5, выход будет размером 3. Для двумерной свертки размером входа (5,5) и размером фильтра (3,3), размер выхода будет (3,3). Теперь, если вы добавите несколько фильтров, вы просто умножаете выход на количество фильтров, так что если у вас 4 фильтра, то размер выхода будет 4x3x3, так что сглаживание даст выход размера 36.
Для mnist в keras, это выглядело бы примерно так (учтите, что за conv слоем идет max pooling):

model = keras.Sequential(
[
    keras.Input(shape=input_shape),
    layers.Conv2D(32, kernel_size=(3, 3), activation="relu"),
    layers.MaxPooling2D(pool_size=(2, 2)),
    layers.Conv2D(64, kernel_size=(3, 3), activation="relu"),
    layers.MaxPooling2D(pool_size=(2, 2)),
    layers.Flatten(),
    layers.Dropout(0.5),
    layers.Dense(num_classes, activation="softmax"),
])
model.summary()

Модель: “sequential”

Слой (тип) Размерность Выхода Кол-во Параметров

conv2d (Conv2D) (None, 26, 26, 32) 320

max_pooling2d (MaxPooling2D) (None, 13, 13, 32) 0

conv2d_1 (Conv2D) (None, 11, 11, 64) 18496

max_pooling2d_1 (MaxPooling2 (None, 5, 5, 64) 0

flatten (Flatten) (None, 1600) 0

dropout (Dropout) (None, 1600) 0

dense (Dense) (None, 10) 16010

Всего параметров: 34,826
Обучаемых параметров: 34,826
Необучаемых параметров: 0

hth.

Ответ или решение

Теория

При построении сверточной нейронной сети (CNN) flattening (сглаживание) представляет собой процесс перехода от многомерного тензора, генерируемого сверточными и полносвязанными слоями, к одномерному вектору. Это необходимый шаг перед передачей данных полносвязанному слою, который используется для классификации или регрессии. Сглаживание объединяет все элементы многомерного тензора в один вектор, сохраняя порядок. Теоретически размер выходного слоя после "сглаживания" равен произведению всех его измерений.

Пример

У вас есть сверточный слой с размерностью (5, 5, 4), что обозначает 4 карты признаков, каждая из которых имеет размерность 5×5. При сглаживании, как указано в условии задачи, вы преобразуете весь тензор в одномерный вектор. Чтобы это сделать, необходимо все размеры карты умножить между собой:

[
5 (высота) \times 5 (ширина) \times 4 (глубина) = 100
]

Это означает, что выходная размерность после преобразования в слой Flatten будет 100.

Применение

В современных нейронных сетях, особенно при работе с фреймворками, такими как TensorFlow и Keras, процесс Flatten является встроенной функцией. Он конвертирует многомерные результаты сверточных слоев в одномерные векторы, что позволяет передавать данные полносвязанным слоям. Например, как показано в условии задачи, в последовательной модели Keras используете Flattem после MaxPooling2D, чтобы подготовить выходные данные для последующих полносвязанных слоев.

Взгляните на приведенный выше фрагмент кода: после применения Flatten, выходной размер был преобразован в одномерный вектор размерности 1600. Это связано с тем, что MaxPooling2D изменил форма данных до (5, 5, 64) перед сглаживанием. Процесс Flatten включает в себя перемножение всех этих значений: (5 \times 5 \times 64 = 1600).

Итак, понять и правильно выполнить сглаживание необходимо для успешной работы с глубинными нейросетями, так как это обеспечивает правильную связь между сверточными и полносвязанными слоями.