Реализация CNN с низкой точностью на данных MNIST

Question 1

Я пытаюсь реализовать VGG11 (Модель A из Таблицы 1 из этой статьи) на наборе данных MINST, но я получаю примерно 10% точности на обучении и тестировании (это так же плохо, как случайное угадывание). Мне пришлось изменить размеры данных MINST с 28×28 на 32×32, чтобы соответствовать архитектуре CNN. Вот что я сделал:

from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Conv2D, MaxPooling2D, Flatten
from keras import optimizers, utils
from PIL import Image, ImageFilter
import numpy as np
import tensorflow as tf

# Предобработка

x_size = 6000 # Изменено для сокращения времени обучения 
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train_ = np.ndarray((x_size, 32, 32))
x_test_ = np.ndarray((x_test.shape[0], 32, 32))

# Изменение размера входных данных на 32x32
for i in [0, x_size-1]:
    im = Image.fromarray(x_train[i], mode=None)
    im = im.resize((32, 32))
    x_train_[i] = np.array(im)
for i in [0,x_test.shape[0]-1]:
    im = Image.fromarray(x_test[i], mode=None)
    im = im.resize((32, 32))
    x_test_[i] = np.array(im)

x_train_ = x_train_.reshape(x_train_.shape[0], 32, 32, 1)
x_test_ = x_test_.reshape(x_test_.shape[0], 32, 32, 1)

y_train = utils.to_categorical(y_train,10)
y_test = utils.to_categorical(y_test,10)
y_train_ = y_train[:x_size]


# Модель A (VGG11) из Таблицы 1: Конфигурации ConvNet из статьи arXiv:1409.1556v6

model = Sequential()
model.add(Conv2D(64, kernel_size=(3, 3), strides=(1, 1), activation='relu', padding='same', input_shape=(32, 32, 1), data_format="channels_last"))
model.add(MaxPooling2D(pool_size=(2, 2), strides=(2,2)))
model.add(Conv2D(128, kernel_size=(3, 3), strides=(1, 1), activation='relu', padding='same'))
model.add(MaxPooling2D(pool_size=(2, 2), strides=(2,2)))
model.add(Conv2D(256, kernel_size=(3, 3), strides=(1, 1), activation='relu', padding='same'))
model.add(Conv2D(256, kernel_size=(3, 3), strides=(1, 1), activation='relu', padding='same'))
model.add(MaxPooling2D(pool_size=(2, 2), strides=(2,2)))
model.add(Conv2D(512, kernel_size=(3, 3), strides=(1, 1), activation='relu', padding='same'))
model.add(Conv2D(512, kernel_size=(3, 3), strides=(1, 1), activation='relu', padding='same'))
model.add(MaxPooling2D(pool_size=(2, 2), strides=(2,2)))
model.add(Conv2D(512, kernel_size=(3, 3), strides=(1, 1), activation='relu', padding='same'))
model.add(Conv2D(512, kernel_size=(3, 3), strides=(1, 1), activation='relu', padding='same'))
model.add(MaxPooling2D(pool_size=(2, 2), strides=(2,2)))
model.add(Flatten())
model.add(Dense(4096, activation='relu'))
model.add(Dense(4096, activation='relu'))
model.add(Dense(1000, activation='relu'))
model.add(Dense(10, activation='softmax'))

# Компиляция модели

model.compile(loss="categorical_crossentropy", optimizer=optimizers.SGD(lr=0.001, momentum=0.9, nesterov=True, clipnorm=1.), metrics=['accuracy'])

# Обучение модели

model.fit(x_train_, y_train_, epochs=1, batch_size=32)

# Оценка модели

score = model.evaluate(x_train_, y_train_)
print('Потери на обучении после 1 эпохи:', score[0])
print('Точность на обучении после 1 эпохи:', score[1])

Я пытался нормализовать входные данные, изменять размеры обучения, увеличивать количество эпох, изменять размер плотных слоев/фильтров и изменять оптимизаторы (и скорость обучения). Точность на обучении настолько же низка, как из отчета об оценке, так и из отчета истории TensorFlow. Я ожидаю точность выше 95%. Где я ошибаюсь?

Question 2

Попробуйте добавить регуляризацию dropout в сеть, чтобы избежать переобучения.
прочитайте документацию для получения дополнительной информации
https://keras.io/layers/core/

и попробуйте эти вещи тоже

поскольку цели являются целыми числами, лучше использовать sparse_categorical_crossentropy, чем categorical_crossentropy, и оптимизатор Adam

model.compile(loss="sparse_categorical_crossentropy", optimizer=optimizers.Adam(lr=0.001), metrics=['accuracy'])

и попробуйте использовать sigmoid активационную функцию для выходного слоя

model.add(Dense(10, activation='sigmoid'))

Question 3

На сколько вы увеличили количество эпох? Вы пытаетесь переобучить VGG11 с нуля, и у нее более 30 миллионов параметров, что предполагает длительное время обучения. Вы пытаетесь использовать трансферное обучение, беря предобученные веса и зафиксировав все слои, кроме последнего, для решения вашей классификационной задачи? В этом случае вы правы, ожидая точность более 95% после нескольких эпох.

Я не знаю, где найти предобученную VGG11 для TensorFlow, но здесь есть версия для PyTorch.

Реализация CNN с низкой точностью на данных MNIST

Вопрос или проблема

Ответ или решение

1. Проблемы с предобработкой данных

2. Архитектура модели

3. Изменения в процессе обучения

4. Регуляризация

5. Использование предобученных моделей

Заключение