Проблема переобучения

Question 1

Я создаю небольшую CNN с нуля для классификации штрих-кодов. У меня есть два класса: один для изображений со штрих-кодами и второй для всего, что не является штрих-кодами (товары, животные, пейзажи, мебель, люди). Я добился хорошей точности обучения (80%+ после 50 эпох), но моя точность на валидации постоянна и составляет около 50%, и это моя основная проблема. Я нацелен на около 80% для точности валидации. Я использую некоторые техники, такие как дропаут, уменьшение числа параметров, аугментация данных и т. д. Мой обучающий набор состоит из 480 изображений (240 – штрих-коды, 240 – остальное), а мой набор для валидации состоит из 120 (60\60). Что мне делать, чтобы достичь около 80% точности на наборе для валидации? Я использую фреймворк Keras и TensorFlow. Вот моя CNN:

model = tf.keras.models.Sequential([
tf.keras.layers.Conv2D(32, (3, 3), activation='relu', input_shape=(224, 224, 1), padding='same'),

tf.keras.layers.MaxPool2D(3, 3),
tf.keras.layers.BatchNormalization(),
tf.keras.layers.Dropout(0.2),

tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),
tf.keras.layers.MaxPool2D(2, 2),
tf.keras.layers.BatchNormalization(),

tf.keras.layers.Conv2D(128, (3, 3), activation='relu'),
tf.keras.layers.MaxPool2D(2, 2),
tf.keras.layers.BatchNormalization(),
tf.keras.layers.Dropout(0.2),

tf.keras.layers.Conv2D(128, (3, 3), activation='relu'),
tf.keras.layers.MaxPool2D(2, 2),
tf.keras.layers.BatchNormalization(),

tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),
tf.keras.layers.MaxPool2D(2, 2),
tf.keras.layers.BatchNormalization(),
tf.keras.layers.Dropout(0.2),


tf.keras.layers.Flatten(),
tf.keras.layers.Dense(256, activation='relu'),
tf.keras.layers.Dropout(0.5),
tf.keras.layers.Dense(64, activation='relu'),
tf.keras.layers.Dropout(0.5),
tf.keras.layers.Dense(1, activation='sigmoid')
])

model.compile(loss="binary_crossentropy", optimizer="adam", metrics= 
['accuracy'])

Question 2

Если ваша точность на обучающей выборке значительно выше, чем на валидационной, вы переобучаетесь. Возможно, вам стоит попробовать увеличить количество дропаута или использовать нормализацию по батчам.
Ваш тестовый набор очень мал, что приводит к высокой дисперсии в ваших результатах. На самом деле ваша модель может быть лучше, чем кажется, из-за этой дисперсии. Попробуйте перекрестную проверку, чтобы протестировать на большем количестве примеров.
Убедитесь, что ваши обучающие и тестовые наборы случайно разбиты. В противном случае ваши обучающие и тестовые примеры могут выглядеть по-разному, что приведет к меньшей производительности на тестовом наборе.
Проведите анализ ошибок, чтобы попытаться идентифицировать, какие ошибки модель склонна совершать. Есть ли у нее трудности с нахождением штрих-кодов под определенными углами, в определенном размере или на определенном фоне? Анализ ошибок сам по себе не поможет, но он может помочь вам понять, почему ваша производительность ниже, чем вы хотите.
Используйте более мощную модель (больше параметров). Парадоксальным образом, большие нейронные сети, которые имеют больший потенциал для переобучения, иногда обобщают лучше, чем маленькие нейронные сети. Мы еще не понимаем, почему это так, но явление хорошо известно, поэтому вы можете проверить, так ли это здесь.

Question 3

Добавляя еще несколько вещей к тому, что упомянул @Solomonoff’sSecret:

Вместо дропаута попробуйте L2 регуляризацию

model.add(Dense(64, input_dim=64, kernel_regularizer=regularizers.l2(0.01), 
activity_regularizer=regularizers.l1(0.01)))

Уберите плотные слои с конца и вместо этого попробуйте глобальное среднее объединение.
```
keras.layers.GlobalMaxPooling2D(data_format=None)
```
Попробуйте другой оптимизатор, например, SGD
Попробуйте убрать последний дропаут, который идет перед софтмаксом. Я думаю, это сильно заставляет вашу сеть обобщать.
Дикая догадка: точность валидации 50% предполагает, что модель предсказывает почти все как один класс. Проверьте качество изображений в наборе для валидации и попытайтесь сравнить их с обучающими. Вместо этого используйте перекрестную проверку.

Question 4

Я использовал трансферное обучение и в качестве предобученной сети выбрал InceptionV3. Это была хорошая идея. Кроме того, я собрал больше данных (800/200). Теперь моя точность на валидации превышает 80%.

Проблема переобучения

Вопрос или проблема

Ответ или решение

Проблема переобучения: Решение и рекомендации для улучшения точности

Введение

Причины переобучения

Рекомендации по улучшению точности валидации

Дополнительные шаги и заключение