Как оптимизировать архитектуру своей CNN классификации

Question 1

У меня есть архитектура модели на основе CNN, которая принимает RGB изображение. Сейчас я пытаюсь изменить ее для задачи классификации цвета объекта (10 цветовых классов: белый, черный, желтый и т.д.). Эта архитектура ранее достигала хорошей точности для задачи бинарной классификации, но я думаю, что для задачи классификации цвета она не должна быть такой сложной. Поэтому я пытаюсь ее сократить и сделать быстрее. Я хочу, чтобы она была очень быстрой.

Как бы вы изменили ее, чтобы сделать меньше и быстрее? Например, уменьшение количества слоев, фильтров, размеров ядер, функций и т.д., если применимо. Также, не стесняйтесь предлагать другие эффективные подходы для задачи классификации цвета объекта. Объекты уже обрезаны, но могут находиться под разными условиями освещения.

def create_model():
    channels = 3 
    model = Sequential()
    # Изменить первый на 64
    model.add(Conv2D(16, kernel_size = (3, 3), activation='relu', input_shape=(IMAGE_SIZE, IMAGE_SIZE, channels)))
    model.add(MaxPooling2D(pool_size=(2,2)))
    model.add(BatchNormalization())
    model.add(Conv2D(32, kernel_size=(3,3), activation='relu'))
    model.add(MaxPooling2D(pool_size=(2,2)))
    model.add(BatchNormalization())
    model.add(Conv2D(64, kernel_size=(3,3), activation='relu'))
    model.add(MaxPooling2D(pool_size=(2,2)))
    model.add(BatchNormalization())
    model.add(Conv2D(128, kernel_size=(3,3), activation='relu'))
    model.add(MaxPooling2D(pool_size=(2,2)))
    model.add(BatchNormalization())
    
    model.add(Conv2D(32, kernel_size=(3,3), activation='relu'))
    model.add(MaxPooling2D(pool_size=(2,2)))
    model.add(BatchNormalization())
    model.add(Dropout(0.2))
    model.add(Flatten())
    model.add(Dense(128, activation='relu'))
    model.add(Dropout(0.2))
    model.add(Dense(64, activation='relu'))
    model.add(Dense(4, activation = 'softmax'))
    
    return model

Question 2

Исходя из того, что вы предоставили для вашей проблемы, я бы рассмотрел следующее:

Уменьшить количество слоев:
Оригинальная модель имела несколько сверточных и полносвязных слоев, что увеличивало сложность модели и вычислительную нагрузку. Удалив некоторые из этих слоев, мы упрощаем архитектуру, что может улучшить скорость и уменьшить переобучение, особенно для задачи классификации цвета, которая может не требовать стольких слоев, как более сложные задачи, такие как детекция объектов.

Уменьшить количество фильтров и размеры ядер:
Хотя количество фильтров и размеры ядер оставались относительно такими же, как в оригинальной модели, общая сложность была уменьшена за счет удаления одного сверточного слоя и упрощения полносвязных слоев. Это уменьшение сложности может помочь в достижении более быстрого времени вывода и снижении вычислительной нагрузки, сохраняя при этом важные характеристики для классификации цвета.

Оптимизация функций:
Количество фильтров было уменьшено, а структура полносвязных слоев упрошена для снижения вычислительной нагрузки и улучшения скорости. Эта корректировка направлена на достижение баланса между сложностью модели и производительностью, гарантируя, что модель остается эффективной для классификации цвета при достижении более быстрого времени вывода.

Корректировка выходного полносвязного слоя:
Количество выходных классов в последнем полносвязном слое было изменено на 10, чтобы соответствовать 10 цветовыми классами для классификации цвета. Это изменение согласует вывод модели с конкретной задачей классификации цвета, гарантируя, что модель точно предсказывает цветовые классы.

from keras.models import Sequential
from keras.layers import Conv2D, MaxPooling2D, BatchNormalization, Flatten, Dense, Dropout

def create_model():
    channels = 3 
    model = Sequential()
    model.add(Conv2D(16, kernel_size=(3, 3), activation='relu', input_shape=(IMAGE_SIZE, IMAGE_SIZE, channels)))
    model.add(MaxPooling2D(pool_size=(2,2)))
    model.add(BatchNormalization())
    model.add(Conv2D(32, kernel_size=(3,3), activation='relu'))
    model.add(MaxPooling2D(pool_size=(2,2)))
    model.add(BatchNormalization())
    model.add(Conv2D(64, kernel_size=(3,3), activation='relu'))
    model.add(MaxPooling2D(pool_size=(2,2)))
    model.add(BatchNormalization())
    model.add(Dropout(0.2))
    model.add(Flatten())
    model.add(Dense(64, activation='relu'))
    model.add(Dense(10, activation='softmax'))  # Изменено на 10 классов для классификации цвета
    
    return model

Надеюсь, это будет полезно для вас!

Как оптимизировать архитектуру своей CNN классификации

Вопрос или проблема

Ответ или решение

Упрощение Архитектуры

Оптимизация Параметров

Эмпирическая Оценка и Дополнительные Подходы

Пример обновлённой модели