После увеличения точность валидации снижается?

Question 1

Мой главный вопрос касается аугментации.
если я применяю аугментацию, я считаю, что это всегда лучше, чем меньше данных
но в моем случае точность валидации снижается

обучение: 7000 изображений, валидация: 3000 изображений: точность валидации: 0.89

обучение: 40000 изображений, валидация: 17990 изображений: точность валидации: 0.85

мой код аугментации

def data_augmentation_folder(trainImagesPath,saveDir):
    #X_train=load_training_data(trainImagesPath,"train")
    print("=====================================================")

    X_train = cleanData(trainImagesPath)
    X_train = np.array(X_train)
    print(X_train[0].shape)



    for i in range(5):

        #print(i)

        datagen = ImageDataGenerator(rotation_range=15,
                       width_shift_range=0.1,
                       height_shift_range=0.1,
                       shear_range=0.01,
                       zoom_range=[0.9, 1.25],
                       horizontal_flip=True,
                       vertical_flip=False,
                       fill_mode="reflect",
                       data_format="channels_last",
                       brightness_range=[0.5, 1.5])


        if i==1:
            datagen = ImageDataGenerator(
                       featurewise_center=True,
                                     featurewise_std_normalization=True,
                                     rotation_range=90,
                                     width_shift_range=0.1,
                                     height_shift_range=0.1,
                                     #zoom_range=0.2
            )
        if i==2:
            datagen = ImageDataGenerator(
                   featurewise_center=True,
                                 featurewise_std_normalization=True,
                                 rotation_range=100,
                                 width_shift_range=0.1,
                                 height_shift_range=0.1,
                                 #zoom_range=0.2
            )
        elif i==3:
            datagen = ImageDataGenerator(
                    rescale=1./255,
                    shear_range=0.2,
                    zoom_range=0.2,
                    horizontal_flip=True)
        elif i==4:
             datagen = ImageDataGenerator(
                    rescale=1./255,
                    shear_range=0.1,
                    rotation_range=80,
                    zoom_range=0.1,
                    horizontal_flip=True,
                    brightness_range=[0.5,1.5])




        datagen.fit(X_train)


        for x, y in datagen.flow(X_train, np.arange(X_train.shape[0]),shuffle=True, save_to_dir=saveDir,save_format="jpg",save_prefix='aug'):
            #print(y)
            assert x.shape[1:] == X_train.shape[1:]
            break

вопросы

в каком случае точность валидации снижается, даже если я применил аугментацию?

о чем вам нужно беспокоиться, когда вы применяете аугментацию?

Question 2

Вы не можете сравнивать точности валидации, если наборы данных для валидации фундаментально различны.

То, что вы делали изначально, – это проверка вашей модели на ограниченном наборе изображений. Аугментация применяется, чтобы сделать ваш набор данных более представительным для вашей рабочей среды.

Если вы ожидаете, что в вашей рабочей среде изображения будут извлекаться из того же подсостояния, что и ваш аугментированный набор данных, точность валидации в первом случае не будет истинным представителем производительности вашей модели в реальном мире.

Question 3

…В моем случае точность валидации снижается

Это нормально, так как вы не делаете “яблоко к яблоку” сравнение. Фактическая производительность модели могла возрасти или остаться прежней, но это не видно, потому что вы используете разные наборы данных для валидации для каждой модели. Модель, обученная на аугментированном наборе данных, могла лучше справляться с классификацией оригинальных изображений и справляться с аугментированными, а поскольку аугментированных изображений почти в 6 раз больше оригинальных, общая точность пострадает.

В общем, ваш набор для валидации не должен подвергаться аугментации, чтобы верно отражать, как выглядят “реальные” данные, и чтобы метрики валидации имели смысл. Также крайне сложно проводить сравнения между моделями и эталонами, когда вы изменяете свой набор для валидации.

После увеличения точность валидации снижается?

Вопрос или проблема

Ответ или решение

Причины снижения точности валидации после аугментации

На что стоит обратить внимание при аугментации

Заключение