Шаблоны бинарной классификации – модель не переобучается

Question 1

Я работаю над очень базовой задачей бинарной классификации. Для каждого набора из четырех чисел с плавающей точкой $(x,y,z,w)$ я хочу проверить, попадают ли они в одну из категорий или нет.

Я написал модель в Keras с 3 плотными слоями (функция активации ReLU) и выходным слоем (с функцией активации сигмоиды). Модель не переобучается, поэтому я пытался увеличить гиперпараметры, но она все равно не переобучается. Я думал, что добиться переобучения легко, если увеличить количество узлов. Разве это не так?

Сначала я думал, что проблема в данных, поэтому я решил сгенерировать искусственный набор данных, но модель все равно не переобучается. В приведенном ниже коде функция generate_pattern() генерирует действительный шаблон, который я хочу пометить целым числом 1. Я заполняю датафрейм Pandas с помощью этой функции, и добавляю немного шума, вставляя случайно сгенерированные шаблоны.

Почему модель не переобучается? Какая лучшая архитектура модели для такого рода проблем?

import pandas as pd
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from sklearn.model_selection import train_test_split

def generate_pattern():
    [x,y,z,w] = np.random.rand(4)/50
    return [0.35+x,0.45+y,0.7+z,1.32+w]

mock_data = pd.DataFrame(columns=['x','y','z','w','target'])
i=0
while i < 10000:
    if np.random.randint(2) == 0:
        mock_data.loc[i] = generate_pattern() +[1]
        i+=1
    else:
        if np.random.randint(2) == 0:
            if np.random.randint(2) == 1:
                mock_data.loc[i] = list(np.random.rand(4)) + [0]
                i+=1

df_input = mock_data[['x','y','z','w']]
df_output = mock_data[['target']]
X = df_input.values
Y = df_output.astype(int).values
X_train, X_test, y_train, y_test = train_test_split(X, Y[:,0], test_size=0.33, random_state=52)
X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_train, test_size=0.33, random_state=52)


# Создание модели нейронной сети
model = Sequential()
model.add(Dense(5, activation='relu', input_dim=4))
model.add(Dense(16, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

# Компиляция модели
model.compile(loss=['binary_crossentropy'], optimizer="rmsprop", metrics=['accuracy','mean_squared_error','binary_crossentropy'])

# Обучение модели
history = model.fit(X_train, y_train, epochs=150, batch_size=64, validation_data=(X_valid,y_valid))

Question 2

В шаблоне столбец w равен 1.32 плюс немного шума. В шумных данных он находится в диапазоне от 0.0 до 1.0. Другими словами, между вашими двумя целями можно проехать автобусом, и это всего лишь при использовании одного из 4 входов.

Я думал, что добиться переобучения легко, если увеличить количество узлов.

Переобучение из-за увеличения мощностей модели — это когда у вас в данных есть случайный шум, из-за которого такое идеальное разделение нельзя выполнить, кроме как уделяя внимание шуму. Смотрите рисунок 1 на https://en.wikipedia.org/wiki/Overfitting, например. В вашем случае красные и синие точки достаточно удалены друг от друга, чтобы вы могли провести простую черную линию через них и не прибегать к переобученной зеленой линии.

Кстати, если я правильно понял ваш код, то 80% ваших данных имеют шаблон, и целевая переменная равна 1, а 20% — это равномерно случайные значения с целевой переменной 0? В этом случае модель также могла бы научиться просто угадывать мажоритарный класс.

(50% времени это 1, затем в другие 50% она что-то делает только в одной четверти случаев, и три из четырех раз она не создает данные, так что данные имеют соотношение 4:1.)

Шаблоны бинарной классификации – модель не переобучается

Вопрос или проблема

Ответ или решение

Анализ проблематики переобучения модели бинарной классификации

Причины отсутствия переобучения

Архитектура модели для бинарной классификации

Заключение