Потеря валидации не уменьшается при использовании плотных слоев, хотя данные для обучения и валидации имеют одно и то же распределение.

Question 1

У меня есть проблема, с которой мне сложно справиться: я не понимаю концепцию, которая приводит к этим результатам. Я использую плотный слой keras для отображения 13 входных признаков на 3 выходные метки. Во время обучения значение потерь (RMSE) для обучающих данных постоянно уменьшается даже после 2000 эпох. Однако значение потерь для валидационных данных больше не снижается после примерно 200 эпох, как вы можете видеть на рисунке.

Теперь то, что я совершенно не понимаю, это как можно объяснить такой результат, учитывая, что обучающие и валидационные данные имеют (почти) одинаковое распределение для всех 13 входных признаков и 3 выходных меток. Они взяты из одного и того же распределения. Чтобы продемонстрировать это, я нарисовал гистограммы для некоторых входных признаков и выходных меток (и функции плотности ядра), как вы можете видеть здесь:

Если вы хотите увидеть гистограммы для всех входных признаков и выходных меток, вы можете найти их здесь (все распределения обучающей, валидационной и тестовой выборок выглядят довольно похоже): https://filetransfer.io/data-package/nHxgDfvF#link

Также я рассчитал корреляцию между каждым из входных признаков и выходными метками для обучающего, валидационного и тестового наборов данных, и значения почти одинаковы для всех комбинаций во всех наборах данных. Если хотите увидеть значения, их можно найти здесь: https://filetransfer.io/data-package/iVruYbLx#link. Это только подчеркивает, что обучающие и валидационные данные имеют одно и то же распределение.

Вот мой код:

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_percentage_error
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.layers import BatchNormalization, Dense, Flatten
from matplotlib import pyplot as plt

#Чтение данных из файлов csv
ANN_input_data_features = pd.read_csv("C:/Users/User1/Desktop/TestDataANN_InputFeatures.csv", sep=';')
ANN_input_data_labels = pd.read_csv("C:/Users/User1/Desktop/TestDataANN_OutputLabels.csv", sep=';')
ANN_input_data_features = ANN_input_data_features.values
ANN_input_data_labels = ANN_input_data_labels.values

            
# стандартизация входных признаков X и выходных меток Y
scaler_standardized_X = StandardScaler()
ANN_input_data_features = scaler_standardized_X.fit_transform(ANN_input_data_features)

scaler_standardized_Y = StandardScaler()
ANN_input_data_labels = scaler_standardized_Y.fit_transform(ANN_input_data_labels)


#Разделение набора данных на обучающий, валидационный и тестовый
index_X_Train_End = int(0.7 * len(ANN_input_data_features))
index_X_Validation_End = int(0.9 * len(ANN_input_data_features))

X_train = ANN_input_data_features [0: index_X_Train_End]
X_valid = ANN_input_data_features [index_X_Train_End: index_X_Validation_End]
X_test = ANN_input_data_features [index_X_Validation_End:]

Y_train = ANN_input_data_labels [0: index_X_Train_End]
Y_valid = ANN_input_data_labels [index_X_Train_End: index_X_Validation_End]
Y_test = ANN_input_data_labels [index_X_Validation_End:]


#Обучение модели
optimizer_adam = tf.keras.optimizers.Adam(learning_rate= 0.001)

numberOfInputFeatures = len(ANN_input_data_features[0])
numberOfOutputNeurons = len(ANN_input_data_labels[0])

model = keras.Sequential([
    Flatten(input_shape=(numberOfInputFeatures,)),
    Dense(30, activation='relu'),
    #BatchNormalization(axis = 1),
    Dense(50, activation='relu'),
    #BatchNormalization(axis = 1),
    Dense(50, activation='relu'),
    #BatchNormalization(axis = 1),
    Dense(30, activation='relu'),

    keras.layers.Dense(numberOfOutputNeurons)])

entireFolderNameForTheResultsOfTheRun = "C:/Users/User1/Desktop/Training/"
pathOfTheFileForBestModel = entireFolderNameForTheResultsOfTheRun + "bestModelSingleTimeSlotTest.keras"
callbacks = [  keras.callbacks.ModelCheckpoint(pathOfTheFileForBestModel,  save_best_only=True) ]

model.compile(loss="mean_squared_error", optimizer=optimizer_adam, metrics=['mean_absolute_percentage_error'])
history = model.fit(X_train, Y_train, epochs=2000, batch_size=10, validation_data=(X_valid, Y_valid), callbacks=callbacks)

# Прогнозирование значений из тестового набора данных
model = keras.models.load_model(pathOfTheFileForBestModel)
Y_pred = model.predict(X_test)

#  Обратное преобразование результатов прогнозирования в тестовом наборе данных
Y_test_traInv = scaler_standardized_Y.inverse_transform(Y_test)
Y_pred_traInv = scaler_standardized_Y.inverse_transform(Y_pred)


#  Рассчет ошибки в тестовом наборе данных
rms = mean_squared_error(Y_test_traInv, Y_pred_traInv, squared=True)
mape = mean_absolute_percentage_error(Y_test_traInv, Y_pred_traInv)

print("Оценка с помощью тестовых данных")
print("Корень среднего квадратного отклонения: ", rms)
print("Средняя абсолютная ошибка в процентах:", mape)


#Построение графиков результатов обучения
plt.plot(history.history['mean_absolute_percentage_error'])
plt.plot(history.history['val_mean_absolute_percentage_error'])
plt.title('Средняя абсолютная ошибка в процентах')
plt.ylabel('Средняя абсолютная ошибка в процентах')
plt.xlabel('эпоха')
plt.legend(['обучение', 'валидация'], loc="upper left")
plt.show()

plt.plot(history.history['loss'])
plt.plot(history.history['val_loss'])
plt.title('Функция потерь')
plt.ylabel('Средняя квадратная ошибка')
plt.xlabel('эпоха')
plt.legend(['обучение', 'валидация'], loc="upper left")
plt.show()

Вот данные, которые я использую (входные признаки и выходные метки): https://filetransfer.io/data-package/ldU9KENV#link

Я также пробовал использовать пакетную нормализацию, но это привело к более худшим общим результатам. Кроме того, я экспериментировал с количеством слоев, нейронов, размером пакета и т.д., но проблема остается прежней, или результаты становятся значительно хуже.

Теперь мой вопрос: как это можно объяснить. Насколько я понимаю, искусственные нейронные сети настраивают свои веса во время обучения так, чтобы они могли максимально точно объяснить обучающий набор данных. Но если обучающий и валидационный наборы данных имеют одно и то же распределение и ту же корреляцию между входами и выходами, как в моем случае, модель, способная объяснить обучающий набор данных, также должна уметь объяснить валидационный набор данных, что здесь не так.

Напоминание: Поскольку я все еще не получил удовлетворительного ответа, я хотел бы напомнить вам об этом вопросе. Я буду признателен за любой дальнейший ответ по этому вопросу.

Question 2

Ваша модель переобучается на обучающих данных.

Пожалуйста, используйте Dropout или любую другую технику, чтобы противостоять переобучению.

Вот что я получил с Dropout за 250 эпох

Ссылка на код- Colab scratch NB

Потеря валидации не уменьшается при использовании плотных слоев, хотя данные для обучения и валидации имеют одно и то же распределение.

Вопрос или проблема

Ответ или решение

Феномен Переобучения

Рекомендации по Устранению Проблемы

Заключение