Прогноз модели LSTM почти постоянен.

Question 1

Я новичок в RNN и LSTM и сейчас экспериментирую с различными настройками.

При попытке смоделировать данные временных рядов в абсолютных величинах (предсказанная цена закрытия) я столкнулся со следующими проблемами:

Потеря на валидации падает, в то время как потеря на обучении растет
Предсказание на тестовом наборе почти постоянно

Есть идеи, почему так происходит?

#df - это выборка с признаками и целевыми значениями (close+1)

# СОЗДАНИЕ БОЛЬШОЙ ВЫБОРКИ ДЛЯ ТЕСТИРОВАНИЯ
df_train = df[:40000]
df_val = df[40000:50000]
df_test = df[50000:]
df_train.reset_index(drop=True,inplace=True)
df_val.reset_index(drop=True,inplace=True)
df_test.reset_index(drop=True,inplace=True)

# Создание наборов x_train, x_val путем исключения целевой переменной
x_train = df_train.drop(['close+1'], axis=1)
x_val = df_val.drop(['close+1'], axis=1)

# Масштабирование обучающих данных сначала, затем применение трансформации к тестовому набору
scaler = StandardScaler()
x_train = scaler.fit_transform(x_train)
x_test = scaler.transform(x_val)

# Создание y_train, y_test, просто целевая переменная для регрессии
y_train = df_train['close+1']
y_test = df_val['close+1']

# Определение окна для входных данных LSTM
sliding_window = 30

# Преобразование x_train, x_test, y_train, y_test в 3D массив (образцы, временные шаги, признаки) для ввода LSTM
dataXtrain = []
for i in range(len(x_train)-sliding_window-1):
        a = x_train[i:(i+sliding_window), 0:(x_train.shape[1])]
        dataXtrain.append(a)

dataXtest = []
for i in range(len(x_test)-sliding_window-1):
        a = x_test[i:(i+sliding_window), 0:(x_test.shape[1])]
        dataXtest.append(a)

dataYtrain = []
for i in range(len(y_train)-sliding_window-1):
        dataYtrain.append(y_train[i + sliding_window])

dataYtest = []
for i in range(len(y_test)-sliding_window-1):
        dataYtest.append(y_test[i + sliding_window])


# Убедитесь, что данные делятся на целые числа при обучении
dataXtrain = np.array(dataXtrain[:39680])
dataYtrain = np.array(dataYtrain[:39680])
dataXtest = np.array(dataXtest[:9728])
dataYtest = np.array(dataYtest[:9728])

# Проверка размеров входных данных
print('Размер dataXtrain: {}'.format((dataXtrain).shape))
print('Размер dataXtest: {}'.format((dataXtest).shape))
print('Размер dataYtrain: {}'.format((dataYtrain).shape))
print('Размер dataYtest: {}'.format((dataYtest).shape))


### ФАКТИЧЕСКАЯ МОДЕЛЬ LSTM

batch_size = 256
timesteps = dataXtrain.shape[1]
features = dataXtrain.shape[2]

# Настройка модели, 4 уровня состояний LSTM
model = Sequential()
model.add(LSTM(512, return_sequences=True, stateful=True,
               batch_input_shape=(batch_size, timesteps, features)))
model.add(LSTM(256,stateful=True, return_sequences=True))
model.add(LSTM(256,stateful=True, return_sequences=True))
model.add(LSTM(128,stateful=True))
model.add(Dense(1, activation='linear'))

model.summary()

reduce_lr = tf.keras.callbacks.ReduceLROnPlateau(monitor="val_loss", factor=0.9, patience=5, min_lr=0.000001, verbose=1)

def coeff_determination(y_true, y_pred):
    from keras import backend as K
    SS_res =  K.sum(K.square( y_true-y_pred ))
    SS_tot = K.sum(K.square( y_true - K.mean(y_true) ) )
    return ( 1 - SS_res/(SS_tot + K.epsilon()) )

model.compile(loss="mse",
              optimizer="nadam",
              metrics=[coeff_determination,'mse','mae','mape'])

history = model.fit(dataXtrain, dataYtrain,validation_data=(dataXtest, dataYtest),
          epochs=100,batch_size=batch_size, shuffle=False, verbose=1, callbacks=[reduce_lr])

predictions = model.predict(dataXtest, batch_size=batch_size)
print(predictions)

plt.plot(history.history["loss"][5:])
plt.plot(history.history["val_loss"][5:])
plt.title("потеря модели")
plt.ylabel("потеря")
plt.xlabel("эпоха")
plt.legend(["обучение", "валидация"], loc="best")
plt.show()

plt.figure(figsize=(20,8))
plt.plot(dataYtest)
plt.plot(predictions)
plt.title("Предсказание")
plt.ylabel("Цена")
plt.xlabel("Время")
plt.legend(["Истина", "Предсказание"], loc="best")
plt.show()

Question 2

Это могут быть ряд различных причин, но когда у меня возникала эта проблема в прошлом, это обычно было связано с слишком высоким темпом обучения или оптимизатором. Я бы рекомендовал либо уменьшить начальный темп обучения, либо использовать обычный SGD. Иногда я замечал проблемы с Adam, особенно если у вас нет разогрева. Вам также стоит попробовать более общие техники поиска гиперпараметров и поэкспериментировать с такими параметрами, как размер пакета, длина прогноза и lr и т. д.

Прогноз модели LSTM почти постоянен.

Вопрос или проблема

Ответ или решение

Почему предсказания модели LSTM почти постоянны?

1. Уровень обучения и выбор оптимизатора

2. Структура модели

3. Обработка данных

4. Гиперпараметры

5. Подходит ли LSTM для вашей задачи?

6. Визуализация результатов и анализ потерь

Заключение