РСН: Несколько входов за временной шаг с категориальными переменными

Содержание

Вопрос или проблема
Ответ или решение
Моделирование временных рядов с использованием RNN: работа с множественными входами и категориальными переменными
1. Обработка категориальных переменных
2. Совмещение с числовыми признаками
3. Создание последовательности данных
4. Обучение модели
5. Настройка и тестирование
Заключение

Вопрос или проблема

Я пытаюсь построить модель RNN для прогнозирования ежедневных продаж для нескольких разных городов и различных продуктовых сегментов (категориальные признаки и несколько входов для каждого дня), а также с числовыми признаками, такими как трафик, температура и т. д. (один вход для каждого дня). Как мне построить модель, используя эти признаки? Я попытался закодировать категориальные признаки с помощью label encoding (Labelencoder) и пытался последовательно обучать/обновлять модель RNN, подавая ей временные ряды данных по продуктовым сегментам каждого города, но в итоге получил огромные ошибки прогнозирования. Есть ли способ выполнить one-hot кодирование категориальных признаков и если я решу использовать one-hot кодирование, как мне это сделать (каковы будут мои выходные размеры)?

В этом случае я бы порекомендовал использовать встраивание (embedding), чтобы каждая уникальная категория в категориальном признаке представлялась вектором чисел с плавающей запятой. Затем вы можете объединить все векторы из различных категориальных признаков и добавить этот длинный вектор вместе со всеми другими значениями числовых признаков на каждом временном шаге.

Кроме того, если ваши категориальные признаки не изменяются со временем (то есть не меняются, например, пол), то может возникнуть проблема с интеграцией статических значений признаков вместе с другими числовыми значениями, поскольку RNN пытается захватить временную информацию в заданной последовательности. Однако есть очень полезная ссылка, касающаяся того, как добавить нетемпоральные признаки в RNN.

Надеюсь, это поможет.

Не полностью, но я попробовал это:

from sklearn.preprocessing import OneHotEncoder

one_hot_encoder = OneHotEncoder(handle_unknown='ignore')
results = one_hot_encoder.fit_transform(df)
df_results = pd.DataFrame.sparse.from_spmatrix(results)
df_results.columns = one_hot_encoder.get_feature_names(df.columns)
df_results

Модель LSTM принимает это, но не прогнозирует, потому что, похоже, ей требуется еще одна трансформация. Я на этом этапе, пытаюсь решить аналогичную задачу, надеюсь, это немного поможет..

Ответ или решение

Моделирование временных рядов с использованием RNN: работа с множественными входами и категориальными переменными

В данной статье мы обсудим, как строить рекуррентные нейронные сети (RNN) для прогнозирования ежедневных продаж с учетом множества входных данных, включая категориальные и числовые переменные. Рассмотрим основные этапы, начиная от подготовки данных и заканчивая настройкой модели.

1. Обработка категориальных переменных

Ваши категориальные признаки, такие как город и продукт, имеют важное значение для прогнозирования, однако использование таких подходов, как Label Encoding, может привести к потере важной информации, так как категории будут интерпретироваться как порядковые данные. Рекомендуется использование методов, которые сохраняют семантику категорий, например, one-hot кодирование или векторы вложений (embedding).

One-hot кодирование

Данный метод преобразует каждую категорию в отдельный бинарный признак. Для его реализации вы можете воспользоваться библиотекой sklearn для преобразования данных, как это и было показано в вашем коде:

from sklearn.preprocessing import OneHotEncoder

one_hot_encoder = OneHotEncoder(sparse=True, handle_unknown='ignore')
results = one_hot_encoder.fit_transform(df[['City', 'Product']])  # Пример для категориальных переменных
df_results = pd.DataFrame.sparse.from_spmatrix(results)
df_results.columns = one_hot_encoder.get_feature_names_out(['City', 'Product'])

Однако нужно учитывать размерность получившихся данных, так как one-hot кодирование может значительно увеличить количество признаков. Если у вас есть много уникальных категорий, возможно, стоит рассмотреть альтернативные подходы, например, векторы вложений (embedding).

Векторы вложений

Векторная эмбеддинг представляет каждую уникальную категорию в виде вектора фиксированной длины. Это позволяет сократить количество параметров в модели и сохранить информацию о семантической близости категорий. Используйте слой Embedding при создании вашей RNN-модели.

from keras.models import Sequential
from keras.layers import LSTM, Dense, Embedding, Flatten, Concatenate
from keras.layers import Input

# Пример создания модели с Embedding
# Предположим, у вас есть 100 уникальных категорий и вы хотите, чтобы каждая категория имела вектор длины 10
input_city = Input(shape=(1,))
embed_city = Embedding(input_dim=100, output_dim=10)(input_city)

input_product = Input(shape=(1,))
embed_product = Embedding(input_dim=50, output_dim=10)(input_product)

# Объединяем все векторы 
from keras.layers import Concatenate
merged = Concatenate()([embed_city, embed_product])
# Продолжить постройку модели...

2. Совмещение с числовыми признаками

Числовые признаки, такие как трафик и температура, можно просто соединить с векторами, полученными как от категориальных, так и от других временных признаков. Это можно сделать, используя один из подходов, таких как Concatenate.

3. Создание последовательности данных

Если у вас есть однодневные данные по продажам, вам необходимо сформировать временные последовательности. Например, вы можете использовать окна (windowing) с размером, равным n, который определяет количество предыдущих дней, использующихся для прогноза следующего дня.

Обратите внимание, что для включения категориальных признак необходимо убедиться, что они представлены как последовательности на входе LSTM или RNN.

4. Обучение модели

Обучение RNN следует проводить с использованием типов loss-функции, подходящих для вашей задачи (например, MSE для регрессии), и методом оптимизации, который наилучшим образом подходит для вашей модели.

5. Настройка и тестирование

После обучения модели важно осуществить её тестирование на валидационных данных, чтобы убедиться в её способности обобщать. Оцените качество модели с использованием метрик, таких как MAE, RMSE и R^2.

Заключение

Прогнозирование временных рядов с использованием RNN в сочетании с множественными входными данными – это мощный метод, но требует внимательной предварительной обработки данных и настройки модели. Используйте эмбеддинги для категориальных признаков, которые помогут избежать проблем с размерностью, и комбинируйте различные типы данных для достижения наилучших результатов. Надеюсь, данный подход поможет вам добиться улучшении точности ваших предсказаний.