Понимание размерностей целевой переменной Keras LSTM

Question 1

Я изучаю Keras и LSTM и наткнулся на этот учебник, но не понимаю размерности целевой переменной. Цитируя статью ниже:

Данные y для обучения в данном случае – это слова ввода x, смещенные на один временной шаг, – другими словами, на каждом временном шаге модель пытается предсказать следующее слово в последовательности. Однако это происходит на каждом временном шаге – следовательно, выходной слой имеет такое же количество временных шагов, как и входной слой.

Чтобы сделать это немного яснее, рассмотрим следующее предложение:

“Кошка села на коврик и съела свою шляпу. Затем он встал и сплюнул”

Если num_steps установлено на 5, данные, которые будут использоваться в качестве входных данных для данного примера, будут “Кошка села на коврик”. В этом случае, поскольку мы предсказываем следующее слово в последовательности через нашу модель, для каждого временного шага соответствующие выходные данные y или целевые данные будут “села на коврик”.

Статья затем показывает следующий код для генерации батчей:

def generate(self):
    x = np.zeros((self.batch_size, self.num_steps))
    y = np.zeros((self.batch_size, self.num_steps, self.vocabulary))
    while True:
        for i in range(self.batch_size):
            if self.current_idx + self.num_steps >= len(self.data):
                # сбросить индекс обратно в начало набора данных
                self.current_idx = 0
            x[i, :] = self.data[self.current_idx:self.current_idx + self.num_steps]
            temp_y = self.data[self.current_idx + 1:self.current_idx + self.num_steps + 1]
            # преобразовать все temp_y в представление one hot
            y[i, :, :] = to_categorical(temp_y, num_classes=self.vocabulary)
            self.current_idx += self.skip_step
        yield x, y

Я понимаю, что модель пытается предсказать следующее слово, и я понимаю, что размерности x равны self.batch_size, self.num_steps, но я не понимаю размерности y: self.batch_size, self.num_steps, self.vocabulary. Почему не просто self.batch_size, self.vocabulary? Возможно, я неправильно понял статью, но я думал, что каждая запись в батче соответствует разному временной шагу, или, по крайней мере, я бы так предположил для любой другой модели, не относящейся к LSTM. Keras автоматически разворачивает выход y, потому что это связано с LSTM?

Question 2

Если num_steps установлено на 5, данные, которые будут использоваться в качестве входных данных для данного примера, будут “Кошка села на коврик”. В этом случае, поскольку мы предсказываем следующее слово в последовательности через нашу модель, для каждого временного шага соответствующие выходные данные y или целевые данные будут “села на коврик”.

В этом примере y – это последовательность слов с длиной num_steps, начинающаяся с самого следующего слова. Входные и выходные данные обе имеют длину num_steps.

Keras возвращает последовательность для выхода, когда return_sequences равно True. https://keras.io/layers/recurrent/#lstm

return_sequences: Логическое значение. Указывает, следует ли возвращать последний выход в выходной последовательности или всю последовательность.

В общем, вход данных в LSTM имеет размерности (batch, time, features). Размерность батча не должна зависеть от времени. Выход может быть либо последовательностью, либо одним числом, что в Keras обрабатывается с помощью return_sequences.

Понимание размерностей целевой переменной Keras LSTM

Вопрос или проблема

Ответ или решение

Размерности входных и выходных данных

Почему y имеет размерность `(self.batch_size, self.num_steps, self.vocabulary)`

Работа с `return_sequences`

Заключение

Понимание размерностей целевой переменной Keras LSTM

Вопрос или проблема

Ответ или решение

Размерности входных и выходных данных

Почему y имеет размерность (self.batch_size, self.num_steps, self.vocabulary)

Работа с return_sequences

Заключение

Почему y имеет размерность `(self.batch_size, self.num_steps, self.vocabulary)`

Работа с `return_sequences`