Количество двунаправленных LSTM в модели энкодер-декодер равно максимальной длине входного текста/символов?

Вопрос или проблема

Я слегка запутался в этом аспекте RNN, пытаясь понять, как работает seq2seq кодер-декодер на https://machinelearningmastery.com/configure-encoder-decoder-model-neural-machine-translation/.

Мне кажется, что количество LSTM в кодере должно быть равно количеству слов в тексте (если используются векторные представления слов) или количеству символов в тексте (если используются векторные представления символов). Для векторных представлений символов каждое векторное представление будет соответствовать 1 LSTM в 1 направлении и 1 скрытому состоянию кодера.

Это понимание верно?

Например, если у нас есть другая модель, использующая кодер-декодер для другого приложения (например, синтез речи, описанный здесь https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html), которая использует 256 LSTM в каждом направлении двунаправленного кодера, означает ли это, что ввод в этот кодер ограничен 256 символами текста?

Должна ли длина вывода декодера совпадать с длиной ввода кодера или она может быть другой? Если другая, какой фактор описывает, какой длины должен быть вывод декодера?

Существует небольшая проблема с семантикой, которую вы использовали.

RNN – это «рекурсивная» нейронная сеть. LSTM – это тип RNN. Когда вы говорите: “количество LSTM в кодере должно быть равно количеству слов в тексте“, я предполагаю, что вы имеете в виду, что число временных шагов или число НС в (одном) слое LSTM соответствует количеству слов в предложении. Если это то, что вы на самом деле имели в виду, тогда вы правы. Например, если у вас есть твит из 20 слов и набор из 10000 таких твитов. Вы можете использовать один слой LSTM с числом временных шагов = 20 для обработки этого. Вы НЕ используете 20 слоев LSTM.

Это также должно ответить на ваш второй вопрос. У декодера тоже нет 20 LSTM. У него, вероятно, 1 слой LSTM с 20 временными шагами.

Длина вывода декодера не обязательно должна точно соответствовать длине вывода кодера. Другими словами, это не обязательно перевод «словом в слово». Модели обычно используют маркеры BOS и EOS для начала и завершения обработки.

Когда мы используем BiLSTM или LSTM или любую RNN в качестве модели кодер-декодер, то входной слой в модели кодера должен иметь input_shape = (len(vocabulary),), а выходной слой модели декодера должен иметь такое же количество нейронов, т.е. model.add(Dense(len(vocab)), activation=’x’)

Ответ или решение

Чтобы понять вопрос о количестве двунаправленных LSTM в модели кодировщика-декодировщика и о связи этого количества с длиной входного текста или символов, необходимо рассмотреть несколько важных аспектов.

### 1. Количество LSTM в модели кодировщика-декодировщика

Ваша первоначальная идея о том, что количество LSTM в кодировщике должно соответствовать количеству слов или символов во входном тексте, требует уточнения. В контексте работы нейронной сети, когда мы говорим о LSTM, мы не имеем в виду количество нескольких LSTM-слоев, а скорее количество временных шагов (time-steps), которые обрабатываются одной LSTM в каждом слое.

Например, если вы имеете входной текст, состоящий из 20 слов, и хотите его обработать, вы создаете (или конфигурируете) слой LSTM с количеством временных шагов, равным 20. Однако это не означает, что вы добавляете 20 разных LSTM-контуров в модель. Вы используете один LSTM (или многослойный LSTM), который будет обрабатывать один временной шаг за раз (то есть, один символ или одно слово), пока не будут обработаны все временные шаги входной последовательности.

### 2. Различие между количеством LSTM и длиной входной последовательности

Так, если, например, у вас в модели используется 256 LSTM-ячейк в каждом направлении двунаправленного LSTM, это не ограничивает вашу модель 256 символами или словами. Эти 256 LSTM-ячейк представляют собой размер скрытого состояния модели — количеством нейронов на разные временные шаги, а не число временных шагов входных данных. Длина текста, которую может обрабатывать ваша модель, может быть произвольной и определяется отдельными параметрами модели.

### 3. Соотношение длины декодируемого текста с вводом кодировщика

Что касается второго вопроса о том, должно ли количество выходных данных декодера соответствовать количеству входных данных кодировщика, то это абсолютно не обязательно. Выходная длина декодера может различаться по сравнению с длиной входа. Например, в задачах машинного перевода, окончательный выход часто короче или длиннее исходного текста. Для этой цели в моделях обычно используются специальные маркеры (например, “начало предложения” и “конец предложения”), чтобы обозначить начало и конец вывода.

### 4. Учитываемые параметры при проектировании модели

При создании модели кодировщика-декодировщика необходимо учитывать следующее:

– Размерность входных данных (например, размер словаря).
– Архитектура LSTM и наличие двунаправленных слоев.
– Использование маркеров для управления длиной выходных данных.
– Установка гиперпараметров для оптимизации обучения.

Итак, ваша изначальная идея о связи количества LSTM с длиной входного текста требует корректировки, и важно сосредоточиться на подходах, которые действительно отражают возможности и ограничения используемой архитектуры. Тщательное изучение всех этих аспектов поможет вам более глубоко понять, как работают модели кодировщиков и декодеров в нейронных сетях.