Вопрос или проблема
Какова интуиция, стоящая за скрытыми состояниями RNN/LSTM? Похожи ли они на скрытые состояния HMM (скрытая модель Маркова)?
Лично я не думаю, что их можно сравнить со скрытым состоянием модели Маркова. Одно из ключевых отличий заключается в том, что в HMM можно объяснить, что означает данное состояние для кого-то, а в RNN/LSTM нельзя интерпретировать данное состояние.
Самое близкое, с чем можно сравнить скрытое состояние RNN/LSTM, — это рассматривать его как выход промежуточного слоя полностью связанной нейронной сети, но для данных временных рядов.
И чем больше скрытое состояние, тем больше памяти оно может сохранить о прошлом.
Чтобы добавить, скрытое состояние можно описать как рабочую память рекуррентной сети, которая переносит информацию с немедленно предыдущих временных шагов/событий. Эта рабочая память перезаписывает себя на каждом шаге неконтролируемо и присутствует в RNN и LSTM. Учитывая последнее, я ценю аналогию с марковской моделью — в более широком смысле. Не стесняйтесь проверить мой ответ на аналогичный вопрос для получения дополнительной информации о скрытых и ячейках состояния в последовательных моделях.
Разница между ячейкой состояния LSTM и скрытым состоянием
Я не думаю, что вы сильно ошибаетесь. Вот что говорит Джефф Хинтон о своей мотивации использовать фразу «скрытый» в своей работе над нейронными сетями в конце 80-х:
Причина, по которой скрытые единицы в нейронных сетях называются скрытыми единицами, заключается в том, что Петер Браун рассказал мне о скрытых моделях Маркова. Я решил, что «скрытый» — это хорошее название для этих дополнительных единиц, поэтому название «скрытый» оттуда. (стр. 379)
В той же статье он также упоминал влияние статистических методов на развитие нейронных сетей:
Существует гораздо большее использование основного алгоритма в скрытых моделях Маркова; алгоритм EM теперь используется гораздо чаще в нейронных сетях. Было много переноса идей из статистики в нейронные сети. Я думаю, что также происходит перенос в обратную сторону. Я считаю, что это очень плодотворное взаимодействие, так что это нечто очень хорошее, что произошло. (стр. 382-383)
Источник: https://direct.mit.edu/books/book/4886/chapter/622920/Geoffrey-E-Hinton
Контекст, в котором используется «скрытый» в LSTM, конкретен. В технической статье, описывающей LSTM, Шмидхубер и Хохрейтер неоднократно ссылаются на «конвенциональные» или «стандартные» скрытые единицы (см. стр. 7, 8) — но обратите внимание, не на скрытые слои. Это используется, чтобы показать разницу между ячейками LSTM и «конвенциональными» скрытыми единицами. Безусловно, к этому моменту использование «скрытого» в мире нейронных сетей было повсеместным в отношении скрытых единиц, как у Хинтона. Шмидхубер и Хохрейтер также явно заявляют:
В отличие от автоматов с конечным числом состояний или скрытых моделей Маркова, LSTM не требует заранее установленного числа состояний. В принципе, она может работать с неограниченным числом состояний. (стр. 23)
Источник: https://www.bioinf.jku.at/publications/older/2604.pdf
В заключение, интуиция, стоящая за ними, специфична для LSTM: скрытое — это обученное состояние сети того, какие данные/последовательности важны, а какие нет. HMM, с другой стороны, предполагает наличие дополнительных (скрытых/латентных) марковских моделей внутри нее. Контекст немного другой, хотя комментарий Хинтона о взаимосвязи между статистикой и нейронными сетями уместен.
Ответ или решение
Интуиция за скрытыми состояниями RNN/LSTM
Скрытые состояния в рекуррентных нейронных сетях (RNN) и их более продвинутой версии, LSTM (Long Short-Term Memory), имеют ключевое значение для обработки последовательных данных. Эти состояния представляют собой своего рода рабочую память, которая удерживает информацию о предыдущих временных шагах и событиях. В этой статье мы углубимся в интуицию за скрытыми состояниями RNN и LSTM, а также проведем сравнительный анализ с скрытыми состояниями в скрытых марковских моделях (HMM).
Скрытые состояния RNN и LSTM
В RNN скрытое состояние определяется как вектор, который инкапсулирует информацию из предыдущих временных шагов. По сути, это состояние обновляется на каждом временном шаге на основе входящих данных и предыдущего скрытого состояния. Таким образом, RNN может запоминать и использовать информацию о прошлом во время обработки последовательностей.
LSTM улучшает механизмы, заложенные в RNN, введением дополнительных компонентов, таких как ячейка состояния и механизмы контроля забвения и входа, что позволяет ему более эффективно управлять информацией и избегать проблемы исчезающего градиента, типичной для простых RNN. Скрытое состояние LSTM по-прежнему выполняет функции рабочего состояния, но теперь оно тесно связано с ячейкой состояния, что позволяет модели удерживать информацию на более длительные сроки без нежелательных искажений.
Сравнение с HMM
Сравнение скрытых состояний RNN и LSTM с состояниями в HMM представляет собой интересный аспект. В HMM скрытое состояние можно интерпретировать и объяснить, поскольку оно обычно связано с конкретными наблюдаемыми событиями. Например, в модели HMM можно четко определить, что определенное скрытое состояние соответствует конкретному контексту или фазе процесса.
В отличие от этого, скрытые состояния RNN и LSTM не обладают такой интерпретируемостью. Состояние является результатом сложного процесса обучения, и его конкретное значение зачастую трудно объяснить. Вместо четкой интерпретации, скрытое состояние в RNN и LSTM следует рассматривать как выход промежуточного слоя нейронной сети, адаптированного для работы с временными рядами. Как вы верно заметили, это делает скрытые состояния RNN и LSTM больше похожими на настройки нейронных сетей, чем на жестко определенные состояния в HMM.
Интуиция за механизмом работы
Скрытые состояния обладают своей интуицией: они служат как память, удерживающая важные аспекты истории последовательности. По мере того как новая информация поступает в сеть, скрытое состояние обновляется, вбирая в себя все новые данные и «забывая» менее важные аспекты. Это явление можно сравнить с динамической памятью, где с увеличением размера скрытого состояния сеть имеет возможность хранить больше информации о прошлом.
С точки зрения статистических методов, как вы упомянули, в LSTM не требуется заранее определять конечное количество состояний, как в HMM. Это позволяет LSTM значительно расширять свои возможности в работе с временными рядами, не ограничиваясь фиксированными рамками.
Заключение
В заключение, скрытые состояния RNN и LSTM представляют собой мощные механизмы для работы с последовательными данными, обеспечивая модели необходимую память для извлечения взаимосвязей в временных рядах. В то время как скрытые состояния HMM более интерпретируемы и могут быть явно связаны с наблюдаемыми событиями, скрытые состояния RNN и LSTM работают как сложные представления данных, обученные моделями, что делает их менее понятными, но более гибкими в задачах последовательной обработки.
Таким образом, понимание скрытых состояний в RNN и LSTM представляет собой ключ к эффективному использованию этих технологий в таких областях, как обработка естественного языка, временные ряды и другие задачи, требующие учета последовательности данных.