Вопрос или проблема
Я пытаюсь реализовать RNN и LSTM, архитектуру many-to-many. Я сам обосновал, почему BPTT необходим в RNN, и это имеет смысл.
Но что мне не понятно, так это то, что большинство ресурсов, которые я просмотрел в интернете для LSTM обратного распространения (например, вложение) и это: https://www.youtube.com/watch?v=8rQPJnyGLlY
Кажется, делают больше обратного распространения по отношению именно к текущему моменту времени, а не во времени, оставив в стороне соглашение о переменных, аналогично RNN, я бы предположил, что при вычислении DL по отношению к Wf, так как и текущий временной шаг, и предыдущие скрытые состояния состоят из Wf, оба должны быть сложены вместе, но большинство найденных мною выводов этого не делают.
Конкретно, используя обозначения coursers, forward проп:
ft = sigmoid( Wf.(at-1, xt) + bf ) it = sigmoid(Wi.(at-1, xt) + bi ) ctil = Tanh(Wc.(at-1, xt) + bc )
ct = ft * ct-1 + it*ctil ot = sigmoid(Wo.(at-1, xt) + bo ) at = ot * Tanh(ct) yhat_t = Softmax(Wy.at + by ) Поскольку at-1 и ot оба содержат Wo в своих уравнениях, я бы предположил следующий вывод для dWo:
dWo = dat * (1-T(ct)2 ) * ot (1-ot )(at-1,xt)-dot часть + dotat-1 * dat-1ot-1 * dot-1Wo Вышеуказанный вывод содержит dot + dot-1. Но вывод, данный coursera, содержит только dot, а не dot-1.
И в выводах обновляющих и забывчивых ворот, то, что следует после знака плюс, не должны ли они быть t-1, а не t ?
Итак, я предполагаю, что LSTM обратное распространение не включает BPTT, может кто-то просветить меня на этом ?
Мне конкретно нужно правильное теоретическое выведение BP в LSTM, и вовлекают ли они BPTT в теории или нет.
Ответ или решение
Вопрос о том, почему в LSTM не используется метод обратного распространения ошибки во времени (BPTT), так же как в RNN, поднимает важные аспекты понимания различий между классическими рекуррентными нейронными сетями и LSTM. Давайте разберёмся в этом вопросе более подробно.
Основные различия между RNN и LSTM
1. Проблема затухания и взрыва градиентов:
Рекуррентные нейросети (RNN) известны своими проблемами с затуханием и взрывом градиентов, особенно при попытке моделирования долгосрочных зависимостей. Градиентное спускание через время (BPTT) в RNN обрабатывает все предыдущие временные шаги, что может приводить к тому, что градиенты становятся очень малыми (затухание) или очень большими (взрыв).
2. Архитектурные особенности LSTM:
LSTM были разработаны специально для решения этих проблем. Благодаря введению ячейки памяти и управляющих ворот, таких как входные, выходные и забывающие ворота, LSTM могут более эффективно сохранять и использовать информацию из далёкого прошлого. Это позволяет лучше обучаться на длинных временных интервалах.
Почему все же происходит изменение градиентов?
При обучении LSTM фактически также используется BPTT, но благодаря более сложной архитектуре, которая обеспечивает более стабильный поток градиентов через время, эффект BPTT смягчается. В алгоритме LSTM градиенты могут «перемещаться» через сеть более контролируемо за счёт управления потоками информации и градиентов через ворота.
Теоретическая база обратного распространения в LSTM
Процесс обратного распространения в LSTM действительно включает в себя аспекты BPTT в силу их рекуррентной природы. Однако, наличие ячейки памяти позволяет аккумулировать информацию и, следовательно, контролировать, в какой степени градиенты будут учитываться при обновлении весов. Входные, забывающие и выходные ворота фактически корректируют важность тех или иных состояний и временных шагов для процесса обучения, тем самым обеспечивая эффективность и стабильность.
Выводы
Хотя процесс обратного распространения в LSTM может показаться поверхностным и не учитывающим BPTT, он подразумевает работу с градиентами в контексте всей последовательности, но через архитектурно обусловленный фильтр. Это и позволяет LSTM решать проблемы, с которыми сталкиваются стандартные RNN. Правильная работа с этими моделями требует понимания внутренней архитектуры LSTM и механизма работы её ворот.
В заключение, метод BPTT действительно применяется при работе с LSTM, но благодаря особенностям их архитектуры он работает более стабильно и эффективно, чем в обычных RNN.