Вопрос или проблема
Я очень нов в (односторонних, стандартных) РНН и моделировании последовательностей в целом, и все, что я понял о мотивации соединения между двумя последовательными скрытыми слоями/активациями, это то, что: это соединение необходимо для повторного использования информации, полученной из $t$-ого элемента $i$-ой последовательности, $x_i^{<t>}$, чтобы узнать о $x_i^{<t+1>}$, т.е. о $(t+1)$-ом элементе (той же) $i$-ой последовательности.
Поправьте меня, если я не прав, но я не вижу мотивации к использованию одного и того же набора параметров активации к активации $\theta_{aa}$ для каждого соединения между двумя последовательными скрытыми состояниями, кроме, конечно, того, что: у нас меньшее количество параметров для оценки, когда мы минимизируем стоимость. Мне кажется, что $\theta_{aa}$ следует постепенно обновлять с каждым скрытым состоянием, по мере поступления новой информации (=части той же последовательности, т.е. слов в случае перевода). Смотрите пример ниже.
Давайте рассмотрим пример машинного перевода с английского на французский: (EN) “I am a man” на (FR) “Je suis un homme”. Здесь интуитивно РНН должно попытаться научиться тому, что “am” появляется с определенной вероятностью после “I” на английском, а соответственно на французском, “suis” появляется с определенной вероятностью после “Je”; но учитывая, что это уже было выучено, (условная?) вероятность появления “un homme” после “je suis” может быть более эффективно оценена, когда мы знаем вероятность появления “a man” после “I am”. Таким образом, интуитивно РНН должно быть “лучше информировано”, когда оно знает больше частей данной последовательности, чем меньшее ее количество, и, следовательно, параметры активации должны постепенно обновляться соответственно.
Я, должно быть, что-то упускаю, но не уверен, что именно? Я только мотивировал себя, используя пример машинного перевода, но примеры из других областей также будут полезны.
Мотивация для использования РНН заключается в том, что длина последовательности или информация о позиции случайны в данных.
Например, мы могли бы использовать обученную модель РНН для перевода следующих предложений:
Я мужчина
Я женщина, а ты мужчина
В РНН мы не учитываем положение слов, а только взаимодействие между словами. Таким образом, разные параметры активации, обученные для различных позиций, бесполезны.
Более того, чтобы сделать РНН лучше информированным (используя предыдущие / следующие слова), мы можем использовать выпрямленную рекуррентную единицу (или LSTM) и двунаправленное РНН.
РНН предполагается, что оно может накапливать информацию по всей последовательности, как вы предлагаете. Каждый раз, когда оно наблюдает новый токен, оно сочетает этот токен с предыдущим скрытым состоянием. Затем оно включает информацию об этом токене в скрытое состояние и производит новое скрытое состояние. Идея заключается в том, что скрытое состояние обобщает информацию обо всех токенах, которые были увидены до сих пор.
Однако реальность такова, что существует смещение в сторону недавних токенов. LSTM смягчают эту проблему, моделируя, сколько информации в скрытом состоянии сохранять на каждом шаге. Тем не менее они имеют тенденцию терять информацию на длинных отрезках.
Обратите внимание, что многие применения РНН не используют только РНН, но и РНН, за которыми следует механизм внимания. Внимание видит все скрытые состояния, которые производит РНН. Оно может затем “оглянуться” на любое скрытое состояние, позволяя использовать информацию о последовательности, даже если она не сохраняется в конечном скрытом состоянии РНН.
Ответ или решение
Вам удалось затронуть важные аспекты работы рекуррентных нейронных сетей (РСНС) и их применения в задачах последовательного моделирования, таких как машинный перевод. Давайте детально разберем, почему параметры активации не обновляются постепенно на каждом шаге в процессе обучения.
Основные принципы РСНС
Рекуррентные нейронные сети были разработаны для обработки данных, имеющих последовательную структуру. В отличие от обычных нейронных сетей, РСНС имеют циклические соединения, что позволяет им сохранять информацию о предыдущих состояниях. Именно этот механизм делает возможным использование информации из предыдущих шагов в одном и том же обучении.
Статистическая природа обучения
Ключевая причина, по которой параметры активации (например, весовые коэффициенты для связи между скрытыми слоями) не обновляются отдельно для каждого шага в последовательности, заключается в том, что РСНС стремится моделировать общие паттерны в данных, а не специфику каждого шага.
-
Обобщение и обширные данные: Основная задача нейронной сети заключается в обобщении, что позволяет использовать параметры, обученные на длинном наборе данных для обобщения различных последовательностей. Если бы мы обновляли параметры активации для каждого шага, это бы привело к избыточному подстраиванию, а соответственно, к ухудшению способности модели к генерализации для новых данных.
-
Эффект недавности: РСНС склонны больше учитывать последние токены (words) в последовательности, что отражается в их конструкции. Каждый шаг учитывает как текущий вход, так и предыдущую скрытую информацию. Это может привести к доминированию недавних данных, но подчеркнутое обобщение также устраняет зависимость от позиции в последовательности.
Использование других архитектур
Для решения проблемы утечки информации в долгосрочной перспективе, многие современные архитектуры, такие как LSTM (долговременная память) и GRU (упрощенная единица с длительной памятью), были внедрены. Эти архитектуры имеют механизмы, позволяющие контролировать, какая информация сохраняется, а какая забывается, что значительно улучшает обработку длинных последовательностей. Например, LSTM использует три основных компонента: входные, забывающие и выходные ворота, которые помогают управлять потоком информации.
Введение механизма внимания
Еще одним значительным улучшением является механизм внимания, который позволяет модели "смотреть назад" на все скрытые состояния, которые были сгенерированы в процессе обучения. Это делает информацию о предыдущих токенах доступной для текущего состояния, что решает проблему долгосрочных зависимостей и способствует более точному пониманию контекста.
Заключение
Ваша интуиция насчет возможности постепенного изменения параметров активации во время обучения верна, но основной принцип работы РСНС, ориентированный на обобщение, делает этот подход нецелесообразным. Используя единый набор параметров активации, мы можем эффективно моделировать различные зависимости в последовательностях, избегая проблемы переобучения.
Таким образом, хотя на начальном уровне кажется, что более гибкая настройка параметров активации может улучшить результаты, однако в практическом применении это может привести к более сложным проблемам, связанным с обобщением и общей производительностью модели.