reinforcement-learning - ответы на вопросы - Page 4 of 4

Data Science

Градиент политики/алгоритм REINFORCE с RNN: почему он сходится с SGM, но не с Adam?

Вопрос или проблема Я работаю над обучением модели RNN для генерации подписей с помощью алгоритма REINFORCE. Я применяю стратегию самокритики (см. статью Self-critical Sequence Training for Image Captioning), чтобы уменьшить дисперсию.