reinforcement-learning
Data Science
Вопрос или проблема Я работаю над обучением модели RNN для генерации подписей с помощью алгоритма REINFORCE. Я применяю стратегию самокритики (см. статью Self-critical Sequence Training for Image Captioning), чтобы уменьшить дисперсию.