actor-critic - ответы на вопросы

Data Science

Временной горизонт T в градиентах стратегии (актор-критик)

Вопрос или проблема В настоящее время я просматриваю лекции Беркли по обучению с подкреплением. В частности, я нахожусь на 5 слайде этой лекции. Внизу этого слайда градиент ожидаемой суммы наград задан следующим образом: $$ \nabla J(\theta) = \frac{1}{N}