policy-gradients
Data Science
Вопрос или проблема Я ищу немного ясности в том, что означает теорема о градиенте политики. Мое замешательство заключается в том, что вознаграждение $R$ в обучении с подкреплением не является дифференцируемым по параметрам политики.
Data Science
Вопрос или проблема Итак, я использую агент с политикой состояния-действия и пытаюсь понять концепцию памяти с повторным воспроизведением опыта (ERM). Насколько я понял до сих пор, ERM — это по сути буфер, который хранит наборы опыта: e_t = {s_t, a_t
Data Science
Вопрос или проблема В градиенте политики у нас есть нечто подобное: Правильно ли я понимаю, что если я применю логарифмическую кросс-энтропию к последнему слою, градиент будет автоматически рассчитан по формуле выше? Да, просто возьмите кросс-энтропийные
Data Science
Вопрос или проблема Я экспериментировал со своим алгоритмом обучения с подкреплением на основе градиента политики и задавался вопросом, могу ли я использовать аналогичный метод контролируемой кросс-энтропии. Таким образом, вместо использования существующих
Data Science
Вопрос или проблема Я пытаюсь реализовать метод градиента политики из книги “Практическое машинное обучение” автора Жерона, который можно найти здесь. В блокноте используется Tensorflow, а я пытаюсь сделать это с помощью PyTorch.
Data Science
Вопрос или проблема Я изучаю обучение с подкреплением, и в качестве практики я пытаюсь стабилизировать инвертированный маятник (gym: Pendulum-v0) в прямом положении, используя градиент политики: REINFORCE. У меня есть несколько вопросов, пожалуйста, помогите
Data Science
Вопрос или проблема Курс Дэвида Сильвера по обучению с подкреплением объясняет, как получить оптимальную стратегию из оптимальной функции ценности. Это кажется очень простым, нужно всего лишь действовать жадно, максимально увеличивая функцию ценности на каждом шаге.
Data Science
Вопрос или проблема Я работаю над обучением модели RNN для генерации подписей с помощью алгоритма REINFORCE. Я применяю стратегию самокритики (см. статью Self-critical Sequence Training for Image Captioning), чтобы уменьшить дисперсию.