policy-gradients - ответы на вопросы

Data Science

Временной горизонт T в градиентах стратегии (актор-критик)

00

Вопрос или проблема В настоящее время я просматриваю лекции Беркли по обучению с подкреплением. В частности, я нахожусь на 5 слайде этой лекции. Внизу этого слайда градиент ожидаемой суммы наград задан следующим образом: $$ \nabla J(\theta) = \frac{1}{N}

Data Science

Понимание теоремы градиента политики – Что означает брать градиенты вознаграждения относительно параметров политики?

00

Вопрос или проблема Я ищу немного ясности в том, что означает теорема о градиенте политики. Мое замешательство заключается в том, что вознаграждение $R$ в обучении с подкреплением не является дифференцируемым по параметрам политики.

Data Science

опыт реплея памяти: сохранение следующего состояния, необходимого, когда состояние не зависит от действия?

00

Вопрос или проблема Итак, я использую агент с политикой состояния-действия и пытаюсь понять концепцию памяти с повторным воспроизведением опыта (ERM). Насколько я понял до сих пор, ERM — это по сути буфер, который хранит наборы опыта: e_t = {s_t, a_t

Data Science

Политический градиент – и автодифференциация (Pytorch/Tensorflow)

00

Вопрос или проблема В градиенте политики у нас есть нечто подобное: Правильно ли я понимаю, что если я применю логарифмическую кросс-энтропию к последнему слою, градиент будет автоматически рассчитан по формуле выше? Да, просто возьмите кросс-энтропийные

Data Science

Функция потерь Policy Gradient не работает

00

Вопрос или проблема Я экспериментировал со своим алгоритмом обучения с подкреплением на основе градиента политики и задавался вопросом, могу ли я использовать аналогичный метод контролируемой кросс-энтропии. Таким образом, вместо использования существующих

Data Science

Политический градиент не “обучается”

00

Вопрос или проблема Я пытаюсь реализовать метод градиента политики из книги “Практическое машинное обучение” автора Жерона, который можно найти здесь. В блокноте используется Tensorflow, а я пытаюсь сделать это с помощью PyTorch.

Data Science

инвертированный маятник REINFORCE

00

Вопрос или проблема Я изучаю обучение с подкреплением, и в качестве практики я пытаюсь стабилизировать инвертированный маятник (gym: Pendulum-v0) в прямом положении, используя градиент политики: REINFORCE. У меня есть несколько вопросов, пожалуйста, помогите

Data Science

Обучение с подкреплением: Почему жадные действия с оптимальной функцией значения приводят к оптимальной стратегии?

00

Вопрос или проблема Курс Дэвида Сильвера по обучению с подкреплением объясняет, как получить оптимальную стратегию из оптимальной функции ценности. Это кажется очень простым, нужно всего лишь действовать жадно, максимально увеличивая функцию ценности на каждом шаге.

Data Science

Градиент политики/алгоритм REINFORCE с RNN: почему он сходится с SGM, но не с Adam?

00

Вопрос или проблема Я работаю над обучением модели RNN для генерации подписей с помощью алгоритма REINFORCE. Я применяю стратегию самокритики (см. статью Self-critical Sequence Training for Image Captioning), чтобы уменьшить дисперсию.