policy-gradients
Data Science
Вопрос или проблема Я экспериментировал со своим алгоритмом обучения с подкреплением на основе градиента политики и задавался вопросом, могу ли я использовать аналогичный метод контролируемой кросс-энтропии. Таким образом, вместо использования существующих
Data Science
Вопрос или проблема Я пытаюсь реализовать метод градиента политики из книги “Практическое машинное обучение” автора Жерона, который можно найти здесь. В блокноте используется Tensorflow, а я пытаюсь сделать это с помощью PyTorch.
Data Science
Вопрос или проблема Я изучаю обучение с подкреплением, и в качестве практики я пытаюсь стабилизировать инвертированный маятник (gym: Pendulum-v0) в прямом положении, используя градиент политики: REINFORCE. У меня есть несколько вопросов, пожалуйста, помогите
Data Science
Вопрос или проблема Курс Дэвида Сильвера по обучению с подкреплением объясняет, как получить оптимальную стратегию из оптимальной функции ценности. Это кажется очень простым, нужно всего лишь действовать жадно, максимально увеличивая функцию ценности на каждом шаге.
Data Science
Вопрос или проблема Я работаю над обучением модели RNN для генерации подписей с помощью алгоритма REINFORCE. Я применяю стратегию самокритики (см. статью Self-critical Sequence Training for Image Captioning), чтобы уменьшить дисперсию.