q-learning - ответы на вопросы

Data Science

Могу ли я сравнить Q-ЗНАЧЕНИЕ для одного и того же действия в разных состояниях?

00

Вопрос или проблема Дорогие, Я новичок в RL и пытаюсь применить его к своему проекту. Я запустил RL с некоторыми примерными данными и получил… Мой вопрос заключается в том, могу ли я сравнить Q-значения для одного и того же текущего действия по

Data Science

Почему бы не использовать max(возвраты) вместо average(возвраты) в офф-политике контроля Монте-Карло?

00

Вопрос или проблема Насколько я понимаю, в обучении с подкреплением контроль на основе отдаленных выборок методом Монте-Карло — это когда функция значений состояния-действия $Q(s,a)$ оценивается как средневзвешенное наблюдаемых вознаграждений.

Data Science

Помощь с Q-обучением с использованием динамической скорости обучения с RMSprop:

00

Вопрос или проблема Я реализую Q-обучение с динамической скоростью обучения, вдохновленным RMSprop, следуя подходу, который я нашел в статье. Цель состоит в том, чтобы скорость обучения постепенно корректировалась со временем на основе величины ошибки

Data Science

Обучение с подкреплением в игре против самого себя?

00

Вопрос или проблема Предположим, у нас есть дизайн игры в крестики-нолики, использующий RL против случайного игрока. Мы можем описать систему, усиливая и вознаграждая хорошие действия. Но что, если модель RL играет сама с собой?

Data Science

Как Q-Learning справляется с смешанными стратегиями?

12

Вопрос или проблема Я пытаюсь понять, как Q-обучение справляется с играми, где оптимальная стратегия является смешанной стратегией. Уравнение Беллмана говорит о том, что вы должны выбирать $max_a(Q(s,a))$, но это подразумевает единое уникальное действие для каждого $s$.

Data Science

Референсная реализация q-learning на Python

00

Вопрос или проблема Я новичок в машинном обучении и пытаюсь изучить Q-обучение. Я прочитал несколько текстов и понимаю общий смысл, но что бы мне действительно хотелось увидеть, так это простой пример алгоритма Q-обучения на Python, который я мог бы запустить

Data Science

DQN не удается найти оптимальную политику

00

Вопрос или проблема Основываясь на публикации DeepMind, я воссоздал среду и пытаюсь сделать так, чтобы DQN находил и сходился к оптимальной стратегии. Задача агента состоит в том, чтобы научиться устойчиво собирать яблоки (объекты), при этом восстановление

Data Science

Обучение с подкреплением: негативная награда (наказание) за незаконные действия?

00

Вопрос или проблема Если вы обучаете агента с помощью обучения с подкреплением (в данном случае с использованием функции Q), следует ли давать негативное вознаграждение (наказывать), если агент предлагает незаконные действия для представленного состояния?

Data Science

Размерность целевой функции для обучения агента DQN

00

Вопрос или проблема Насколько я понимаю, агент DQN имеет столько выходов, сколько действий (для каждого состояния). Если мы рассматриваем скалярное состояние с 4 действиями, это будет означать, что DQN будет иметь 4-мерный выход.

Data Science

Глубокое Q-обучение: как установить Q-значение для невыбранных действий?

00

Вопрос или проблема Я изучаю глубокое Q-обучение, применяя его к реальной проблеме. Я ознакомился с несколькими учебниками и статьями, доступными в интернете, но не смог найти решение для следующего задания. Предположим, у нас есть $N$ возможных действий в каждом состоянии.