Data Science
Помощь с Q-обучением с использованием динамической скорости обучения с RMSprop:
00
Вопрос или проблема Я реализую Q-обучение с динамической скоростью обучения, вдохновленным RMSprop, следуя подходу, который я нашел в статье. Цель состоит в том, чтобы скорость обучения постепенно корректировалась со временем на основе величины ошибки
Data Science
Обучение с подкреплением в игре против самого себя?
00
Вопрос или проблема Предположим, у нас есть дизайн игры в крестики-нолики, использующий RL против случайного игрока. Мы можем описать систему, усиливая и вознаграждая хорошие действия. Но что, если модель RL играет сама с собой?
Data Science
Как Q-Learning справляется с смешанными стратегиями?
12
Вопрос или проблема Я пытаюсь понять, как Q-обучение справляется с играми, где оптимальная стратегия является смешанной стратегией. Уравнение Беллмана говорит о том, что вы должны выбирать $max_a(Q(s,a))$, но это подразумевает единое уникальное действие для каждого $s$.
Data Science
Референсная реализация q-learning на Python
00
Вопрос или проблема Я новичок в машинном обучении и пытаюсь изучить Q-обучение. Я прочитал несколько текстов и понимаю общий смысл, но что бы мне действительно хотелось увидеть, так это простой пример алгоритма Q-обучения на Python, который я мог бы запустить
Data Science
DQN не удается найти оптимальную политику
00
Вопрос или проблема Основываясь на публикации DeepMind, я воссоздал среду и пытаюсь сделать так, чтобы DQN находил и сходился к оптимальной стратегии. Задача агента состоит в том, чтобы научиться устойчиво собирать яблоки (объекты), при этом восстановление
Data Science
Обучение с подкреплением: негативная награда (наказание) за незаконные действия?
00
Вопрос или проблема Если вы обучаете агента с помощью обучения с подкреплением (в данном случае с использованием функции Q), следует ли давать негативное вознаграждение (наказывать), если агент предлагает незаконные действия для представленного состояния?
Data Science
Размерность целевой функции для обучения агента DQN
00
Вопрос или проблема Насколько я понимаю, агент DQN имеет столько выходов, сколько действий (для каждого состояния). Если мы рассматриваем скалярное состояние с 4 действиями, это будет означать, что DQN будет иметь 4-мерный выход.
Data Science
Глубокое Q-обучение: как установить Q-значение для невыбранных действий?
00
Вопрос или проблема Я изучаю глубокое Q-обучение, применяя его к реальной проблеме. Я ознакомился с несколькими учебниками и статьями, доступными в интернете, но не смог найти решение для следующего задания. Предположим, у нас есть $N$ возможных действий в каждом состоянии.