q-learning
Data Science
Вопрос или проблема Дорогие, Я новичок в RL и пытаюсь применить его к своему проекту. Я запустил RL с некоторыми примерными данными и получил… Мой вопрос заключается в том, могу ли я сравнить Q-значения для одного и того же текущего действия по
Data Science
Вопрос или проблема Насколько я понимаю, в обучении с подкреплением контроль на основе отдаленных выборок методом Монте-Карло — это когда функция значений состояния-действия $Q(s,a)$ оценивается как средневзвешенное наблюдаемых вознаграждений.
Data Science
Вопрос или проблема Я реализую Q-обучение с динамической скоростью обучения, вдохновленным RMSprop, следуя подходу, который я нашел в статье. Цель состоит в том, чтобы скорость обучения постепенно корректировалась со временем на основе величины ошибки
Data Science
Вопрос или проблема Предположим, у нас есть дизайн игры в крестики-нолики, использующий RL против случайного игрока. Мы можем описать систему, усиливая и вознаграждая хорошие действия. Но что, если модель RL играет сама с собой?
Data Science
Вопрос или проблема Я пытаюсь понять, как Q-обучение справляется с играми, где оптимальная стратегия является смешанной стратегией. Уравнение Беллмана говорит о том, что вы должны выбирать $max_a(Q(s,a))$, но это подразумевает единое уникальное действие для каждого $s$.
Data Science
Вопрос или проблема Я новичок в машинном обучении и пытаюсь изучить Q-обучение. Я прочитал несколько текстов и понимаю общий смысл, но что бы мне действительно хотелось увидеть, так это простой пример алгоритма Q-обучения на Python, который я мог бы запустить
Data Science
Вопрос или проблема Основываясь на публикации DeepMind, я воссоздал среду и пытаюсь сделать так, чтобы DQN находил и сходился к оптимальной стратегии. Задача агента состоит в том, чтобы научиться устойчиво собирать яблоки (объекты), при этом восстановление
Data Science
Вопрос или проблема Если вы обучаете агента с помощью обучения с подкреплением (в данном случае с использованием функции Q), следует ли давать негативное вознаграждение (наказывать), если агент предлагает незаконные действия для представленного состояния?
Data Science
Вопрос или проблема Насколько я понимаю, агент DQN имеет столько выходов, сколько действий (для каждого состояния). Если мы рассматриваем скалярное состояние с 4 действиями, это будет означать, что DQN будет иметь 4-мерный выход.
Data Science
Вопрос или проблема Я изучаю глубокое Q-обучение, применяя его к реальной проблеме. Я ознакомился с несколькими учебниками и статьями, доступными в интернете, но не смог найти решение для следующего задания. Предположим, у нас есть $N$ возможных действий в каждом состоянии.