dqn - ответы на вопросы

Data Science

Как вычислить переменную температуры в исследовании с использованием softmax (болцмановского) метода.

00

Вопрос или проблема Привет, я разрабатываю агента обучения с подкреплением для непрерывного пространства состояний/дискретного пространства действий. Я пытаюсь использовать метод болцманна/софтмакс в качестве стратегии выбора действий.

Data Science

Можно ли решить кубик Рубика с помощью DQN?

00

Вопрос или проблема Я пытаюсь решить кубик Рубика с помощью глубокого обучения и наткнулся на DQN, поэтому решил попробовать. Я разработал весь код и начал обучение, но получил такие результаты: Убытки растут, а тесты никогда не показывают лучших результатов.

Data Science

гимнастика автогонки v0 с использованием DQN

00

Вопрос или проблема В настоящее время я изучаю обучение с подкреплением и хотел бы применить его в среде car racing-v0. Я успешно реализовал это с помощью алгоритма PPO, и теперь хочу использовать алгоритм DQN, но когда я пытаюсь обучить модель, возникает

Data Science

Может ли модель Online DQN переобучаться?

00

Вопрос или проблема Я нов в области RL и в настоящее время пытаюсь обучить онлайн модель DQN. Может ли онлайн модель переобучиться, поскольку она всегда учится? Как я могу понять, если это происходит? Переобучение – это значительное снижение производительности

Data Science

DQN не удается найти оптимальную политику

00

Вопрос или проблема Основываясь на публикации DeepMind, я воссоздал среду и пытаюсь сделать так, чтобы DQN находил и сходился к оптимальной стратегии. Задача агента состоит в том, чтобы научиться устойчиво собирать яблоки (объекты), при этом восстановление

Data Science

Размерность целевой функции для обучения агента DQN

00

Вопрос или проблема Насколько я понимаю, агент DQN имеет столько выходов, сколько действий (для каждого состояния). Если мы рассматриваем скалярное состояние с 4 действиями, это будет означать, что DQN будет иметь 4-мерный выход.