dqn
Data Science
Вопрос или проблема Привет, я разрабатываю агента обучения с подкреплением для непрерывного пространства состояний/дискретного пространства действий. Я пытаюсь использовать метод болцманна/софтмакс в качестве стратегии выбора действий.
Data Science
Вопрос или проблема Я пытаюсь решить кубик Рубика с помощью глубокого обучения и наткнулся на DQN, поэтому решил попробовать. Я разработал весь код и начал обучение, но получил такие результаты: Убытки растут, а тесты никогда не показывают лучших результатов.
Data Science
Вопрос или проблема В настоящее время я изучаю обучение с подкреплением и хотел бы применить его в среде car racing-v0. Я успешно реализовал это с помощью алгоритма PPO, и теперь хочу использовать алгоритм DQN, но когда я пытаюсь обучить модель, возникает
Data Science
Вопрос или проблема Я нов в области RL и в настоящее время пытаюсь обучить онлайн модель DQN. Может ли онлайн модель переобучиться, поскольку она всегда учится? Как я могу понять, если это происходит? Переобучение – это значительное снижение производительности
Data Science
Вопрос или проблема Основываясь на публикации DeepMind, я воссоздал среду и пытаюсь сделать так, чтобы DQN находил и сходился к оптимальной стратегии. Задача агента состоит в том, чтобы научиться устойчиво собирать яблоки (объекты), при этом восстановление
Data Science
Вопрос или проблема Насколько я понимаю, агент DQN имеет столько выходов, сколько действий (для каждого состояния). Если мы рассматриваем скалярное состояние с 4 действиями, это будет означать, что DQN будет иметь 4-мерный выход.