reinforcement-learning - ответы на вопросы - Page 2 of 4

Data Science

Понимание теоремы градиента политики – Что означает брать градиенты вознаграждения относительно параметров политики?

00

Вопрос или проблема Я ищу немного ясности в том, что означает теорема о градиенте политики. Мое замешательство заключается в том, что вознаграждение $R$ в обучении с подкреплением не является дифференцируемым по параметрам политики.

Data Science

DQN не учится ничему – Обучение с подкреплением

00

Вопрос или проблема Я пытаюсь обучить DQN играть в игру 8puzzle. Я реализовал пакетные игровые доски, поэтому не использую ReplayMemory. Вот процесс обучения: finished_counts = torch.tensor(0, device=device) pbar = tqdm(range(int(1e4))) for e in pbar

Data Science

Могу ли я сравнить Q-ЗНАЧЕНИЕ для одного и того же действия в разных состояниях?

00

Вопрос или проблема Дорогие, Я новичок в RL и пытаюсь применить его к своему проекту. Я запустил RL с некоторыми примерными данными и получил… Мой вопрос заключается в том, могу ли я сравнить Q-значения для одного и того же текущего действия по

Data Science

Почему бы не использовать max(возвраты) вместо average(возвраты) в офф-политике контроля Монте-Карло?

00

Вопрос или проблема Насколько я понимаю, в обучении с подкреплением контроль на основе отдаленных выборок методом Монте-Карло — это когда функция значений состояния-действия $Q(s,a)$ оценивается как средневзвешенное наблюдаемых вознаграждений.

Data Science

Обратное обучение с подкреплением только с траекториями

00

Вопрос или проблема Обратное обучение с подкреплением (IRL) — это задача, которая может извлекать вознаграждение из поведения других агентов. Большинство парадигм IRL предполагают, что динамика окружающей среды известна, то есть вероятность перехода и политика агента заданы.

Data Science

Интерпретация кривой обучения PPO, потери ценности, потери политики

00

Вопрос или проблема Мое обучение PPO для созданной гимнастической среды привело к следующему результату. Мне понадобятся советы о том, как интерпретировать результаты и с чего начать деятельность для улучшения. Большое спасибо за всю вашу поддержку!

Data Science

Существует ли общее правило при проектировании нейронной сети в глубоких методах обучения с подкреплением?

00

Вопрос или проблема В глубокое обучение мы можем оценить производительность модели с помощью значения функции потерь и улучшить производительность модели с помощью K-кратной перекрестной проверки и так далее. Но как мы можем разработать и настроить нейронную

Data Science

Как вычислить переменную температуры в исследовании с использованием softmax (болцмановского) метода.

00

Вопрос или проблема Привет, я разрабатываю агента обучения с подкреплением для непрерывного пространства состояний/дискретного пространства действий. Я пытаюсь использовать метод болцманна/софтмакс в качестве стратегии выбора действий.

Data Science

опыт реплея памяти: сохранение следующего состояния, необходимого, когда состояние не зависит от действия?

00

Вопрос или проблема Итак, я использую агент с политикой состояния-действия и пытаюсь понять концепцию памяти с повторным воспроизведением опыта (ERM). Насколько я понял до сих пор, ERM — это по сути буфер, который хранит наборы опыта: e_t = {s_t, a_t

Data Science

Политический градиент – и автодифференциация (Pytorch/Tensorflow)

00

Вопрос или проблема В градиенте политики у нас есть нечто подобное: Правильно ли я понимаю, что если я применю логарифмическую кросс-энтропию к последнему слою, градиент будет автоматически рассчитан по формуле выше? Да, просто возьмите кросс-энтропийные

Data Science

Каково определение повторной подготовки?

00

Вопрос или проблема В обучении с переносом мы всегда используем новые данные для повторной тренировки предварительно обученной модели. Но каково конкретное и официальное определение повторной тренировки? Или какие исследования упоминали это определение

Data Science

гимнастика автогонки v0 с использованием DQN

00

Вопрос или проблема В настоящее время я изучаю обучение с подкреплением и хотел бы применить его в среде car racing-v0. Я успешно реализовал это с помощью алгоритма PPO, и теперь хочу использовать алгоритм DQN, но когда я пытаюсь обучить модель, возникает

Data Science

Подходит ли обучение с подкреплением для задачи “Заказ автомобиля”?

00

Вопрос или проблема Подходит ли обучение с подкреплением для этой задачи или оно будет работать хуже классических алгоритмов? “Задача вызова такси (DARP) заключается в проектировании маршрутов и расписаний для n пользователей, которые указывают

Data Science

OpenAI Gym: gym.make() не ссылается на обновленный код Env

00

Вопрос или проблема Я создаю свою кастомную среду Gym, и до сих пор всё работало хорошо, следуя инструкциям, распространённым по интернету. Однако сейчас я нахожусь на этапе, когда часто происходят изменения в классе среды (наследуя gym.

Data Science

Функция потерь Policy Gradient не работает

00

Вопрос или проблема Я экспериментировал со своим алгоритмом обучения с подкреплением на основе градиента политики и задавался вопросом, могу ли я использовать аналогичный метод контролируемой кросс-энтропии. Таким образом, вместо использования существующих

Data Science

Разница между Q-обучением и G-обучением в обучении с подкреплением?

00

Вопрос или проблема В чем разница между Q-обучением и G-обучением в обучении с подкреплением? Пожалуйста, объясните с помощью формул. Пример источника: Вместо того чтобы полагаться на полезность потребления, мы представляем G-Learner: алгоритм обучения

Data Science

Как предсказать значение преимущества в глубоком обучении с подкреплением

00

Вопрос или проблема В данный момент я работаю над коллекцией алгоритмов обучения с подкреплением: https://github.com/lhk/rl_gym Для глубокого Q-обучения необходимо вычислить Q-значения, которые должны предсказываться вашей сетью.

Data Science

Политический градиент не “обучается”

00

Вопрос или проблема Я пытаюсь реализовать метод градиента политики из книги “Практическое машинное обучение” автора Жерона, который можно найти здесь. В блокноте используется Tensorflow, а я пытаюсь сделать это с помощью PyTorch.

Data Science

В чем разница между функцией состояния и возвратом для процесса вознаграждения Маркова (MRP)?

00

Вопрос или проблема Я просматривал лекцию Стэнфорда по RL. Я вижу в MRP, что функция вознаграждения такая же, как функция ценности состояния. Обе получают ожидаемую сумму вознаграждений с учетом коэффициента дисконтирования. Хотя на лекции профессор сказал

Data Science

Эффекты скользкости в среде OpenAI FrozenLake

00

Вопрос или проблема Я пытаюсь разобраться в эффектах is_slippery в среде open.ai FrozenLake-v0 . Согласно моим результатам, когда is_slippery=True, что является значением по умолчанию, решить задачу намного труднее, чем когда is_slippery=False.