Data Science
Понимание теоремы градиента политики – Что означает брать градиенты вознаграждения относительно параметров политики?
00
Вопрос или проблема Я ищу немного ясности в том, что означает теорема о градиенте политики. Мое замешательство заключается в том, что вознаграждение $R$ в обучении с подкреплением не является дифференцируемым по параметрам политики.
Data Science
DQN не учится ничему – Обучение с подкреплением
00
Вопрос или проблема Я пытаюсь обучить DQN играть в игру 8puzzle. Я реализовал пакетные игровые доски, поэтому не использую ReplayMemory. Вот процесс обучения: finished_counts = torch.tensor(0, device=device) pbar = tqdm(range(int(1e4))) for e in pbar
Data Science
Могу ли я сравнить Q-ЗНАЧЕНИЕ для одного и того же действия в разных состояниях?
00
Вопрос или проблема Дорогие, Я новичок в RL и пытаюсь применить его к своему проекту. Я запустил RL с некоторыми примерными данными и получил… Мой вопрос заключается в том, могу ли я сравнить Q-значения для одного и того же текущего действия по
Data Science
Почему бы не использовать max(возвраты) вместо average(возвраты) в офф-политике контроля Монте-Карло?
00
Вопрос или проблема Насколько я понимаю, в обучении с подкреплением контроль на основе отдаленных выборок методом Монте-Карло — это когда функция значений состояния-действия $Q(s,a)$ оценивается как средневзвешенное наблюдаемых вознаграждений.
Data Science
Обратное обучение с подкреплением только с траекториями
00
Вопрос или проблема Обратное обучение с подкреплением (IRL) — это задача, которая может извлекать вознаграждение из поведения других агентов. Большинство парадигм IRL предполагают, что динамика окружающей среды известна, то есть вероятность перехода и политика агента заданы.
Data Science
Интерпретация кривой обучения PPO, потери ценности, потери политики
00
Вопрос или проблема Мое обучение PPO для созданной гимнастической среды привело к следующему результату. Мне понадобятся советы о том, как интерпретировать результаты и с чего начать деятельность для улучшения. Большое спасибо за всю вашу поддержку!
Data Science
Существует ли общее правило при проектировании нейронной сети в глубоких методах обучения с подкреплением?
00
Вопрос или проблема В глубокое обучение мы можем оценить производительность модели с помощью значения функции потерь и улучшить производительность модели с помощью K-кратной перекрестной проверки и так далее. Но как мы можем разработать и настроить нейронную
Data Science
Как вычислить переменную температуры в исследовании с использованием softmax (болцмановского) метода.
00
Вопрос или проблема Привет, я разрабатываю агента обучения с подкреплением для непрерывного пространства состояний/дискретного пространства действий. Я пытаюсь использовать метод болцманна/софтмакс в качестве стратегии выбора действий.
Data Science
опыт реплея памяти: сохранение следующего состояния, необходимого, когда состояние не зависит от действия?
00
Вопрос или проблема Итак, я использую агент с политикой состояния-действия и пытаюсь понять концепцию памяти с повторным воспроизведением опыта (ERM). Насколько я понял до сих пор, ERM — это по сути буфер, который хранит наборы опыта: e_t = {s_t, a_t
Data Science
Политический градиент – и автодифференциация (Pytorch/Tensorflow)
00
Вопрос или проблема В градиенте политики у нас есть нечто подобное: Правильно ли я понимаю, что если я применю логарифмическую кросс-энтропию к последнему слою, градиент будет автоматически рассчитан по формуле выше? Да, просто возьмите кросс-энтропийные
Data Science
Каково определение повторной подготовки?
00
Вопрос или проблема В обучении с переносом мы всегда используем новые данные для повторной тренировки предварительно обученной модели. Но каково конкретное и официальное определение повторной тренировки? Или какие исследования упоминали это определение
Data Science
гимнастика автогонки v0 с использованием DQN
00
Вопрос или проблема В настоящее время я изучаю обучение с подкреплением и хотел бы применить его в среде car racing-v0. Я успешно реализовал это с помощью алгоритма PPO, и теперь хочу использовать алгоритм DQN, но когда я пытаюсь обучить модель, возникает
Data Science
Подходит ли обучение с подкреплением для задачи “Заказ автомобиля”?
00
Вопрос или проблема Подходит ли обучение с подкреплением для этой задачи или оно будет работать хуже классических алгоритмов? “Задача вызова такси (DARP) заключается в проектировании маршрутов и расписаний для n пользователей, которые указывают
Data Science
OpenAI Gym: gym.make() не ссылается на обновленный код Env
00
Вопрос или проблема Я создаю свою кастомную среду Gym, и до сих пор всё работало хорошо, следуя инструкциям, распространённым по интернету. Однако сейчас я нахожусь на этапе, когда часто происходят изменения в классе среды (наследуя gym.
Data Science
Функция потерь Policy Gradient не работает
00
Вопрос или проблема Я экспериментировал со своим алгоритмом обучения с подкреплением на основе градиента политики и задавался вопросом, могу ли я использовать аналогичный метод контролируемой кросс-энтропии. Таким образом, вместо использования существующих
Data Science
Разница между Q-обучением и G-обучением в обучении с подкреплением?
00
Вопрос или проблема В чем разница между Q-обучением и G-обучением в обучении с подкреплением? Пожалуйста, объясните с помощью формул. Пример источника: Вместо того чтобы полагаться на полезность потребления, мы представляем G-Learner: алгоритм обучения
Data Science
Как предсказать значение преимущества в глубоком обучении с подкреплением
00
Вопрос или проблема В данный момент я работаю над коллекцией алгоритмов обучения с подкреплением: https://github.com/lhk/rl_gym Для глубокого Q-обучения необходимо вычислить Q-значения, которые должны предсказываться вашей сетью.
Data Science
Политический градиент не “обучается”
00
Вопрос или проблема Я пытаюсь реализовать метод градиента политики из книги “Практическое машинное обучение” автора Жерона, который можно найти здесь. В блокноте используется Tensorflow, а я пытаюсь сделать это с помощью PyTorch.
Data Science
В чем разница между функцией состояния и возвратом для процесса вознаграждения Маркова (MRP)?
00
Вопрос или проблема Я просматривал лекцию Стэнфорда по RL. Я вижу в MRP, что функция вознаграждения такая же, как функция ценности состояния. Обе получают ожидаемую сумму вознаграждений с учетом коэффициента дисконтирования. Хотя на лекции профессор сказал
Data Science
Эффекты скользкости в среде OpenAI FrozenLake
00
Вопрос или проблема Я пытаюсь разобраться в эффектах is_slippery в среде open.ai FrozenLake-v0 . Согласно моим результатам, когда is_slippery=True, что является значением по умолчанию, решить задачу намного труднее, чем когда is_slippery=False.