Data Science
OpenAI Gym: gym.make() не ссылается на обновленный код Env
00
Вопрос или проблема Я создаю свою кастомную среду Gym, и до сих пор всё работало хорошо, следуя инструкциям, распространённым по интернету. Однако сейчас я нахожусь на этапе, когда часто происходят изменения в классе среды (наследуя gym.
Data Science
Функция потерь Policy Gradient не работает
00
Вопрос или проблема Я экспериментировал со своим алгоритмом обучения с подкреплением на основе градиента политики и задавался вопросом, могу ли я использовать аналогичный метод контролируемой кросс-энтропии. Таким образом, вместо использования существующих
Data Science
Разница между Q-обучением и G-обучением в обучении с подкреплением?
00
Вопрос или проблема В чем разница между Q-обучением и G-обучением в обучении с подкреплением? Пожалуйста, объясните с помощью формул. Пример источника: Вместо того чтобы полагаться на полезность потребления, мы представляем G-Learner: алгоритм обучения
Data Science
Как предсказать значение преимущества в глубоком обучении с подкреплением
00
Вопрос или проблема В данный момент я работаю над коллекцией алгоритмов обучения с подкреплением: https://github.com/lhk/rl_gym Для глубокого Q-обучения необходимо вычислить Q-значения, которые должны предсказываться вашей сетью.
Data Science
Политический градиент не “обучается”
00
Вопрос или проблема Я пытаюсь реализовать метод градиента политики из книги “Практическое машинное обучение” автора Жерона, который можно найти здесь. В блокноте используется Tensorflow, а я пытаюсь сделать это с помощью PyTorch.
Data Science
В чем разница между функцией состояния и возвратом для процесса вознаграждения Маркова (MRP)?
00
Вопрос или проблема Я просматривал лекцию Стэнфорда по RL. Я вижу в MRP, что функция вознаграждения такая же, как функция ценности состояния. Обе получают ожидаемую сумму вознаграждений с учетом коэффициента дисконтирования. Хотя на лекции профессор сказал
Data Science
Эффекты скользкости в среде OpenAI FrozenLake
00
Вопрос или проблема Я пытаюсь разобраться в эффектах is_slippery в среде open.ai FrozenLake-v0 . Согласно моим результатам, когда is_slippery=True, что является значением по умолчанию, решить задачу намного труднее, чем когда is_slippery=False.
Data Science
Обучение с подкреплением в игре против самого себя?
00
Вопрос или проблема Предположим, у нас есть дизайн игры в крестики-нолики, использующий RL против случайного игрока. Мы можем описать систему, усиливая и вознаграждая хорошие действия. Но что, если модель RL играет сама с собой?
Data Science
Как Q-Learning справляется с смешанными стратегиями?
12
Вопрос или проблема Я пытаюсь понять, как Q-обучение справляется с играми, где оптимальная стратегия является смешанной стратегией. Уравнение Беллмана говорит о том, что вы должны выбирать $max_a(Q(s,a))$, но это подразумевает единое уникальное действие для каждого $s$.
Data Science
Как я могу обучить модель изменять вектор, поощряя модель на основе ближайших соседей измененных векторов?
00
Вопрос или проблема Я провожу эксперимент с системой извлечения документов, в которой документы представлены в виде векторов. Когда поступают запросы, они преобразуются в векторы тем же методом, который используется для документов.
Data Science
инвертированный маятник REINFORCE
00
Вопрос или проблема Я изучаю обучение с подкреплением, и в качестве практики я пытаюсь стабилизировать инвертированный маятник (gym: Pendulum-v0) в прямом положении, используя градиент политики: REINFORCE. У меня есть несколько вопросов, пожалуйста, помогите
Data Science
Что такое функция Q и что такое функция V в обучении с подкреплением?
00
Вопрос или проблема Мне кажется, что функцию $V$ можно легко выразить через функцию $Q$, и, таким образом, функция $V$ кажется мне лишней. Однако я новичок в обучении с подкреплением, так что, вероятно, я что-то перепутал. Определения Обучение Q и V рассматриваются
Data Science
Обучение с подкреплением в обработке естественного языка для чат-ботов
00
Вопрос или проблема Есть ли у кого-то успешная реализация обучения с подкреплением для обработки естественного языка? Я ищу чат-ботов, которые могут учиться автоматически. Пытался искать в интернете, но нашел очень few статей, таких как Обучение с подкреплением
Вопросы и ответы
Не удалось достичь такой же хорошей производительности PPO с MAPPO.
00
Вопрос или проблема У меня есть многопользовательская среда, основанная на боидов, использующая gymnasium. Я использовал PPO с политикой Mlp и сетью из 8 слоев по 512 нейронов в каждом слое. Хотя я достиг объединения, это было централизованное решение.
Data Science
Набор данных для многомасштабного управления с высокими дискретными и низкими непрерывными управлениями
00
Вопрос или проблема Мне нужен набор данных с дискретными контролями на более высоком уровне и непрерывными на более низком. Примером могут служить робототехника или автономия, где решения на более высоком уровне – это такие действия, как остановка или поворот.
Вопросы и ответы

Почему я не могу установить seed для своей программы DQN, используя sbx?

00
Вопрос или проблема Я пытаюсь задать начальное состояние для своей программы DQN, используя sbx, но по какой-то причине я постоянно получаю разные результаты. Вот попытка создать минимальный воспроизводимый пример – import gymnasium as gym import
Data Science
Совместимость окружения Anytrading Gym с TF-Agents
00
Вопрос или проблема Все стандартные окружения Gym/Gymnasium совместимы с агентами TwnsorFlow RL, но когда я пытался использовать TF-Agents с anytrading, я получал ошибки, потому что некоторые необходимые методы и атрибуты, похоже, отсутствуют.
Data Science
Какие решения существуют для RL-агентов, когда не все действия всегда доступны?
00
Вопрос или проблема Я работаю в среде RL, где не все действия всегда доступны. В этом случае, в зависимости от состояния, в котором находится среда, некоторые действия недоступны для выбора агентом. Я нашел работу, которая касается этой ситуации: https://ojs.
Data Science
Получение вероятностей действий вместо уникального предсказания в Stable Baselines 3 SAC?
00
Вопрос или проблема Я пытаюсь понять, как получить таблицу вероятностей действий вместо уникального предсказания в stable baselines 3 SAC, чтобы переопределить метод ‘predict’ и отфильтровать недопустимые действия.
Data Science
Что определяет проблему обучения с подкреплением
00
Вопрос или проблема У меня только ограниченные знания о методах обучения с подкреплением, и я задаюсь вопросом, является ли это подходящим методом для решения проблемы черного ящика, с которой я столкнулся, и что на самом деле определяет задачу обучения с подкреплением.