reinforcement-learning - ответы на вопросы - Page 3 of 4

Data Science

Обучение с подкреплением в игре против самого себя?

00

Вопрос или проблема Предположим, у нас есть дизайн игры в крестики-нолики, использующий RL против случайного игрока. Мы можем описать систему, усиливая и вознаграждая хорошие действия. Но что, если модель RL играет сама с собой?

Data Science

Как Q-Learning справляется с смешанными стратегиями?

12

Вопрос или проблема Я пытаюсь понять, как Q-обучение справляется с играми, где оптимальная стратегия является смешанной стратегией. Уравнение Беллмана говорит о том, что вы должны выбирать $max_a(Q(s,a))$, но это подразумевает единое уникальное действие для каждого $s$.

Data Science

Как я могу обучить модель изменять вектор, поощряя модель на основе ближайших соседей измененных векторов?

00

Вопрос или проблема Я провожу эксперимент с системой извлечения документов, в которой документы представлены в виде векторов. Когда поступают запросы, они преобразуются в векторы тем же методом, который используется для документов.

Data Science

инвертированный маятник REINFORCE

00

Вопрос или проблема Я изучаю обучение с подкреплением, и в качестве практики я пытаюсь стабилизировать инвертированный маятник (gym: Pendulum-v0) в прямом положении, используя градиент политики: REINFORCE. У меня есть несколько вопросов, пожалуйста, помогите

Data Science

Что такое функция Q и что такое функция V в обучении с подкреплением?

00

Вопрос или проблема Мне кажется, что функцию $V$ можно легко выразить через функцию $Q$, и, таким образом, функция $V$ кажется мне лишней. Однако я новичок в обучении с подкреплением, так что, вероятно, я что-то перепутал. Определения Обучение Q и V рассматриваются

Data Science

Обучение с подкреплением в обработке естественного языка для чат-ботов

00

Вопрос или проблема Есть ли у кого-то успешная реализация обучения с подкреплением для обработки естественного языка? Я ищу чат-ботов, которые могут учиться автоматически. Пытался искать в интернете, но нашел очень few статей, таких как Обучение с подкреплением

Вопросы и ответы

Не удалось достичь такой же хорошей производительности PPO с MAPPO.

00

Вопрос или проблема У меня есть многопользовательская среда, основанная на боидов, использующая gymnasium. Я использовал PPO с политикой Mlp и сетью из 8 слоев по 512 нейронов в каждом слое. Хотя я достиг объединения, это было централизованное решение.

Data Science

Набор данных для многомасштабного управления с высокими дискретными и низкими непрерывными управлениями

00

Вопрос или проблема Мне нужен набор данных с дискретными контролями на более высоком уровне и непрерывными на более низком. Примером могут служить робототехника или автономия, где решения на более высоком уровне – это такие действия, как остановка или поворот.

Вопросы и ответы

Почему я не могу установить seed для своей программы DQN, используя sbx?

00

Вопрос или проблема Я пытаюсь задать начальное состояние для своей программы DQN, используя sbx, но по какой-то причине я постоянно получаю разные результаты. Вот попытка создать минимальный воспроизводимый пример – import gymnasium as gym import

Data Science

Совместимость окружения Anytrading Gym с TF-Agents

00

Вопрос или проблема Все стандартные окружения Gym/Gymnasium совместимы с агентами TwnsorFlow RL, но когда я пытался использовать TF-Agents с anytrading, я получал ошибки, потому что некоторые необходимые методы и атрибуты, похоже, отсутствуют.

Data Science

Какие решения существуют для RL-агентов, когда не все действия всегда доступны?

00

Вопрос или проблема Я работаю в среде RL, где не все действия всегда доступны. В этом случае, в зависимости от состояния, в котором находится среда, некоторые действия недоступны для выбора агентом. Я нашел работу, которая касается этой ситуации: https://ojs.

Data Science

Получение вероятностей действий вместо уникального предсказания в Stable Baselines 3 SAC?

00

Вопрос или проблема Я пытаюсь понять, как получить таблицу вероятностей действий вместо уникального предсказания в stable baselines 3 SAC, чтобы переопределить метод ‘predict’ и отфильтровать недопустимые действия.

Data Science

Что определяет проблему обучения с подкреплением

00

Вопрос или проблема У меня только ограниченные знания о методах обучения с подкреплением, и я задаюсь вопросом, является ли это подходящим методом для решения проблемы черного ящика, с которой я столкнулся, и что на самом деле определяет задачу обучения с подкреплением.

Data Science

DQN не удается найти оптимальную политику

00

Вопрос или проблема Основываясь на публикации DeepMind, я воссоздал среду и пытаюсь сделать так, чтобы DQN находил и сходился к оптимальной стратегии. Задача агента состоит в том, чтобы научиться устойчиво собирать яблоки (объекты), при этом восстановление

Data Science

Обучение с подкреплением: негативная награда (наказание) за незаконные действия?

00

Вопрос или проблема Если вы обучаете агента с помощью обучения с подкреплением (в данном случае с использованием функции Q), следует ли давать негативное вознаграждение (наказывать), если агент предлагает незаконные действия для представленного состояния?

Data Science

Обучение с подкреплением: Почему жадные действия с оптимальной функцией значения приводят к оптимальной стратегии?

00

Вопрос или проблема Курс Дэвида Сильвера по обучению с подкреплением объясняет, как получить оптимальную стратегию из оптимальной функции ценности. Это кажется очень простым, нужно всего лишь действовать жадно, максимально увеличивая функцию ценности на каждом шаге.

Data Science

Обучение с подкреплением, примененное к задаче оптимизации

00

Вопрос или проблема Устранение проблемы: Нам дана задача оптимизации; с производственными центрами, исходным аэропортом, аэропортами назначения, пунктами пересадки и, наконец, доставкой клиентам. Это лучше объясняется на следующем изображении.

Data Science

Почему поисковые системы не фильтруют неэтичные/незаконные запросы?

00

Вопрос или проблема (Не уверен, что этот вопрос уместен для данного SE) Я изучаю курс LLM на Coursera. Одна из тем, с которой они работают, это то, как заставить LLM не отвечать неэтичными/незаконными вещами, например, если вы спросите Bing “

Data Science

Обучение трансформера с помощью PPO

00

Вопрос или проблема Контекст Я пытаюсь применить обучение с подкреплением к трансформеру. У меня есть следующие токены: ["<sos>", "<eos>", "roses", "are", "red"]. Моя цель – использовать основанную на трансформере политику сети для генерации токенов ["<

Data Science

Техники адаптивного предсказания с обратной связью в развивающемся пространстве признаков

00

Вопрос или проблема Я работаю над задачей прогнозирования, где целевая переменная 𝑦 извлекается из нормального распределения, а связь между непрерывным пространством признаков 𝑋 и 𝑦 остается стабильной со временем. Однако целевые значения (например, среднее