Data Science
Обучение с подкреплением в игре против самого себя?
00
Вопрос или проблема Предположим, у нас есть дизайн игры в крестики-нолики, использующий RL против случайного игрока. Мы можем описать систему, усиливая и вознаграждая хорошие действия. Но что, если модель RL играет сама с собой?
Data Science
Как Q-Learning справляется с смешанными стратегиями?
12
Вопрос или проблема Я пытаюсь понять, как Q-обучение справляется с играми, где оптимальная стратегия является смешанной стратегией. Уравнение Беллмана говорит о том, что вы должны выбирать $max_a(Q(s,a))$, но это подразумевает единое уникальное действие для каждого $s$.
Data Science
Как я могу обучить модель изменять вектор, поощряя модель на основе ближайших соседей измененных векторов?
00
Вопрос или проблема Я провожу эксперимент с системой извлечения документов, в которой документы представлены в виде векторов. Когда поступают запросы, они преобразуются в векторы тем же методом, который используется для документов.
Data Science
инвертированный маятник REINFORCE
00
Вопрос или проблема Я изучаю обучение с подкреплением, и в качестве практики я пытаюсь стабилизировать инвертированный маятник (gym: Pendulum-v0) в прямом положении, используя градиент политики: REINFORCE. У меня есть несколько вопросов, пожалуйста, помогите
Data Science
Что такое функция Q и что такое функция V в обучении с подкреплением?
00
Вопрос или проблема Мне кажется, что функцию $V$ можно легко выразить через функцию $Q$, и, таким образом, функция $V$ кажется мне лишней. Однако я новичок в обучении с подкреплением, так что, вероятно, я что-то перепутал. Определения Обучение Q и V рассматриваются
Data Science
Обучение с подкреплением в обработке естественного языка для чат-ботов
00
Вопрос или проблема Есть ли у кого-то успешная реализация обучения с подкреплением для обработки естественного языка? Я ищу чат-ботов, которые могут учиться автоматически. Пытался искать в интернете, но нашел очень few статей, таких как Обучение с подкреплением
Вопросы и ответы
Не удалось достичь такой же хорошей производительности PPO с MAPPO.
00
Вопрос или проблема У меня есть многопользовательская среда, основанная на боидов, использующая gymnasium. Я использовал PPO с политикой Mlp и сетью из 8 слоев по 512 нейронов в каждом слое. Хотя я достиг объединения, это было централизованное решение.
Data Science
Набор данных для многомасштабного управления с высокими дискретными и низкими непрерывными управлениями
00
Вопрос или проблема Мне нужен набор данных с дискретными контролями на более высоком уровне и непрерывными на более низком. Примером могут служить робототехника или автономия, где решения на более высоком уровне – это такие действия, как остановка или поворот.
Вопросы и ответы

Почему я не могу установить seed для своей программы DQN, используя sbx?

00
Вопрос или проблема Я пытаюсь задать начальное состояние для своей программы DQN, используя sbx, но по какой-то причине я постоянно получаю разные результаты. Вот попытка создать минимальный воспроизводимый пример – import gymnasium as gym import
Data Science
Совместимость окружения Anytrading Gym с TF-Agents
00
Вопрос или проблема Все стандартные окружения Gym/Gymnasium совместимы с агентами TwnsorFlow RL, но когда я пытался использовать TF-Agents с anytrading, я получал ошибки, потому что некоторые необходимые методы и атрибуты, похоже, отсутствуют.
Data Science
Какие решения существуют для RL-агентов, когда не все действия всегда доступны?
00
Вопрос или проблема Я работаю в среде RL, где не все действия всегда доступны. В этом случае, в зависимости от состояния, в котором находится среда, некоторые действия недоступны для выбора агентом. Я нашел работу, которая касается этой ситуации: https://ojs.
Data Science
Получение вероятностей действий вместо уникального предсказания в Stable Baselines 3 SAC?
00
Вопрос или проблема Я пытаюсь понять, как получить таблицу вероятностей действий вместо уникального предсказания в stable baselines 3 SAC, чтобы переопределить метод ‘predict’ и отфильтровать недопустимые действия.
Data Science
Что определяет проблему обучения с подкреплением
00
Вопрос или проблема У меня только ограниченные знания о методах обучения с подкреплением, и я задаюсь вопросом, является ли это подходящим методом для решения проблемы черного ящика, с которой я столкнулся, и что на самом деле определяет задачу обучения с подкреплением.
Data Science
DQN не удается найти оптимальную политику
00
Вопрос или проблема Основываясь на публикации DeepMind, я воссоздал среду и пытаюсь сделать так, чтобы DQN находил и сходился к оптимальной стратегии. Задача агента состоит в том, чтобы научиться устойчиво собирать яблоки (объекты), при этом восстановление
Data Science
Обучение с подкреплением: негативная награда (наказание) за незаконные действия?
00
Вопрос или проблема Если вы обучаете агента с помощью обучения с подкреплением (в данном случае с использованием функции Q), следует ли давать негативное вознаграждение (наказывать), если агент предлагает незаконные действия для представленного состояния?
Data Science
Обучение с подкреплением: Почему жадные действия с оптимальной функцией значения приводят к оптимальной стратегии?
00
Вопрос или проблема Курс Дэвида Сильвера по обучению с подкреплением объясняет, как получить оптимальную стратегию из оптимальной функции ценности. Это кажется очень простым, нужно всего лишь действовать жадно, максимально увеличивая функцию ценности на каждом шаге.
Data Science
Обучение с подкреплением, примененное к задаче оптимизации
00
Вопрос или проблема Устранение проблемы: Нам дана задача оптимизации; с производственными центрами, исходным аэропортом, аэропортами назначения, пунктами пересадки и, наконец, доставкой клиентам. Это лучше объясняется на следующем изображении.
Data Science
Почему поисковые системы не фильтруют неэтичные/незаконные запросы?
00
Вопрос или проблема (Не уверен, что этот вопрос уместен для данного SE) Я изучаю курс LLM на Coursera. Одна из тем, с которой они работают, это то, как заставить LLM не отвечать неэтичными/незаконными вещами, например, если вы спросите Bing “
Data Science
Обучение трансформера с помощью PPO
00
Вопрос или проблема Контекст Я пытаюсь применить обучение с подкреплением к трансформеру. У меня есть следующие токены: ["<sos>", "<eos>", "roses", "are", "red"]. Моя цель – использовать основанную на трансформере политику сети для генерации токенов ["<
Data Science
Техники адаптивного предсказания с обратной связью в развивающемся пространстве признаков
00
Вопрос или проблема Я работаю над задачей прогнозирования, где целевая переменная 𝑦 извлекается из нормального распределения, а связь между непрерывным пространством признаков 𝑋 и 𝑦 остается стабильной со временем. Однако целевые значения (например, среднее