Data Science
Что определяет проблему обучения с подкреплением
00
Вопрос или проблема У меня только ограниченные знания о методах обучения с подкреплением, и я задаюсь вопросом, является ли это подходящим методом для решения проблемы черного ящика, с которой я столкнулся, и что на самом деле определяет задачу обучения с подкреплением.
Data Science
DQN не удается найти оптимальную политику
00
Вопрос или проблема Основываясь на публикации DeepMind, я воссоздал среду и пытаюсь сделать так, чтобы DQN находил и сходился к оптимальной стратегии. Задача агента состоит в том, чтобы научиться устойчиво собирать яблоки (объекты), при этом восстановление
Data Science
Обучение с подкреплением: негативная награда (наказание) за незаконные действия?
00
Вопрос или проблема Если вы обучаете агента с помощью обучения с подкреплением (в данном случае с использованием функции Q), следует ли давать негативное вознаграждение (наказывать), если агент предлагает незаконные действия для представленного состояния?
Data Science
Обучение с подкреплением: Почему жадные действия с оптимальной функцией значения приводят к оптимальной стратегии?
00
Вопрос или проблема Курс Дэвида Сильвера по обучению с подкреплением объясняет, как получить оптимальную стратегию из оптимальной функции ценности. Это кажется очень простым, нужно всего лишь действовать жадно, максимально увеличивая функцию ценности на каждом шаге.
Data Science
Обучение с подкреплением, примененное к задаче оптимизации
00
Вопрос или проблема Устранение проблемы: Нам дана задача оптимизации; с производственными центрами, исходным аэропортом, аэропортами назначения, пунктами пересадки и, наконец, доставкой клиентам. Это лучше объясняется на следующем изображении.
Data Science
Почему поисковые системы не фильтруют неэтичные/незаконные запросы?
00
Вопрос или проблема (Не уверен, что этот вопрос уместен для данного SE) Я изучаю курс LLM на Coursera. Одна из тем, с которой они работают, это то, как заставить LLM не отвечать неэтичными/незаконными вещами, например, если вы спросите Bing “
Data Science
Обучение трансформера с помощью PPO
00
Вопрос или проблема Контекст Я пытаюсь применить обучение с подкреплением к трансформеру. У меня есть следующие токены: ["<sos>", "<eos>", "roses", "are", "red"]. Моя цель – использовать основанную на трансформере политику сети для генерации токенов ["<
Data Science
Техники адаптивного предсказания с обратной связью в развивающемся пространстве признаков
00
Вопрос или проблема Я работаю над задачей прогнозирования, где целевая переменная 𝑦 извлекается из нормального распределения, а связь между непрерывным пространством признаков 𝑋 и 𝑦 остается стабильной со временем. Однако целевые значения (например, среднее
Data Science
Градиент политики/алгоритм REINFORCE с RNN: почему он сходится с SGM, но не с Adam?
00
Вопрос или проблема Я работаю над обучением модели RNN для генерации подписей с помощью алгоритма REINFORCE. Я применяю стратегию самокритики (см. статью Self-critical Sequence Training for Image Captioning), чтобы уменьшить дисперсию.