reinforcement-learning
Data Science
Вопрос или проблема У меня только ограниченные знания о методах обучения с подкреплением, и я задаюсь вопросом, является ли это подходящим методом для решения проблемы черного ящика, с которой я столкнулся, и что на самом деле определяет задачу обучения с подкреплением.
Data Science
Вопрос или проблема Основываясь на публикации DeepMind, я воссоздал среду и пытаюсь сделать так, чтобы DQN находил и сходился к оптимальной стратегии. Задача агента состоит в том, чтобы научиться устойчиво собирать яблоки (объекты), при этом восстановление
Data Science
Вопрос или проблема Если вы обучаете агента с помощью обучения с подкреплением (в данном случае с использованием функции Q), следует ли давать негативное вознаграждение (наказывать), если агент предлагает незаконные действия для представленного состояния?
Data Science
Вопрос или проблема Курс Дэвида Сильвера по обучению с подкреплением объясняет, как получить оптимальную стратегию из оптимальной функции ценности. Это кажется очень простым, нужно всего лишь действовать жадно, максимально увеличивая функцию ценности на каждом шаге.
Data Science
Вопрос или проблема Устранение проблемы: Нам дана задача оптимизации; с производственными центрами, исходным аэропортом, аэропортами назначения, пунктами пересадки и, наконец, доставкой клиентам. Это лучше объясняется на следующем изображении.
Data Science
Вопрос или проблема (Не уверен, что этот вопрос уместен для данного SE) Я изучаю курс LLM на Coursera. Одна из тем, с которой они работают, это то, как заставить LLM не отвечать неэтичными/незаконными вещами, например, если вы спросите Bing “
Data Science
Вопрос или проблема Контекст Я пытаюсь применить обучение с подкреплением к трансформеру. У меня есть следующие токены: ["<sos>", "<eos>", "roses", "are", "red"]. Моя цель – использовать основанную на трансформере политику сети для генерации токенов ["<
Data Science
Вопрос или проблема Я работаю над задачей прогнозирования, где целевая переменная 𝑦 извлекается из нормального распределения, а связь между непрерывным пространством признаков 𝑋 и 𝑦 остается стабильной со временем. Однако целевые значения (например, среднее
Data Science
Вопрос или проблема Я работаю над обучением модели RNN для генерации подписей с помощью алгоритма REINFORCE. Я применяю стратегию самокритики (см. статью Self-critical Sequence Training for Image Captioning), чтобы уменьшить дисперсию.