reinforcement-learning - ответы на вопросы

Data Science

DQN – Динамическое избегание препятствий в 2D

00

Вопрос или проблема Я разрабатываю модель RL, в которой агенту нужно избегать движущихся врагов в 2D пространстве. Враги появляются непрерывно и отскакивают от стен. Окружающая среда кажется довольно динамичной и хаотичной. Входные данные для НС Существует

Data Science

Руководство по многоцелевой PPO

00

Вопрос или проблема Я пытаюсь реализовать многоцелевой алгоритм для PPO (как новичок) для автономной навигации в динамической среде. Здесь есть два основных показателя вознаграждения, которые я успешно могу рассчитать на основе текущего состояния среды

Data Science

Q-Learning Бот для крестиков-ноликов

00

Вопрос или проблема Я хочу обучить нейронную сеть играть в крестики-нолики, используя Q-обучение. Я видел реализацию этого метода с использованием базовой среды cartpole и хотел попробовать крестики-нолики. Мой вопрос заключается в том, как мне закодировать доску;

Data Science

Как применяется сигнал вознаграждения к LLM во время обучения с подкреплением? Это все еще обратное распространение ошибки?

00

Вопрос или проблема Если я правильно понимаю, SFT похожа на предобучение: потери рассчитываются на каждый токен, и градиент*потери применяется для обратного распространения ошибки, суммируя по батчу. У RL одно скалярное вознаграждение для всего вывода.

Data Science

Планирование, направленное на достижение цели, через повторение опыта в ретроспективе – вычисление возврата

00

Вопрос или проблема В статье “Целенаправленное планирование с помощью Hindsight Experience Replay” объединены AlphaZero и Hindsight Experience Replay. На странице 13 приводится следующий псевдокод: Мой вопрос: почему в этом псевдокоде не используется

Data Science

Какой лучший способ использовать обучение с подкреплением, RNN или другие методы для предсказания наилучшего действия, которое мы должны предпринять для максимизации продаж?

00

Вопрос или проблема У меня есть набор данных, состоящий из нескольких характеристик: customerId, actionDay1, SalesDay1, actionDay20, SalesDay20, actionDay30, SalesDay30 Действие может быть: звонок электронная почта личная встреча ничего продажи: сумма

Data Science

Передача скрытого состояния одной RNN другой RNN.

00

Вопрос или проблема Я использую обучение с подкреплением, чтобы обучить ИИ австрийской карточной игре с несовершенной информацией, называемой Schnapsen. Для различных состояний игры у меня есть разные нейронные сети (которые используют разные признаки)

Data Science

Функция преимущества – уменьшение дисперсии

00

Вопрос или проблема Когда объясняют функцию преимущества, обычно утверждают, что использование базовой величины снижает дисперсию. Я не нашел никаких конкретных ссылок, чтобы это обосновать. Является ли это применением контролируемых вариаций или чем-то подобным?

Data Science

Временной горизонт T в градиентах стратегии (актор-критик)

00

Вопрос или проблема В настоящее время я просматриваю лекции Беркли по обучению с подкреплением. В частности, я нахожусь на 5 слайде этой лекции. Внизу этого слайда градиент ожидаемой суммы наград задан следующим образом: $$ \nabla J(\theta) = \frac{1}{N}

Data Science

ИндексОшибка: индекс 804 выходит за пределы оси 0 с размером 800

00

Вопрос или проблема Я установил проект беспилотного автомобиля с сайта superdatascience, когда я открываю карту через терминал, через какое-то время окно карты закрывается или оно закрывается сразу после того, как я увеличиваю окно карты, и выдает мне

Data Science

Целевая функция в модели вознаграждения в Vanilla RLHF является для меня неоднозначной.

00

Вопрос или проблема Я пытаюсь изучить основу Vanilla RLHF. Мне сложно понять целевую функцию в модели награды. Она определяется Если разность логарифмов сигмоиды разности стремится к минимизации, мы всегда должны иметь r(x,y1) >

Data Science

Как решить неклассификационную задачу с несколькими правдоподобными результатами? (Tensorflow)

00

Вопрос или проблема Я довольно новичок в ML, и теперь, когда я прошел через учебники и документацию, я захотел сам создать модель. Проблема: Я плотник, и когда мы были в школе, у нас была проблема, где нам предоставили несколько примеров планировок гостиных

Data Science

Выбор правильного алгоритма для генерации текстов на основе шаблонов

00

Вопрос или проблема Я занимаюсь проектом по генерации текста — задача заключается в том, чтобы представить статистические данные в читаемом виде. Я решил подойти к этому на основе шаблонов: для каждого типа данных есть шаблон того, как должно быть сформировано

Data Science

Как непрерывно обучать и проверять модель, которая влияет на свои собственные будущие данные?

00

Вопрос или проблема Мы работаем с онлайн-рынком. Наша задача – предсказать, будут ли определенные продукты прибыльными для нашего рынка в ближайшем будущем (горизонт – один месяц). Например, рассмотрим 2 продукта: Игрушка Жираф (предсказана неприбыльной)

Data Science

Как вывести нашу функцию потерь из градиентного целевого показателя?

00

Вопрос или проблема Я изучал теорию и практику RL, и одна часть, которую мне трудно понять, — это связь между практической функцией loss и теоретической целью/градиентом цели. Как мы можем вывести одно из другого? Возможно, это будет легче понять на примерах

Data Science

Обучение с подкреплением на данных в реальном времени через веб-сервер.

00

Вопрос или проблема Вопрос: возможно ли реализовать модель обучения с подкреплением на NodeJS сервере? Этот сервер будет получать бинарные формы данных (открыть/закрыть; да/нет) в режиме реального времени. Цель модели – учиться на входящих данных

Data Science

Модель обучения с подкреплением всегда дает разный результат.

00

Вопрос или проблема Я пытаюсь создать модель обучения с подкреплением для оптимизации аппаратной мощности. Состояние модели будет вводом, таким как использование мощности процессора и использование памяти. Модель должна предсказать, какой процессор, память и т.

Data Science

Изучает ли агент с подкреплением во время эксплуатации?

00

Вопрос или проблема Я начал изучать RL и у меня есть некоторые сомнения по этому поводу. Обучается ли агент RL во время эксплуатации или он учится только во время исследования? Возможно ли обучить модель, используя только эксплуатацию (т.е. где исследование не разрешено)?

Data Science

Понимание пространства действий в Stable Baselines

01

Вопрос или проблема Я пытался написать агента с обучением с подкреплением, используя библиотеку stable-baselines3. Метод agent(abservations) должен возвращать действие. Я прошел через API различных моделей (например, PPO), и они на самом деле не позволяют

Data Science

Алгоритм усиления для бинарной классификации

00

Вопрос или проблема Я новичок в машинном обучении, но за последние 2 дня я прочитал много о Reinforcement Learning. У меня есть приложение, которое извлекает список проектов (например, с Upwork). Есть модератор, который вручную принимает или отклоняет