reinforcement-learning
Data Science
Вопрос или проблема Я разрабатываю модель RL, в которой агенту нужно избегать движущихся врагов в 2D пространстве. Враги появляются непрерывно и отскакивают от стен. Окружающая среда кажется довольно динамичной и хаотичной. Входные данные для НС Существует
Data Science
Вопрос или проблема Я пытаюсь реализовать многоцелевой алгоритм для PPO (как новичок) для автономной навигации в динамической среде. Здесь есть два основных показателя вознаграждения, которые я успешно могу рассчитать на основе текущего состояния среды
Data Science
Вопрос или проблема Я хочу обучить нейронную сеть играть в крестики-нолики, используя Q-обучение. Я видел реализацию этого метода с использованием базовой среды cartpole и хотел попробовать крестики-нолики. Мой вопрос заключается в том, как мне закодировать доску;
Data Science
Вопрос или проблема Если я правильно понимаю, SFT похожа на предобучение: потери рассчитываются на каждый токен, и градиент*потери применяется для обратного распространения ошибки, суммируя по батчу. У RL одно скалярное вознаграждение для всего вывода.
Data Science
Вопрос или проблема В статье “Целенаправленное планирование с помощью Hindsight Experience Replay” объединены AlphaZero и Hindsight Experience Replay. На странице 13 приводится следующий псевдокод: Мой вопрос: почему в этом псевдокоде не используется
Data Science
Вопрос или проблема У меня есть набор данных, состоящий из нескольких характеристик: customerId, actionDay1, SalesDay1, actionDay20, SalesDay20, actionDay30, SalesDay30 Действие может быть: звонок электронная почта личная встреча ничего продажи: сумма
Data Science
Вопрос или проблема Я использую обучение с подкреплением, чтобы обучить ИИ австрийской карточной игре с несовершенной информацией, называемой Schnapsen. Для различных состояний игры у меня есть разные нейронные сети (которые используют разные признаки)
Data Science
Вопрос или проблема Когда объясняют функцию преимущества, обычно утверждают, что использование базовой величины снижает дисперсию. Я не нашел никаких конкретных ссылок, чтобы это обосновать. Является ли это применением контролируемых вариаций или чем-то подобным?
Data Science
Вопрос или проблема В настоящее время я просматриваю лекции Беркли по обучению с подкреплением. В частности, я нахожусь на 5 слайде этой лекции. Внизу этого слайда градиент ожидаемой суммы наград задан следующим образом: $$ \nabla J(\theta) = \frac{1}{N}
Data Science
Вопрос или проблема Я установил проект беспилотного автомобиля с сайта superdatascience, когда я открываю карту через терминал, через какое-то время окно карты закрывается или оно закрывается сразу после того, как я увеличиваю окно карты, и выдает мне
Data Science
Вопрос или проблема Я пытаюсь изучить основу Vanilla RLHF. Мне сложно понять целевую функцию в модели награды. Она определяется Если разность логарифмов сигмоиды разности стремится к минимизации, мы всегда должны иметь r(x,y1) >
Data Science
Вопрос или проблема Я довольно новичок в ML, и теперь, когда я прошел через учебники и документацию, я захотел сам создать модель. Проблема: Я плотник, и когда мы были в школе, у нас была проблема, где нам предоставили несколько примеров планировок гостиных
Data Science
Вопрос или проблема Я занимаюсь проектом по генерации текста — задача заключается в том, чтобы представить статистические данные в читаемом виде. Я решил подойти к этому на основе шаблонов: для каждого типа данных есть шаблон того, как должно быть сформировано
Data Science
Вопрос или проблема Мы работаем с онлайн-рынком. Наша задача – предсказать, будут ли определенные продукты прибыльными для нашего рынка в ближайшем будущем (горизонт – один месяц). Например, рассмотрим 2 продукта: Игрушка Жираф (предсказана неприбыльной)
Data Science
Вопрос или проблема Я изучал теорию и практику RL, и одна часть, которую мне трудно понять, — это связь между практической функцией loss и теоретической целью/градиентом цели. Как мы можем вывести одно из другого? Возможно, это будет легче понять на примерах
Data Science
Вопрос или проблема Вопрос: возможно ли реализовать модель обучения с подкреплением на NodeJS сервере? Этот сервер будет получать бинарные формы данных (открыть/закрыть; да/нет) в режиме реального времени. Цель модели – учиться на входящих данных
Data Science
Вопрос или проблема Я пытаюсь создать модель обучения с подкреплением для оптимизации аппаратной мощности. Состояние модели будет вводом, таким как использование мощности процессора и использование памяти. Модель должна предсказать, какой процессор, память и т.
Data Science
Вопрос или проблема Я начал изучать RL и у меня есть некоторые сомнения по этому поводу. Обучается ли агент RL во время эксплуатации или он учится только во время исследования? Возможно ли обучить модель, используя только эксплуатацию (т.е. где исследование не разрешено)?
Data Science
Вопрос или проблема Я пытался написать агента с обучением с подкреплением, используя библиотеку stable-baselines3. Метод agent(abservations) должен возвращать действие. Я прошел через API различных моделей (например, PPO), и они на самом деле не позволяют
Data Science
Вопрос или проблема Я новичок в машинном обучении, но за последние 2 дня я прочитал много о Reinforcement Learning. У меня есть приложение, которое извлекает список проектов (например, с Upwork). Есть модератор, который вручную принимает или отклоняет