reinforcement-learning
Data Science
Вопрос или проблема Я пытаюсь изучить основу Vanilla RLHF. Мне сложно понять целевую функцию в модели награды. Она определяется Если разность логарифмов сигмоиды разности стремится к минимизации, мы всегда должны иметь r(x,y1) >
Data Science
Вопрос или проблема Я довольно новичок в ML, и теперь, когда я прошел через учебники и документацию, я захотел сам создать модель. Проблема: Я плотник, и когда мы были в школе, у нас была проблема, где нам предоставили несколько примеров планировок гостиных
Data Science
Вопрос или проблема Я занимаюсь проектом по генерации текста — задача заключается в том, чтобы представить статистические данные в читаемом виде. Я решил подойти к этому на основе шаблонов: для каждого типа данных есть шаблон того, как должно быть сформировано
Data Science
Вопрос или проблема Мы работаем с онлайн-рынком. Наша задача – предсказать, будут ли определенные продукты прибыльными для нашего рынка в ближайшем будущем (горизонт – один месяц). Например, рассмотрим 2 продукта: Игрушка Жираф (предсказана неприбыльной)
Data Science
Вопрос или проблема Я изучал теорию и практику RL, и одна часть, которую мне трудно понять, — это связь между практической функцией loss и теоретической целью/градиентом цели. Как мы можем вывести одно из другого? Возможно, это будет легче понять на примерах
Data Science
Вопрос или проблема Вопрос: возможно ли реализовать модель обучения с подкреплением на NodeJS сервере? Этот сервер будет получать бинарные формы данных (открыть/закрыть; да/нет) в режиме реального времени. Цель модели – учиться на входящих данных
Data Science
Вопрос или проблема Я пытаюсь создать модель обучения с подкреплением для оптимизации аппаратной мощности. Состояние модели будет вводом, таким как использование мощности процессора и использование памяти. Модель должна предсказать, какой процессор, память и т.
Data Science
Вопрос или проблема Я начал изучать RL и у меня есть некоторые сомнения по этому поводу. Обучается ли агент RL во время эксплуатации или он учится только во время исследования? Возможно ли обучить модель, используя только эксплуатацию (т.е. где исследование не разрешено)?
Data Science
Вопрос или проблема Я пытался написать агента с обучением с подкреплением, используя библиотеку stable-baselines3. Метод agent(abservations) должен возвращать действие. Я прошел через API различных моделей (например, PPO), и они на самом деле не позволяют
Data Science
Вопрос или проблема Я новичок в машинном обучении, но за последние 2 дня я прочитал много о Reinforcement Learning. У меня есть приложение, которое извлекает список проектов (например, с Upwork). Есть модератор, который вручную принимает или отклоняет
Data Science
Вопрос или проблема Я ищу немного ясности в том, что означает теорема о градиенте политики. Мое замешательство заключается в том, что вознаграждение $R$ в обучении с подкреплением не является дифференцируемым по параметрам политики.
Data Science
Вопрос или проблема Я пытаюсь обучить DQN играть в игру 8puzzle. Я реализовал пакетные игровые доски, поэтому не использую ReplayMemory. Вот процесс обучения: finished_counts = torch.tensor(0, device=device) pbar = tqdm(range(int(1e4))) for e in pbar
Data Science
Вопрос или проблема Дорогие, Я новичок в RL и пытаюсь применить его к своему проекту. Я запустил RL с некоторыми примерными данными и получил… Мой вопрос заключается в том, могу ли я сравнить Q-значения для одного и того же текущего действия по
Data Science
Вопрос или проблема Насколько я понимаю, в обучении с подкреплением контроль на основе отдаленных выборок методом Монте-Карло — это когда функция значений состояния-действия $Q(s,a)$ оценивается как средневзвешенное наблюдаемых вознаграждений.
Data Science
Вопрос или проблема Обратное обучение с подкреплением (IRL) — это задача, которая может извлекать вознаграждение из поведения других агентов. Большинство парадигм IRL предполагают, что динамика окружающей среды известна, то есть вероятность перехода и политика агента заданы.
Data Science
Вопрос или проблема Мое обучение PPO для созданной гимнастической среды привело к следующему результату. Мне понадобятся советы о том, как интерпретировать результаты и с чего начать деятельность для улучшения. Большое спасибо за всю вашу поддержку!
Data Science
Вопрос или проблема В глубокое обучение мы можем оценить производительность модели с помощью значения функции потерь и улучшить производительность модели с помощью K-кратной перекрестной проверки и так далее. Но как мы можем разработать и настроить нейронную
Data Science
Вопрос или проблема Привет, я разрабатываю агента обучения с подкреплением для непрерывного пространства состояний/дискретного пространства действий. Я пытаюсь использовать метод болцманна/софтмакс в качестве стратегии выбора действий.
Data Science
Вопрос или проблема Итак, я использую агент с политикой состояния-действия и пытаюсь понять концепцию памяти с повторным воспроизведением опыта (ERM). Насколько я понял до сих пор, ERM — это по сути буфер, который хранит наборы опыта: e_t = {s_t, a_t
Data Science
Вопрос или проблема В градиенте политики у нас есть нечто подобное: Правильно ли я понимаю, что если я применю логарифмическую кросс-энтропию к последнему слою, градиент будет автоматически рассчитан по формуле выше? Да, просто возьмите кросс-энтропийные