Планирование, направленное на достижение цели, через повторение опыта в ретроспективе - вычисление возврата

Вопрос или проблема

В статье “Целенаправленное планирование с помощью Hindsight Experience Replay” объединены AlphaZero и Hindsight Experience Replay. На странице 13 приводится следующий псевдокод:

Мой вопрос: почему в этом псевдокоде не используется бутстрэппинг при вычислении возвратов/значений для состояний?

Вот почему я считаю, что бутстрэппинг должен быть учтен:

Для простоты предположим, что $\gamma = 1$, и если цель не достигнута через 3 временных шага, эпизод заканчивается. Агент получает награду -1 до достижения цели.

Теперь, предположим, что агент посещает состояния $s_0, s_1, s_2, s_3$ (в этом порядке) в эпизоде, где цель не достигнута. Согласно псевдокоду, возвраты для этих состояний будут рассчитаны следующим образом:

$G(s_0) = -1 + \gamma^1 \cdot (-1) + \gamma^2 \cdot (-1) = -3$

$G(s_1) = -1 + \gamma^1 \cdot (-1) = -2$

$G(s_2) = -1 $

Без бутстрэппинга это указывает на то, что агент приближается к цели (более высокий возврат для более поздних состояний), даже если это не так.

Однако бутстрэппинг мог бы исправить эту проблему. Используя функцию значений $V(s_i; g)$ ($g$ обозначает цель), мы могли бы вычислить возвраты следующим образом:

$G(s_0) = -1 + \gamma^1 \cdot (-1) + \gamma^2 \cdot (-1) + \gamma^3 V(s_3)= -3 + \gamma^3 V(s_3;g)$

$G(s_1) = -1 + \gamma^1 \cdot (-1) + \gamma^2 V(s_3;g)= -2 + \gamma^2 V(s_3;g)$

$G(s_2) = -1 + \gamma^1 \cdot V(s_3;g)$

Разве этот подход не лучше соответствует способности агента планировать, используя сеть значений?

Буду признателен за любые мысли о том, почему в псевдокоде не используется бутстрэппинг 🙂

Ответ или решение

Теория:

В современном машинном обучении, когда речь идет о планировании и обучении с подкреплением, существует множество методологий, которые объединяют лучшие практики из различных подходов. Одним из таких методов является Hindsight Experience Replay (HER), который был интегрирован с алгоритмом AlphaZero в работе “Goal-Directed Planning via Hindsight Experience Replay”. Основная идея HER заключается в способности агента извлекать выгоду даже из невыполненных целей, переформулируя неуспешные эпизоды как успешные в контексте новых целей. Ваша задача — понять, почему в представленном псевдокоде не используется бустреппинг при вычислении возвратов или значений для состояний. Бустреппинг, часто применяемый в методах обучения с подкреплением, таких как Q-learning, предполагает использование текущих оценок для обновления значений, что позволяет эффективно обновлять политики на протяжении большей части эпизодов.

Пример:

Чтобы осветить вашу задачу, рассмотрим сценарий, который вы изложили. Представьте, что агент проходит состояния $s_0, s_1, s_2, s_3$ и ни разу не достигает своей цели. Согласно псевдокоду, результаты вычисляются как простая арифметическая сумма вознаграждений без учёта будущих состояний. Это может приводить к заключению, что более поздние состояния приносят больший возврат, даже если агент продолжает отклоняться от цели.

Теперь рассмотрим бустреппинг. Используя функцию стоимости $V(s; g)$, можно улучшить оценку состояния, добавляя взвешенные значения возможных будущих вознаграждений. Это позволит агенту принимать более обоснованные решения, ориентированные на длительное улучшение. Если цель — улучшение политики агента и предсказание будущих состояний, то использование бустреппинга может существенно помочь.

Применение:

Вполне возможно, что псевдокод, представленный в работе, служит цели упрощения изложения алгоритмической идеи HER на основе AlphaZero без усложнения вычислительных процессов применения бустреппинга. Однако в сценарах, где требуется более высокая точность предсказаний и нацеленность на накопительные награды, использование бустреппинга было бы весьма полезно.

HER аппроксимирует решения на основе прошлых неудач, переосмысляя их в контексте новых целей, и это, в первую очередь, сосредотачивается на максимальном извлечении информации. Его основное отличие и преимущество заключается в использовании факта, что даже неудачные попытки могут быть преобразованы в полезный опыт. Но когда речь идет о целенаправленном планировании, планировании хода действия в будущем, учёт оценки состояния через функцию $V(s; g)$ позволит корректировать политику более точно.

Может показаться, что отсутствие бустреппинга снижает гибкость обучения сети в условиях динамической среды. Но не следует забывать, что ценные идеи из обучения с подкреплением и методы бустреппинга встречают препятствия в виде вычислительной сложности и ресурсозатратности. В контексте псевдокода важно было продемонстрировать применение комбинированной техники, оставив за пределами статьи более глубокое использование бустреппинга.

Заключение:

Вопрос, учитывает ли конкретная реализация псевдокода оптимальность и необходимость бустреппинга, зависит от целевых условий и требований к обновлению политик агента. Можете ли вы извлечь более выгодные стратегии, включает ли псевдокод все лучшие практики — это должно рассматриваться в зависимости от применения. Основной акцент может быть сделан не на точности немедленных оценок, а на способности алгоритмов, таких, как AlphaZero с элементами HER, обучать агента обучать выигрывать за счет стратегий, выработанных с учетом опыта внешне неуспешных попыток.

Планирование, направленное на достижение цели, через повторение опыта в ретроспективе – вычисление возврата

Вопрос или проблема

Ответ или решение