Понимание теоремы градиента политики – Что означает брать градиенты вознаграждения относительно параметров политики?

Вопрос или проблема

Я ищу немного ясности в том, что означает теорема о градиенте политики. Мое замешательство заключается в том, что вознаграждение $R$ в обучении с подкреплением не является дифференцируемым по параметрам политики. Если это так, каким образом центральная задача градиентов политики, нахождение градиентов вознаграждения $R$ по отношению к параметрам функции политики, вообще имеет смысл?

Мы хотим найти градиент “возврата” политики $V$ по отношению к параметрам политики $\theta$. Возврат $V$ можно интерпретировать как “насколько хороша акция $Q$ $\times$ вероятность совершения этой акции $\pi$“.

Рассмотрим градиент политики, $\nabla_\theta V = \sum_a Q \nabla_\theta \pi + \pi \nabla_\theta Q$

Первый член говорит нам о том, чтобы корректировать вероятность действия пропорционально тому, насколько оно хорошее. Для меня это можно интерпретировать как “если действие дает хороший результат, делай его чаще”. То есть, сдвинуть пик $\pi$, чтобы он совпадал с пиком $Q$. Это разумное решение. Но, конечно, поскольку $Q$ не может прямо направить нас к своему пику, наша $\pi$ должна удачно наткнуться на высокий пик $Q$. Это подчеркивает важность исследовательской природы $\pi$.

Второй член является обратным. То есть, нужно переместить пик $Q$, чтобы он совпал с пиком $\pi$. Это гораздо более сложная задача, потому что $Q$ является функцией как действия, так и политики, $Q_{\pi_\theta}(s, a)$. У нас явно нет этого в дифференцируемой форме, то есть у нас нет универсальной функции $Q$ в пространстве всех возможных $\pi$.

У нас теперь есть частичный градиент от первого члена, но нам еще нужно оценить второй член.

Оказывается, второй член можно рекурсивно записать исключительно в форме первого члена, но с последовательными действиями и состояниями.

$$
\nabla_\theta V_0 = \sum Q_0 \nabla_\theta \pi_0 + \sum Q_1 \nabla_\theta \pi_1 + \sum Q_2 \nabla_\theta \pi_2 + \dots
$$

То есть, чтобы получить хорошую политику, то есть градиент политики, нам нужно лишь переместить пики $\pi$, чтобы они совпали с пиками $Q$, не только для первого (состояние, действие), но и для всех последующих (состояние, действие). Это дает тот же результат, что и если бы мы дифференцировали через $Q$.

Ответ или решение

Политика градиента является одним из ключевых подходов в области обучения с подкреплением. Его основной задачей является нахождение градиента ожидаемого вознаграждения (reward) по отношению к параметрам политики. Давайте разберёмся, что это значит и как это работает, несмотря на непостоянство вознаграждения в зависимости от параметров политики.

Понимание теоремы градиента политики

Вознаграждение в контексте обучения с подкреплением называется не дифференцируемым по параметрам политики, поскольку оно зависит от результатов эпизодов, которые могут сильно варьироваться из-за стохастичности среды и поведения агента. Тем не менее, концепция градиента политики остаётся полезной, поскольку позволяет определить, как изменения в политике влияют на распределение вознаграждений.

Ожидаемое вознаграждение и его связь с политикой

Учитывая функцию значения ( V ), которая описывает, насколько хороша политика в данном состоянии, мы пытаемся найти её градиент:

[
\nabla_\theta V = \suma Q \nabla\theta \pi + \pi \nabla_\theta Q
]

Где:

  • ( Q ) – функция действия, отражающая качество конкретного действия ( a ) в состоянии ( s ), результатом выполнения которого будет вознаграждение.
  • ( \pi ) – политика, определяющая вероятность выбора действия.

Первый и второй термины

Первый термин в уравнении указывает на то, как следует изменять вероятность выбора действия пропорционально его качеству. Если действие приносит высокие вознаграждения, необходимо увеличить вероятность его выбора. Это действительно значит, что политика "стремится" к действиям с большим вознаграждением.

Второй термин труднее интерпретировать, так как он касается изменения функции действия ( Q ), которая зависит как от действий, так и от политики. Здесь мы сталкиваемся с проблемой: ( Q ) не может быть напрямую выражено в явном виде через общую форму, так как оно зависит от сложной динамики состояния и действий.

Рекурсивное представление второго термина

Тем не менее, оказывается, что второй термин можно переопределить с использованием первого, что позволяет учитывать и будущие состояния и действия:

[
\nabla_\theta V_0 = \sum Q0 \nabla\theta \pi_0 + \sum Q1 \nabla\theta \pi_1 + \sum Q2 \nabla\theta \pi_2 + \dots
]

Это указывает на то, что для достижения хорошей политики необходимо корректировать вероятности выбора действий таким образом, чтобы они совпадали с действиями, которые наилучшим образом приведут к высоким вознаграждениям, учитывая всю последовательность состояний и действий, а не только начальное состояние.

Заключение

Таким образом, несмотря на то, что вознаграждение кажется недифференцируемым по отношению к параметрам политики, концепция градиента политики позволяет нам находить разумные корректировки к политике через оценку ожидаемого вознаграждения и функцию действия. Эти корректировки направлены на то, чтобы политика могла строить свою стратегию на основе успешных действий, основываясь на всех аспектах задачи.

Используя этот подход, мы можем обходить ограничения из-за стохастичности порядка вознаграждений, создавая более надежные методы для обучения агентов с помощью градиента политики.

Оцените материал
Добавить комментарий

Капча загружается...