Почему бы не использовать max(возвраты) вместо average(возвраты) в офф-политике контроля Монте-Карло?

Вопрос или проблема

Насколько я понимаю, в обучении с подкреплением контроль на основе отдаленных выборок методом Монте-Карло — это когда функция значений состояния-действия $Q(s,a)$ оценивается как средневзвешенное наблюдаемых вознаграждений.

Однако в Q-обучении значение $Q(s, a)$ оценивается как максимальное ожидаемое вознаграждение.

Почему это не используется в контроле на основе Монте-Карло?

Предположим, у меня есть простая 2-мерная игра в бридж, цель которой — добраться от a до b. Я могу двигаться влево, вправо, вверх или вниз. Пусть за достижение b дается вознаграждение +1, а в противном случае -1.

a|x|x|x|x|b

Если агент достигнет последнего x (например, используя политику ε-жадного выбора), а затем поднимется, чтобы получить вознаграждение -1. Затем в следующем эпизоде я снова достигну последнего x и пойду вправо, чтобы получить вознаграждение +1.

Почему я не обновил бы все шаги, ведущие к ‘b’, до +1, как бы я сделал в Q-обучении?

Я предполагаю, что окружение является детерминированным в данном случае, так что я не переоцениваю $Q(s,a)$ на основе маловероятного события.

Методы Монте-Карло могут быть инкрементальными в эпизодах, но не пошагово (онлайн). Термин Монте-Карло часто используется более широко для любого метода оценки, чья работа включает значительный элемент случайности. Он используется конкретно для методов, основанных на усреднении полных вознаграждений.

Очевидный способ оценить это из опыта — просто усреднить вознаграждения, наблюдаемые после посещения данного состояния. По мере наблюдения большего количества вознаграждений среднее должно сойтись к ожидаемому значению. Эта идея лежит в основе всех методов Монте-Карло.

Ответ или решение

Вопрос о том, почему в методах контроля завершения Монте-Карло не используется максимальное значение возвратов вместо среднего, имеет важное значение для понимания основ обучения с подкреплением. Давайте детально разберем эту проблему, опираясь на концепции и примеры.

### 1. Основные концепции

В обучении с подкреплением, контрольное значение функции состояния-действия \( Q(s, a) \) является основой для принятия решений агента. В то время как в методах Q-обучения используется максимальное ожидаемое значение, при оценке в методах Монте-Карло, значение обновляется как среднее всех наблюдаемых возвратов для данного состояния и действия.

#### Q-обучение:
– Использует формулу:
\[
Q(s, a) \leftarrow (1 – \alpha) Q(s, a) + \alpha \max_a Q(s’, a)
\]
– Причина использования максимума заключается в том, что это позволяет агенту быстро освоить наилучшие действия.

#### Методы Монте-Карло:
– Основаны на среднем значении всех возвратов после посещения определенного состояния \( s \) и действия \( a \):
\[
Q(s, a) \leftarrow Q(s, a) + \frac{1}{N(s,a)} \left(R – Q(s, a)\right)
\]
– При этом по мере увеличения числа эпизодов более надежно оцениваются ожидаемые долгосрочные результаты.

### 2. Почему не максимальное значение?

#### 2.1. Проблемы переоценки

Если использовать максимальное значение возвратов, это может привести к переоценке действительных качеств действий, особенно в условиях стохастичности. Для данного примера с “мостом”, при использовании максимума, агент может ошибочно полагать, что одно конкретное действие всегда дает лучший результат, несмотря на наличие других, более надежных опций.

#### 2.2. Закон больших чисел

Методы Монте-Карло полагаются на закон больших чисел, согласно которому среднее значение большого числа наблюдений приближается к истинному ожидаемому значению. Использование среднего возврата позволяет избежать неоправданных предположений, основанных на единичных успешных или неудачных эпизодах.

### 3. Пример с игрой на мосту

В вашем примере, если агент достиг точки ‘x’ и затем поднялся, получив -1, а в последующем эпизоде достиг точки ‘b’ и получил +1, использование среднего возврата позволяет корректно учитывать оба результата.

– Если бы вы использовали максимум, в первом эпизоде значение могло бы значительно повыситься, когда агент достигнет ‘b’, однако это не отражало бы реальный риск, связанный с движением.

### 4. Заключение

Использование максимального значения в методах Монте-Карло неприемлемо, так как это подрывает основу случайных выборов и приводит к переоценке. Среднее значение более точно отражает ожидаемую ценность, позволяя избежать неоправданных предположений и учитывая множество факторов, влияющих на результат.

Таким образом, для более стабильного и надежного обучения в условиях неопределенности и разнообразия, методы контроля завершения Монте-Карло опираются на использование среднего результата наблюдаемых возвратов, что в конечном итоге способствует более качественному обучению агента.

Оцените материал
Добавить комментарий

Капча загружается...