Функция потерь Policy Gradient не работает

Вопрос или проблема

Я экспериментировал со своим алгоритмом обучения с подкреплением на основе градиента политики и задавался вопросом, могу ли я использовать аналогичный метод контролируемой кросс-энтропии. Таким образом, вместо использования существующих меток я бы генерировал метку для каждого шага в траектории.

В зависимости от значения действия я бы смещал выход стохастической политики (нейронная сеть) к более эффективному выходу и обучал его в качестве метки для функции потерь кросс-энтропии.

Пример действия:
Реальный выход: [ 0.2, 0.8 ]; Значение: [ -0.5 ]; Принятое действие: [ 1 ] (вероятность 0.8).
Созданная метка: [ 0.3, 0.7 ] (второе действие не такое хорошее, немного уменьшить его вероятность)

Мой метод не сработал, и мне действительно любопытно узнать, почему.

Может быть много причин. Кастомные функции потерь сложно сделать правильно.

Одна из концептуальных проблем заключается в том, что политика агента не должна быть меткой. Метка должна быть сигналом вознаграждения из окружающей среды. Если метка — это сигнал вознаграждения из окружающей среды, агент будет учиться, какая политика максимизирует вознаграждения. Если политика агента является вознаграждением, агент будет “гоняться за своим хвостом” и не будет учиться на вознаграждениях окружающей среды.

Ответ или решение

Вопрос о том, почему кастомная функция потерь для алгоритмов обучения с подкреплением на основе градиента политики не работает, имеет множество аспектов, требующих внимания.

### 1. Концептуальные проблемы

Одна из основных концептуальных проблем заключается в том, что политика агента не должна быть «меткой». В контексте обучения с подкреплением, меткой служит сигнал вознаграждения от среды. Если ваша модель обучения будет определять свою собственную метку, это приведет к созданию замкнутого цикла, где агент будет «гнаться за своим собственным хвостом», не извлекая полезной информации о вознаграждениях от среды.

### 2. Структура функции потерь

Функция потерь в вашем случае, вероятно, не отражает важности характерного поведения агента извлечения полезных сигналов. Важно помнить, что цель обучения с подкреплением — максимизация долгосрочного вознаграждения. Если вы создаете метки на основе текущих действий, ваш агент может начать зацикливаться на своей текущей стратегии, игнорируя более длительные вознаграждения.

### 3. Качество generated labels

Когда вы создаете метку, сдвигая вероятности в сторону «более эффективного» результата (например, [0.3, 0.7]), вы не учитываете контекст окружающей среды и динамику вознаграждений. Это может привести к неверным обновлениям политического дистрибутива, так как ваше подстраивание не основано на действительно полученном сигнале вознаграждения.

### 4. Эффективность обучения

Использование кросс-энтропийной функции потерь похоже на подход с воспитанием, но в контексте изучения политик важно помнить, что новые вероятности должны быть скорректированы на основе итогового вознаграждения, а не просто на основе измененных вероятностей действий. Ваша попытка наладить более «умную» политику может привести к тому, что агент будет уязвим к локальным минимумам, которые не обязательно соответствуют глобальным оптимальным стратегиям.

### 5. Коррекция обучения

Вместо того чтобы интерпретировать «реальные» действия как метки для обучения, рассмотрите возможность использования стандартной функции потерь, основанной на вознаграждении, и добавления улучшений, исходя из анализа прошлых действий и вознаграждений. Это можно сделать с использованием более традиционных методов обучения с подкреплением, таких как метод оптимизации на основе градиентов или алгоритмы на основе ценности.

### Заключение

Если вы хотите улучшить вашу политику, основанную на переопределении вероятностей действий, следует обратить внимание на подходы, приближающиеся к изучению состояния и оценке долгосрочных вознаграждений. Это позволит избежать большого числа подводных камней и обеспечит устойчивое и долгосрочное обучение вашего агента. Важно помнить, что ориентация на окружающую среду и ее вознаграждения является ключом к успешному обучению в контексте методов на основе градиента политики.

Оцените материал
Добавить комментарий

Капча загружается...