Вопрос или проблема
Я экспериментировал со своим алгоритмом обучения с подкреплением на основе градиента политики и задавался вопросом, могу ли я использовать аналогичный метод контролируемой кросс-энтропии. Таким образом, вместо использования существующих меток я бы генерировал метку для каждого шага в траектории.
В зависимости от значения действия я бы смещал выход стохастической политики (нейронная сеть) к более эффективному выходу и обучал его в качестве метки для функции потерь кросс-энтропии.
Пример действия:
Реальный выход: [ 0.2, 0.8 ]; Значение: [ -0.5 ]; Принятое действие: [ 1 ] (вероятность 0.8).
Созданная метка: [ 0.3, 0.7 ] (второе действие не такое хорошее, немного уменьшить его вероятность)
Мой метод не сработал, и мне действительно любопытно узнать, почему.
Может быть много причин. Кастомные функции потерь сложно сделать правильно.
Одна из концептуальных проблем заключается в том, что политика агента не должна быть меткой. Метка должна быть сигналом вознаграждения из окружающей среды. Если метка — это сигнал вознаграждения из окружающей среды, агент будет учиться, какая политика максимизирует вознаграждения. Если политика агента является вознаграждением, агент будет “гоняться за своим хвостом” и не будет учиться на вознаграждениях окружающей среды.
Ответ или решение
Вопрос о том, почему кастомная функция потерь для алгоритмов обучения с подкреплением на основе градиента политики не работает, имеет множество аспектов, требующих внимания.
### 1. Концептуальные проблемы
Одна из основных концептуальных проблем заключается в том, что политика агента не должна быть «меткой». В контексте обучения с подкреплением, меткой служит сигнал вознаграждения от среды. Если ваша модель обучения будет определять свою собственную метку, это приведет к созданию замкнутого цикла, где агент будет «гнаться за своим собственным хвостом», не извлекая полезной информации о вознаграждениях от среды.
### 2. Структура функции потерь
Функция потерь в вашем случае, вероятно, не отражает важности характерного поведения агента извлечения полезных сигналов. Важно помнить, что цель обучения с подкреплением — максимизация долгосрочного вознаграждения. Если вы создаете метки на основе текущих действий, ваш агент может начать зацикливаться на своей текущей стратегии, игнорируя более длительные вознаграждения.
### 3. Качество generated labels
Когда вы создаете метку, сдвигая вероятности в сторону «более эффективного» результата (например, [0.3, 0.7]), вы не учитываете контекст окружающей среды и динамику вознаграждений. Это может привести к неверным обновлениям политического дистрибутива, так как ваше подстраивание не основано на действительно полученном сигнале вознаграждения.
### 4. Эффективность обучения
Использование кросс-энтропийной функции потерь похоже на подход с воспитанием, но в контексте изучения политик важно помнить, что новые вероятности должны быть скорректированы на основе итогового вознаграждения, а не просто на основе измененных вероятностей действий. Ваша попытка наладить более «умную» политику может привести к тому, что агент будет уязвим к локальным минимумам, которые не обязательно соответствуют глобальным оптимальным стратегиям.
### 5. Коррекция обучения
Вместо того чтобы интерпретировать «реальные» действия как метки для обучения, рассмотрите возможность использования стандартной функции потерь, основанной на вознаграждении, и добавления улучшений, исходя из анализа прошлых действий и вознаграждений. Это можно сделать с использованием более традиционных методов обучения с подкреплением, таких как метод оптимизации на основе градиентов или алгоритмы на основе ценности.
### Заключение
Если вы хотите улучшить вашу политику, основанную на переопределении вероятностей действий, следует обратить внимание на подходы, приближающиеся к изучению состояния и оценке долгосрочных вознаграждений. Это позволит избежать большого числа подводных камней и обеспечит устойчивое и долгосрочное обучение вашего агента. Важно помнить, что ориентация на окружающую среду и ее вознаграждения является ключом к успешному обучению в контексте методов на основе градиента политики.