Целевая функция в модели вознаграждения в Vanilla RLHF является для меня неоднозначной.

Вопрос или проблема

Я пытаюсь изучить основу Vanilla RLHF. Мне сложно понять целевую функцию в модели награды. Она определяется

enter image description here

Если разность логарифмов сигмоиды разности стремится к минимизации, мы всегда должны иметь r(x,y1) > r(x,y2), в результате чего r(x,y1) будет большим числом по сравнению с r(x,y2). Но это не всегда так, что y1 предпочтительнее y2. Скорее всего, y2 предпочтительнее для лица, принимающего решение, чем y1. Кроме того, если наш набор данных таков, что y1 всегда предпочтительнее y2, это приводит к неправильному обучению. Я имею в виду, что модель учится предпочитать y1 в любом случае.

Есть еще одна непонятность для меня. Они проводят минимизацию всех измеримых функций r. Вопрос в том, учитываются ли все функции награды, достигнутые в конце каждой итерации (эпохи), чтобы найти минимизатор?

Я не знаю, прав ли я или ошибаюсь в интерпретации целевой функции.

Ответ или решение

Теория

Vanilla RLHF (Reinforcement Learning with Human Feedback) представляет собой довольно сложную концепцию, предполагающую интеграцию обратной связи человека в процесс обучения модели. Основной компонент заключается в использовании функции вознаграждения, которая указывает, насколько хорошо модель соответствует предпочитаемым действиям. Функция цели в модели вознаграждения, как правило, определяется логарифмом сигмоида разности вознаграждений для различных вариантов действий, что используется для минимизации нежелательных результатов.

Пример

Ваша неясность относительно функции цели обусловлена тем, что вы, вероятно, сталкиваетесь с ситуацией, когда требуется согласование модели с человеческими предпочтениями. Например, давайте рассмотрим задачу, в которой нужно выбрать между двумя действиями ( y_1 ) и ( y_2 ) для определённой ситуации ( x ). Функция вознаграждения ( r(x, y_i) ) определяет, насколько приемлемым является действие ( y_i ), а сигмоидальная функция служит для нормировки различий. Цель состоит в том, чтобы минимизировать разницу ( \log(\sigma(r(x, y_1) – r(x, y_2))) ), что означает, что ( r(x, y_1) ) должно быть больше ( r(x, y_2) ), если ( y_1 ) предпочитается.

Применение

Теперь перейдем к применению данных знаний. Важно понимать, что предположение, что всегда ( r(x, y_1) > r(x, y_2) ), неверно. RLHF настраивается в соответствии с доступным набором данных, и если этот набор данных неоднороден (например, если всегда предпочитается ( y_1 )), это, безусловно, исказит процесс обучения. Таким образом, необходимо обеспечить разнообразие данных для получения аналогичных выводов.

Что касается вашей второй неясности относительно всех измеряемых функций ( r ), задача не в том, чтобы рассмотреть все возможные функции вознаграждения на каждой итерации или эпохе. Вместо этого, на каждом шаге обучения модель корректируется для приближения к актуальной функции вознаграждения, руководствуясь обратной связью от человека.

Таким образом, для ясного понимания модели RLHF необходимо четко определить источники и разнообразие данных и понять необходимость сбалансированной подачи человеческой обратной связи. Это позволит модели более точно отражать реальные предпочтения и эффективнее использовать методику RLHF.

Оцените материал
Добавить комментарий

Капча загружается...