Глубокое Q-обучение: как установить Q-значение для невыбранных действий?

Question 1

Я изучаю глубокое Q-обучение, применяя его к реальной проблеме. Я ознакомился с несколькими учебниками и статьями, доступными в интернете, но не смог найти решение для следующего задания.

Предположим, у нас есть $N$ возможных действий в каждом состоянии. Когда мы находимся в состоянии $s$, мы делаем ход, выбирая действие $a_i, i=1\dots N$, в результате чего мы получаем вознаграждение $r$ и оказываемся в новом состоянии $s^\prime$. Чтобы обновить нейронную сеть с помощью этого опыта $(s, a, r, s^\prime)$, единственное истинное значение Q, которое у нас есть, относится к действию $a_i$. Другими словами, у нас нет никаких истинных значений Q для всех других возможных действий ($a_j, j=1\dots N, j\neq i$). Как же нам передать этот обучающий пример нейронной сети?

Вот варианты, о которых я думал:

Установить другие значения Q в состояние неопределенности. В этом случае мы не обновляем веса последнего скрытого слоя, который соединяется с выходными значениями всех $a_j$. Однако из-за взаимосвязей между более ранними слоями любое изменение весов повлияет на значения Q для $a_j$.
Установить другие значения Q в текущие предсказанные значения нейронной сети. Это делает ошибку для этих значений Q равной нулю, но, как и в предыдущем решении, изменение весов в конечном итоге повлияет на значения Q для $a_j$.
Использовать одну нейронную сеть для каждого возможного действия. Это кажется мне идеальным решением, но глубокое Q-обучение использует одну сеть для предсказания значений Q для всех возможных действий (независимо от того, что существуют две сети: одна для политики и вторая в качестве целевой).

Если кто-то с опытом и знаниями может помочь мне разобраться в этом, я буду очень благодарен.

Question 2

Рассмотрите эти два изображения простого алгоритма глубокого Q-обучения:

Посмотрите на шаги обновления градиента на обоих изображениях: мы берем градиент только по отношению к Q-значению одного действия, $a_i$. Сеть выдает $N$ узлов, но поскольку нас интересует только один из них, вы, вероятно, заметите, что все вычисления работают, так как истинные значения для других выходных узлов никогда не используются на этом шаге обновления градиента.

Надеюсь, это поможет.

Правка: смотря на ваше первое перечисленное решение, это правильно, но мне кажется, что вы не понимаете фактическое вычисление градиента. Если вы это разберетесь, истинные значения других узлов на самом деле не используются, потому что функция потерь написана только в терминах $i$го узла.

Глубокое Q-обучение: как установить Q-значение для невыбранных действий?

Вопрос или проблема

Ответ или решение

Обновление Q-значений в DQN

Ваши предложенные варианты

Заключение