Как найти оптимальные признаки и награды, чтобы глубокое обучение ИИ на основе метода перекрестной энтропии хорошо обучалось?

Question

Я новичок в программировании, но мне удалось создать небольшую игру в пинг-понг. Для моих учебных занятий мне нужно было понять ИИ, который решал задачу среды Lunar-Lander-V2 с использованием API Gymnasium. ИИ использовал глубокое обучение и метод кросс-энропии. Это было написано на pytorch.

У меня возникла идея поместить этот ИИ в мою игру в пинг-понг, чтобы управлять одной из ракеток. Насколько я понимаю, это сработало хорошо. Проблема в том, что программа не обучается.

Краткое описание игры в пинг-понг: она состоит из двух ракеток (прямоугольников) на обеих сторонах экрана и одного мяча, который случайным образом движется в одном направлении. Мяч отскакивает от ракеток и направляется в другую сторону. Цель – завести мяч за ракетку с противоположной стороны, чтобы забить гол.

В моей игре мяч ускоряется каждый раз, когда его ударяет ракетка. Из-за этого ракетки также ускоряются, если одно действие (вверх, вниз) выполняется несколько раз подряд. Это позволяет игроку все равно попадать по мячу, если он ускоряется.

Я изменил правую ракетку на прямоугольник, который покрывает всю правую сторону. Таким образом, случайное движение мяча не приводит к случайным голам для левой стороны, которую контролирует ИИ. Моей мыслью было, что, таким образом, ИИ “только” нужно научиться следовать за мячом с помощью ракетки, чтобы его отбить. Чтобы добиться этого, я ввел несколько вознаграждений. Я немного поэкспериментировал с функциями и вознаграждениями, но результаты всегда были довольно плохими.

Вот мой последний эксперимент: сначала только удар приносит 50 очков, а пропуск гола отнимает 30 очков. Также есть динамическое вознаграждение, которое увеличивается по мере удаления мяча от центра ракетки. Оно будет вычитаться из общего вознаграждения. Движение ракетки вверх или вниз также приносит небольшое вознаграждение. В конце я добавил еще одно вознаграждение, которое добавляет один балл к вознаграждению за каждый кадр, после первых 100 (чтобы не учитывать позицию появления мяча), в котором y-позиция мяча находится между верхним и нижним концами ракетки.

Кроме того, я предоставил ИИ 5 функций.

Позиция y ракетки
Позиция y мяча
Скорость ракетки
Информация о том, находится ли мяч на одной высоте по оси y с какой-либо точкой на поверхности ракетки в виде булевой переменной
Информация о том, попал ли мяч в ракетку, в виде булевой переменной

Как бы то ни было, в итоге среднее вознаграждение за пакет из 1000 игр всегда было около -200, а порог (верхние 98 %, надеясь на лучшие результаты,…) системы находился между -30 и -100 баллов. Это были результаты после 1000 эпизодов. (В моей голове должно быть возможно получить достаточно положительное вознаграждение за один удар и движение ракетки, чтобы превысить отрицательное вознаграждение от динамического расстояния и пропущенного гола. Но похоже, что так не работает…)

Я использую оптимизатор Adam и скорость обучения 0,01. Я разделил все функции на фиксированное число. (нормализовал их вокруг нуля). Это позволило ИИ выбирать следующую акцию с нормальными вероятностями. Действия: 0, 1, 2, где 0 = стоять на месте, 1 = вверх, 2 = вниз.

Мои основные вопросы, надеюсь, что это решит все проблемы =P :

Достаточно ли хорошие вознаграждения и функции, которые я даю ИИ, чтобы он мог обучаться?
Если нет, как найти хорошие? Есть ли способ?
Может, я что-то упустил? (Я в этом почти уверен (; )

Спасибо за ваше время. Надеясь на хорошие новости, К

Как найти оптимальные признаки и награды, чтобы глубокое обучение ИИ на основе метода перекрестной энтропии хорошо обучалось?

Вопрос или проблема

Ответ или решение

Теория

Пример

Применение