Есть ли что-то неправильно в использовании session.run()?

Question

Я использую Tensorflow.net, Numsharp и TensorFlow.Keras в C# WinForms на .NET Framework 4.8 и пытаюсь создать нейронную сеть для обучения с подкреплением (Q-learning). Школа заставляет нас использовать WinForms, и это действительно больно.
В чем неправилен мой вызов session.run() в этом случае?

public void Train(NDArray currentState, int action, float reward, NDArray nextState, bool done)
{
    var graph = session.graph.as_default();

    simMenu.LogMessage($"Обучение начато с currentState: {currentState}, action: {action}, reward: {reward}, nextState: {nextState}, done: {done}");

    try
    {

        currentState = np.reshape(currentState, new int[] { 1, stateSize });
        currentState = currentState.astype(np.float32);


        // Получить Q-значения для текущего состояния
        var qValuesCurrent = session.run(output, new FeedItem(state, currentState));
        
        float currentQValue = qValuesCurrent.ToArray<float>()[action];

        // Получить Q-значения для следующего состояния
        nextState = np.reshape(nextState, new int[] { 1, stateSize });
        nextState = nextState.astype(np.float32);
        
        var qValuesNext = session.run(output, new FeedItem(state, nextState)); // здесь возникает ошибка
     
        float maxFutureQValue = np.max(qValuesNext.ToArray<float>());

        // Расчет целевого Q-значения
        float targetQValue = reward;
        if (!done)
        {
            targetQValue += discountFactor * maxFutureQValue;
        }

        // Обновление Q-значения с использованием формулы Q-обучения
        var qValuesArray = qValuesCurrent.ToArray<float>();
        qValuesArray[action] = currentQValue + learningRate * (targetQValue - currentQValue);
        var updatedQValues = np.array(qValuesArray).reshape(1, actionSize);

        // Обучение модели
        session.run(optimizer, new FeedItem(state, currentState), new FeedItem(qTarget, updatedQValues));
      
    }
    catch (Exception ex)
    {
        simMenu.LogMessage($"Произошла ошибка во время обучения: {ex.Message}");
        throw;
    }

При запуске ошибка выглядит просто так: System.NotImplementedException: ”, и лог-сообщения таковы:

Сессия и граф успешно инициализированы.
Обучение начато с currentState: [140.0723, 30.92329, 30.92329, 51.61395, 40.36087], action: 2, reward: 1, nextState: [140.1722, 30.92329, 30.92329, 51.61395, 40.50206], done: False Произошла ошибка во время обучения:

смотрите переменные в момент ошибки

Вся функция представлена здесь –

using NumSharp;
using Tensorflow;
using static Tensorflow.Binding;
using System;
using Coursework;

public class QLearningAgent
{
    private readonly int stateSize;        // Размер состояния
    private readonly int actionSize;       // Количество действий
    private readonly float learningRate;   // Скорость обучения
    private readonly float discountFactor = 0.99f; // Фактор скидки для будущих вознаграждений
    private readonly float explorationProbability; // Эпсилон для исследования
    private readonly Session session;      // Сессия TensorFlow
    private readonly Tensor state;         // Плейсхолдер для текущего состояния
    private readonly Tensor qTarget; // Плейсхолдер для целевых Q-значений
    private readonly SimMenu simMenu;

    private Tensor output;                 // Выходной слой для Q-значений
    private Operation optimizer;
    
    public QLearningAgent(int stateSize, int actionSize, float learningRate, SimMenu simMenu, float explorationProbability = 0.1f)
    {

        this.stateSize = stateSize;
        this.actionSize = actionSize;
        this.learningRate = learningRate;
        this.explorationProbability = explorationProbability;
        this.simMenu = simMenu;

        // Конструкция графа TensorFlow
        var graph = tf.Graph().as_default();

        // Инициализация сессии
        session = tf.Session(graph);
        session.run(tf.global_variables_initializer()); // session.run() работает нормально здесь

        this.state = tf.placeholder(tf.float32, shape: new int[] { -1, stateSize });
        this.qTarget = tf.placeholder(tf.float32, shape: new int[] { -1, actionSize });

        // Определение структуры нейронной сети
        var hidden = tf.keras.layers.Dense(24, activation: "relu").Apply(state); // Скрытый слой
        this.output = tf.keras.layers.Dense(actionSize, activation: "linear").Apply(hidden); // Выходной слой для Q-значений

        // Потеря и оптимизатор
        var loss = tf.reduce_mean(tf.square(output - qTarget));
        this.optimizer = tf.train.AdamOptimizer(learningRate).minimize(loss);

        simMenu.LogMessage("Сессия и граф успешно инициализированы.");
    }

    public int GetAction(NDArray currentState)
    {
        
        // Выбор действий с использованием метода ε-жадности
        if (new Random().NextDouble() < explorationProbability)
        {
            // Исследование: выбор случайного действия
            return new Random().Next(actionSize);
        }
        else
        {
            // Использование: выбор действия с наивысшим Q-значением

            var graph = session.graph.as_default();

            // Получить Q-значения для текущего состояния
            var feedDict = new FeedItem(state, currentState);
            var qValues = session.run(output, feedDict); // Session.run() тоже не работает здесь, однако она переходит к Train() перед GetAction()
            var qValuesArray = qValues.ToArray<float>(); // Преобразовать Tensorflow.NumPy.NDArray в массив float
            return np.argmax(np.array(qValuesArray)); // Вернуть индекс действия с наивысшим Q-значением

        }
    }

    public void Train(NDArray currentState, int action, float reward, NDArray nextState, bool done)
    {
        var graph = session.graph.as_default();

        simMenu.LogMessage($"Обучение начато с currentState: {currentState}, action: {action}, reward: {reward}, nextState: {nextState}, done: {done}");

        try
        {

            currentState = np.reshape(currentState, new int[] { 1, stateSize });
            currentState = currentState.astype(np.float32);


            // Получить Q-значения для текущего состояния
            var qValuesCurrent = session.run(output, new FeedItem(state, currentState));
            
            float currentQValue = qValuesCurrent.ToArray<float>()[action];

            // Получить Q-значения для следующего состояния
            nextState = np.reshape(nextState, new int[] { 1, stateSize });
            nextState = nextState.astype(np.float32);
            
            var qValuesNext = session.run(output, new FeedItem(state, nextState));
         
            float maxFutureQValue = np.max(qValuesNext.ToArray<float>());

            // Расчет целевого Q-значения
            float targetQValue = reward;
            if (!done)
            {
                targetQValue += discountFactor * maxFutureQValue;
            }

            // Обновление Q-значения с использованием формулы Q-обучения
            var qValuesArray = qValuesCurrent.ToArray<float>();
            qValuesArray[action] = currentQValue + learningRate * (targetQValue - currentQValue);
            var updatedQValues = np.array(qValuesArray).reshape(1, actionSize);

            // Обучение модели
            session.run(optimizer, new FeedItem(state, currentState), new FeedItem(qTarget, updatedQValues));
          
        }
        catch (Exception ex)
        {
            simMenu.LogMessage($"Произошла ошибка во время обучения: {ex.Message}");
            throw;
        }
    }
}

Я пытался проверить все типы и совместимость state и nextState, я также пытался изменить их размер, чтобы убедиться, что они являются NDArray одинаковой длины и типа. Это должно принимать 5 входов.

Мое описание проблемы может быть не лучшим или самым полным, так как это мой первый пост, спасибо, что нашли время прочитать. Если вам нужна дополнительная информация, просто спросите!

Есть ли что-то неправильно в использовании session.run()?

Вопрос или проблема

Ответ или решение

Проблема с использованием метода `session.run()` в TensorFlow.Net

1. Область графа

2. Подходящие размеры тензоров

3. Проверка тензора `qValuesNext`

4. Использование метода `numpy.max`

5. Логирование ошибок

Вывод

Есть ли что-то неправильно в использовании session.run()?

Вопрос или проблема

Ответ или решение

Проблема с использованием метода session.run() в TensorFlow.Net

1. Область графа

2. Подходящие размеры тензоров

3. Проверка тензора qValuesNext

4. Использование метода numpy.max

5. Логирование ошибок

Вывод

Проблема с использованием метода `session.run()` в TensorFlow.Net

3. Проверка тензора `qValuesNext`

4. Использование метода `numpy.max`