Многослойный перцептрон не сходится.

Question 1

Я написал свой многослойный перцептрон на MATLAB, и он компилируется без ошибок. Мои обучающие данные, x, имеют значения от 1 до 360, а выходные данные, y, имеют значение $\sin(x)$.

Дело в том, что мой MLP уменьшает стоимость только в первые несколько итераций и затем застывает на уровне 0.5. Я пробовал использовать момент, но это не помогло, а увеличение слоев или увеличение нейронов вообще не дало результата. Я не понимаю, почему это происходит.

Я загрузил файлы для вашего ознакомления здесь.

Краткое содержание моего кода:

Я нормализую свои входные данные, используя либо min-max, либо zscore

Инициализирую случайные веса и смещение в диапазоне от -1 до 1

for i = 1:length(nodesateachlayer)-1    
 weights{i} = 2*rand(nodesateachlayer(i),nodesateachlayer(i+1))-1; 
 bias{i} = 2*rand(nodesateachlayer(i+1),1)-1; 
end

Затем я делаю прямой проход, где вход умножается на веса, добавляется смещение и затем активируется с помощью функции активации (сигмоиды)
```
for i = 2:length(nodesateachlayer)
     stored{i} = nactivate(bsxfun(@plus,(weights{i-1}'*stored{i-1}),bias{i-1}),activation);    
 end
```

Затем рассчитываю ошибку и выполняю обратный проход

dedp = 1/length(normy)*error;
 for i = length(stored)-1:-1:1
     dpds = derivative(stored{i+1},activation);
     deds = dpds'.*dedp;
     dedw = stored{i}*deds; 
     dedb = ones(1,rowno)*deds;
     dedp = (weights{i}*deds')';
     weights{i}=weights{i}-rate.*dedw;
     bias{i}=bsxfun(@minus,bias{i},rate.*dedb');
 end

Я выводил стоимость на каждой итерации, чтобы увидеть снижение

Я предполагаю, что в коде что-то не так, так где может находиться ошибка?

Question 2

Мое мнение по вашему вопросу заключается в том, что крошечные сети редко работают. Приведенный выше метод использует нейронную сеть для обучения функции $y=\sin(x)$. Хотя эта проблема кажется простой, нельзя ожидать, что она будет решена действительно крошечной сетью (вышеупомянутая модель использует 5-слойный MLP с скрытым размером [5,6,7], что мало).

Даже если обратное распространение реализовано правильно, будет ли модель чему-то учиться? Нет. Я предполагаю, что Tensorflow реализовал обратное распространение правильно, вот результат с использованием Tensorflow:

Видите, она почти не учится ничему. На самом деле, потери MSE очень близки к 0.5, как было указано выше.

Мое предложение — попробовать 3-слойный MLP с скрытым размером 256. Вот результат:

Вы можете видеть, что это намного лучше. Теперь MSE<0.1.

——————код———————

x_ =np.atleast_2d(np.arange(0,360,1)).T
y_ = np.atleast_2d(np.sin(x_/180*np.pi))
g = tf.Graph()
with g.as_default():
    with tf.variable_scope("mlp"):
        input_x = tf.placeholder(shape=[None, 1], dtype=tf.float32)
        input_y = tf.placeholder(shape=[None,1], dtype=tf.float32)
        layer1 = tf.layers.dense(inputs=input_x, units=256, activation=tf.nn.sigmoid)
        #layer2 = tf.layers.dense(inputs=input_x, units=6, activation=tf.nn.sigmoid)
        #layer3 = tf.layers.dense(inputs=input_x, units=7, activation=tf.nn.sigmoid)
        output_y = tf.layers.dense(inputs=layer1, units=1) # inputs=layer1
        loss = tf.losses.mean_squared_error(input_y, output_y)
        train_op = tf.train.AdagradOptimizer(0.01).minimize(loss)
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())
        for epoch in range(300):
            _, loss_ = sess.run((train_op, loss), feed_dict={input_x:x_, input_y:y_})
        y_hat_ = sess.run(output_y, feed_dict={input_x:x_, input_y:y_})
        print(loss_, end='\t')
plt.plot(x_,y_, 'g', x_,y_hat_,'b')
plt.legend(['ground truth', 'predicted'])

Многослойный перцептрон не сходится.

Вопрос или проблема

Ответ или решение

1. Поиск причин неполной сходимости

2. Метод обратного распространения ошибки

3. Параметры обучения

4. Нормализация данных

Заключение