Метод обратного распространения с функцией стоимости логарифмического правдоподобия и активацией softmax

Question 1

В онлайн-книге о нейронных сетях Майкла Нилсена, в главе 3, он вводит новую функцию стоимости, называемую функцией логарифмического правдоподобия, определенной следующим образом:
$$ C = -ln(a_y^L) $$
Предположим, у нас есть 10 выходных нейронов, когда происходит обратное распространение ошибки, только градиент относительно $y^{th}$ выходного нейрона не равен нулю, а все остальные – равны нулю. Это так?

Если так, то как истинно следующее уравнение (81)?
$$\frac{\partial C}{\partial b_j^L} = a_j^L – y_j $$
Я получаю выражение как
$$\frac{\partial C}{\partial b_j^L} = y_j (a_j^L – 1) $$

Question 2

Нет, на самом деле вы не совсем поняли, как работает softmax; он выдает распределение вероятностей. Следовательно, если есть 10 выходных нейронов, вы получите 10 вероятностей для 10 соответствующих классов, то есть нейрон с наибольшей вероятностью будет более активен, и ни один из выходных нейронов не будет давать 0 на выходе; именно это и делает softmax — он берет экспоненциальное среднее для каждого класса, чтобы получить распределение вероятностей по k различным классам, где k=10. Теперь, как вы сказали, предположим, что у вас есть 10 выходных нейронов. Тогда, когда вы выполняете обратное распространение ошибки, только градиент относительно y-ого выходного нейрона не равен нулю, а все остальные равны нулю, это неправильно. Если вы посмотрите, функция ошибки или стоимость вычисляется следующим образом, когда есть несколько нейронов:

Теперь, как вы можете видеть, стоимость вычисляется по всем выходным нейронам для всех учебных примеров в пакете размером ‘n’. Следовательно, когда вы выполняете обратное распространение, то есть когда вы вычисляете “dc/dw” и “dc/db”, это включает выходы всех выходных нейронов, и ваше утверждение неверно, потому что если градиенты других выходных нейронов равны 0, как тогда ваше обратное распространение обновит их весовые матрицы? Я знаю, что это сбивает с толку, но если вы прочитаете его главу 2, вы должны понять это. Я использовал кросс-энтропию, чтобы объяснить вам это, но тот же метод будет работать для любой функции стоимости, которую вы выберете.

Что касается вывода, он довольно прост; просто вернитесь и изучите его главу 2, все четыре уравнения BP1, BP2, BP3, BP4 и поймите их вывод. Это займет некоторое время, но будет легко, как только вы поймете природу составной функции нейронных сетей и как дифференцировать составные функции, используя правило цепи.

Метод обратного распространения с функцией стоимости логарифмического правдоподобия и активацией softmax

Вопрос или проблема

Ответ или решение