backpropagation
Data Science
Вопрос или проблема Я знаю, что BPTT — это метод применения обратного распространения к RNN. Он хорошо работает с RNN, так как останавливается в определённый момент, когда изменения приближаются к нулю. Но разве это не та же самая проблема исчезающего градиента?
Data Science
Вопрос или проблема Я работаю над реализацией метода Ньютона для выполнения градиентного спуска второго порядка в нейронной сети и испытываю трудности с вычислением производных второго порядка. Я понимаю, что на практике вычисление Гессиана (и его обратной
Data Science
Вопрос или проблема Я имею в виду, предположим, у меня есть мини-партия, я беру пример из нее и делаю для него следующее: Я выполняю прямое распространение. Используя выходные данные после прямого распространения, я рассчитываю градиенты параметров.
Data Science
Вопрос или проблема Во время моего стремления понять обратное распространение ошибки более строго я наткнулся на определение сигнала ошибки нейрона, которое определяется следующим образом для $j^{\text{th}}$ нейрона в $l^{\text{th}}$ слое: \begin{eqnarray}
Data Science
Вопрос или проблема Насколько важна функция потерь перекрестной энтропии (CEL), если при обратном распространении ошибки (BP) важны только вероятности Softmax (SM) и вектор one hot? При применении BP производная CEL – это разница между выходной
Data Science
Вопрос или проблема Я пытался понять значимость S-образной формы сигмоидной/логистической функции. Наклон/производная сигмоиды приближается к нулю для очень больших и очень маленьких значений входных данных. То есть $σ'(z) ≈ 0$ для $z >
Data Science
Вопрос или проблема Во время градиентного спуска, после того как ошибка передается от каждого нейрона к входному слою, она становится действительно высокой. Как мне это исправить? . Ответ или решение Чтобы ответить на вопрос о том, как предотвратить слишком
Data Science
Вопрос или проблема Я уже прочитал много статей на эту тему, и Градиентный спуск в свёрточных нейронных сетях от Jefkine кажется самым лучшим. Хотя, как сказал автор, Для простоты мы будем рассматривать случай, когда входное изображение является grayscale, т.
Data Science
Вопрос или проблема Я понимаю, что градиентный спуск является локальным и работает только с входными данными нейрона, тем, что он выводит, и тем, что он должен выводить. Во всем, что я видел, градиентный спуск требует, чтобы функция активации была дифференцируемой
Data Science
Вопрос или проблема В большинстве случаев все вероятно наоборот, но… Я реализовал базовую структуру многослойного перцептрона с обратным распространением. Мои данные представляют собой просто смещенную квадратную функцию с 100 образцами.
Data Science
Вопрос или проблема В онлайн-книге о нейронных сетях Майкла Нилсена, в главе 3, он вводит новую функцию стоимости, называемую функцией логарифмического правдоподобия, определенной следующим образом: $$ C = -ln(a_y^L) $$ Предположим, у нас есть 10 выходных
Data Science
Вопрос или проблема Я использую Pytorch исключительно для разработки своей модели, и вот составные части моей модели и как она работает: Генератор Кодировщик: предобученный, его обновление не должно производиться. Функция потерь.
Data Science
Вопрос или проблема Я наткнулся на крайне многомерный минимум, который не могу воспроизвести, сколько бы моделей я ни обучал. Проблема в том, что я прошел несколько эпох слишком далеко и переобучился на обучающих данных. Мои критерии ранней остановки
Data Science
Вопрос или проблема У меня есть некоторое представление о том, как будет работать обратное распространение для функции потерь, такой как: loss=summation(predicted-true)^2 Где predicted и true — векторы одинаковой длины и одна и та же операция применяется ко всем элементам.