backpropagation
Data Science
Вопрос или проблема Я пытаюсь реализовать нейронную сеть для бинарной классификации, используя только Python и numpy. Структура моей сети следующая: входные признаки: матрица 2 [1X2] Скрытый слой1: 5 нейронов [2X5] матрица Скрытый слой2: 5 нейронов [5X5]
Data Science
Вопрос или проблема Я совсем новичок в нейронных сетях и науке о данных в целом и хотел попробовать создать простую нейронную сеть на Python. Я пытался создать нейронную сеть с нуля, надеясь начать с той, которая может научиться рисовать линию регрессии.
Data Science
Вопрос или проблема Я написал простую нейронную сеть, которая работает аналогично многим примерам на C#, которые я видел в интернете. Она использует веса и смещения и может быть обучена с помощью обратного распространения ошибки.
Data Science
Вопрос или проблема Функция потерь для дискриминатора, которую необходимо максимизировать: -log(D(x)) + log(1-D(G(z))). Функция потерь для генератора, которую необходимо максимизировать: log(D(G(z))) Как будет выглядеть расчет градиента потерь по выходному значению дискриминатора?
Data Science
Вопрос или проблема Мои вопросы следуют за приведенным ниже отрывком со страницы 4 из статьи Хохрайтера о LSTM: Если $f_{l_{m}}$ – это логистическая сигмоида, то максимальное значение $f^\prime_{l_{m}}$ равно 0,25. Если $y^{l_{m-1}}$ постоянно и
Data Science
Вопрос или проблема Если я сделаю loss = loss/10 перед вычислением градиента, повлияет ли это на величину изменения, применяемого к параметрам модели во время обратного распространения? Или величина изменения зависит только от направления градиента и скорости обучения?
Data Science
Вопрос или проблема Я пытаюсь создать нейронную сеть, входными данными которой является массив 3D-векторов длины m $$\vec{x}_i = [x_{i,1},x_{i,2},x_{i,3}], \hspace{5mm}i=1:m $$ а выходными данными – массив аналогичного размера: $$\vec{h}_{\theta,i}
Data Science
Вопрос или проблема Я самостоятельно изучаю материалы курса глубокого обучения Эндрю НГ из курса машинного обучения (CS 229) Стэнфорда. Материалы доступны здесь. У меня есть вопрос о технике цепного правила, использованной для вывода шага обратного распространения
Data Science
Вопрос или проблема Я знаю, что BPTT — это метод применения обратного распространения к RNN. Он хорошо работает с RNN, так как останавливается в определённый момент, когда изменения приближаются к нулю. Но разве это не та же самая проблема исчезающего градиента?
Data Science
Вопрос или проблема Я работаю над реализацией метода Ньютона для выполнения градиентного спуска второго порядка в нейронной сети и испытываю трудности с вычислением производных второго порядка. Я понимаю, что на практике вычисление Гессиана (и его обратной
Data Science
Вопрос или проблема Я имею в виду, предположим, у меня есть мини-партия, я беру пример из нее и делаю для него следующее: Я выполняю прямое распространение. Используя выходные данные после прямого распространения, я рассчитываю градиенты параметров.
Data Science
Вопрос или проблема Во время моего стремления понять обратное распространение ошибки более строго я наткнулся на определение сигнала ошибки нейрона, которое определяется следующим образом для $j^{\text{th}}$ нейрона в $l^{\text{th}}$ слое: \begin{eqnarray}
Data Science
Вопрос или проблема Насколько важна функция потерь перекрестной энтропии (CEL), если при обратном распространении ошибки (BP) важны только вероятности Softmax (SM) и вектор one hot? При применении BP производная CEL – это разница между выходной
Data Science
Вопрос или проблема Я пытался понять значимость S-образной формы сигмоидной/логистической функции. Наклон/производная сигмоиды приближается к нулю для очень больших и очень маленьких значений входных данных. То есть $σ'(z) ≈ 0$ для $z >
Data Science
Вопрос или проблема Во время градиентного спуска, после того как ошибка передается от каждого нейрона к входному слою, она становится действительно высокой. Как мне это исправить? . Ответ или решение Чтобы ответить на вопрос о том, как предотвратить слишком
Data Science
Вопрос или проблема Я уже прочитал много статей на эту тему, и Градиентный спуск в свёрточных нейронных сетях от Jefkine кажется самым лучшим. Хотя, как сказал автор, Для простоты мы будем рассматривать случай, когда входное изображение является grayscale, т.
Data Science
Вопрос или проблема Я понимаю, что градиентный спуск является локальным и работает только с входными данными нейрона, тем, что он выводит, и тем, что он должен выводить. Во всем, что я видел, градиентный спуск требует, чтобы функция активации была дифференцируемой
Data Science
Вопрос или проблема В большинстве случаев все вероятно наоборот, но… Я реализовал базовую структуру многослойного перцептрона с обратным распространением. Мои данные представляют собой просто смещенную квадратную функцию с 100 образцами.
Data Science
Вопрос или проблема В онлайн-книге о нейронных сетях Майкла Нилсена, в главе 3, он вводит новую функцию стоимости, называемую функцией логарифмического правдоподобия, определенной следующим образом: $$ C = -ln(a_y^L) $$ Предположим, у нас есть 10 выходных
Data Science
Вопрос или проблема Я использую Pytorch исключительно для разработки своей модели, и вот составные части моей модели и как она работает: Генератор Кодировщик: предобученный, его обновление не должно производиться. Функция потерь.