Data Science
Обратное распространение на матрице весов
00
Вопрос или проблема Я пытаюсь реализовать нейронную сеть для бинарной классификации, используя только Python и numpy. Структура моей сети следующая: входные признаки: матрица 2 [1X2] Скрытый слой1: 5 нейронов [2X5] матрица Скрытый слой2: 5 нейронов [5X5]
Data Science
Нейронная сеть не обучается, когда предоставлено более одной обучающей выборки.
00
Вопрос или проблема Я совсем новичок в нейронных сетях и науке о данных в целом и хотел попробовать создать простую нейронную сеть на Python. Я пытался создать нейронную сеть с нуля, надеясь начать с той, которая может научиться рисовать линию регрессии.
Data Science
Может ли простая нейронная сеть предсказать вывод 0 или 1, смотря только на последний ввод?
00
Вопрос или проблема Я написал простую нейронную сеть, которая работает аналогично многим примерам на C#, которые я видел в интернете. Она использует веса и смещения и может быть обучена с помощью обратного распространения ошибки.
Data Science
Расчет градиента выхода GAN
00
Вопрос или проблема Функция потерь для дискриминатора, которую необходимо максимизировать: -log(D(x)) + log(1-D(G(z))). Функция потерь для генератора, которую необходимо максимизировать: log(D(G(z))) Как будет выглядеть расчет градиента потерь по выходному значению дискриминатора?
Data Science
Максимальные значения производной логистической сигмоиды, умноженной на вес
00
Вопрос или проблема Мои вопросы следуют за приведенным ниже отрывком со страницы 4 из статьи Хохрайтера о LSTM: Если $f_{l_{m}}$ – это логистическая сигмоида, то максимальное значение $f^\prime_{l_{m}}$ равно 0,25. Если $y^{l_{m-1}}$ постоянно и
Data Science
Снижает ли уменьшение потерь величину изменения во время обратного распространения?
00
Вопрос или проблема Если я сделаю loss = loss/10 перед вычислением градиента, повлияет ли это на величину изменения, применяемого к параметрам модели во время обратного распространения? Или величина изменения зависит только от направления градиента и скорости обучения?
Data Science
Обратное распространение с тренировочным набором другого размера?
00
Вопрос или проблема Я пытаюсь создать нейронную сеть, входными данными которой является массив 3D-векторов длины m $$\vec{x}_i = [x_{i,1},x_{i,2},x_{i,3}], \hspace{5mm}i=1:m $$ а выходными данными – массив аналогичного размера: $$\vec{h}_{\theta,i}
Data Science
(Глубокое обучение) Производная обратного распространения из заметок Эндрю НГ
00
Вопрос или проблема Я самостоятельно изучаю материалы курса глубокого обучения Эндрю НГ из курса машинного обучения (CS 229) Стэнфорда. Материалы доступны здесь. У меня есть вопрос о технике цепного правила, использованной для вывода шага обратного распространения
Data Science
BPTT против проблемы исчезающего градиента
00
Вопрос или проблема Я знаю, что BPTT — это метод применения обратного распространения к RNN. Он хорошо работает с RNN, так как останавливается в определённый момент, когда изменения приближаются к нулю. Но разве это не та же самая проблема исчезающего градиента?
Data Science
Почему производные второго порядка функции потерь ненулевые, когда задействованы линейные комбинации?
00
Вопрос или проблема Я работаю над реализацией метода Ньютона для выполнения градиентного спуска второго порядка в нейронной сети и испытываю трудности с вычислением производных второго порядка. Я понимаю, что на практике вычисление Гессиана (и его обратной
Data Science
Как именно работает метод мини-батчей?
00
Вопрос или проблема Я имею в виду, предположим, у меня есть мини-партия, я беру пример из нее и делаю для него следующее: Я выполняю прямое распространение. Используя выходные данные после прямого распространения, я рассчитываю градиенты параметров.
Data Science
Обратное распространение: Значение сигнала ошибки нейрона
00
Вопрос или проблема Во время моего стремления понять обратное распространение ошибки более строго я наткнулся на определение сигнала ошибки нейрона, которое определяется следующим образом для $j^{\text{th}}$ нейрона в $l^{\text{th}}$ слое: \begin{eqnarray}
Data Science
Кросс-энтропийная потеря вообще важна, потому что при обратном распространении важны только вероятности Softmax и вектор one hot?
00
Вопрос или проблема Насколько важна функция потерь перекрестной энтропии (CEL), если при обратном распространении ошибки (BP) важны только вероятности Softmax (SM) и вектор one hot? При применении BP производная CEL – это разница между выходной
Data Science
Понимание интуиции, лежащей в основе сигмоидной кривой в контексте обратного распространения.
00
Вопрос или проблема Я пытался понять значимость S-образной формы сигмоидной/логистической функции. Наклон/производная сигмоиды приближается к нулю для очень больших и очень маленьких значений входных данных. То есть $σ'(z) ≈ 0$ для $z >
Data Science
Держите градиент ошибки на уровне входов не слишком высоким
00
Вопрос или проблема Во время градиентного спуска, после того как ошибка передается от каждого нейрона к входному слою, она становится действительно высокой. Как мне это исправить? . Ответ или решение Чтобы ответить на вопрос о том, как предотвратить слишком
Data Science
Обратное распространение ошибки сверточной нейронной сети – путаница
00
Вопрос или проблема Я уже прочитал много статей на эту тему, и Градиентный спуск в свёрточных нейронных сетях от Jefkine кажется самым лучшим. Хотя, как сказал автор, Для простоты мы будем рассматривать случай, когда входное изображение является grayscale, т.
Data Science
Обратное распространение с функцией активации шага или порога
00
Вопрос или проблема Я понимаю, что градиентный спуск является локальным и работает только с входными данными нейрона, тем, что он выводит, и тем, что он должен выводить. Во всем, что я видел, градиентный спуск требует, чтобы функция активации была дифференцируемой
Data Science
Моя собственная нейронная сеть сходится, но модель Keras – нет.
02
Вопрос или проблема В большинстве случаев все вероятно наоборот, но… Я реализовал базовую структуру многослойного перцептрона с обратным распространением. Мои данные представляют собой просто смещенную квадратную функцию с 100 образцами.
Data Science
Метод обратного распространения с функцией стоимости логарифмического правдоподобия и активацией softmax
00
Вопрос или проблема В онлайн-книге о нейронных сетях Майкла Нилсена, в главе 3, он вводит новую функцию стоимости, называемую функцией логарифмического правдоподобия, определенной следующим образом: $$ C = -ln(a_y^L) $$ Предположим, у нас есть 10 выходных
Data Science
Как предотвратить обновление предобученной модели, если модель оптимизирована с помощью обратного распространения в Pytorch?
00
Вопрос или проблема Я использую Pytorch исключительно для разработки своей модели, и вот составные части моей модели и как она работает: Генератор Кодировщик: предобученный, его обновление не должно производиться. Функция потерь.