gradient-descent
Data Science
Вопрос или проблема Спуск по градиенту в $n$ измерениях. Я изучаю спуск по градиенту, и в видео на YouTube и книгах показывается только 2D-кривая, где наклон падает до минимума кривой. Мой вопрос: идет ли наклон вниз по многомерной кривой, когда характеристики набора данных > 3?
Data Science
Вопрос или проблема Я работаю над реализацией метода Ньютона для выполнения градиентного спуска второго порядка в нейронной сети и испытываю трудности с вычислением производных второго порядка. Я понимаю, что на практике вычисление Гессиана (и его обратной
Data Science
Вопрос или проблема Я имею в виду, предположим, у меня есть мини-партия, я беру пример из нее и делаю для него следующее: Я выполняю прямое распространение. Используя выходные данные после прямого распространения, я рассчитываю градиенты параметров.
Data Science
Вопрос или проблема Я работал над проектом, связанным с COVID-19. Вот вопрос: N = вектор новых ежедневно выявленных случаев заражения D = вектор ежедневных смертей E[D] = оценка ежедневных смертей N — это n-мерный вектор, n составляет около 60.
Data Science
Вопрос или проблема Я довольно нов в МЛ и начинал с линейной регрессии, сочетая её с градиентным спуском. Вот уравнение, к которому я пытался прийти, используя JavaScript – А вот что у меня получилось на JS – function algorithmify(){ let sumHDiff=hypotheses();
Data Science
Вопрос или проблема Предположим, у меня есть $f:\mathbb{R}^{d_i}\to\mathbb{R}^{d_o}$. Пусть $X \in \mathbb{R}^{n \times d_i}$, и я применяю $f$ к каждой строке $X$, получая $Y = f(X) \in \mathbb{R}^{n \times d_o}$. Я хотел бы вычислить тензор $Z$, который
Data Science
Вопрос или проблема Формула обновления для Adagrad следующая: \begin{equation} w^i(t)=w^i(t-1) -\frac{\eta}{\sqrt{\epsilon +\sum_{1}^t |\nabla_i\mathcal{L}|^2} } \nabla_i\mathcal{L} \end{equation} Это указывает на то, что если накопленный градиент велик
Data Science
Вопрос или проблема Я пытаюсь понять суть концепций “проблема исчезающего градиента и взрывающегося градиента” с точки зрения реальных примеров ввода-вывода, а не относительно свойств выбора функции активации. Не может ли кто посоветовать
Data Science
Вопрос или проблема Я работаю с RaggedTensors для манипуляции плотным тензором. Что-то вроде этого : out_left = tf.ragged.boolean_mask(input, index) index = tf.math.logical_not(index) out_right = tf.ragged.boolean_mask(input, index) reconstruced_tensor = tf.
Data Science
Вопрос или проблема Я пытался понять значимость S-образной формы сигмоидной/логистической функции. Наклон/производная сигмоиды приближается к нулю для очень больших и очень маленьких значений входных данных. То есть $σ'(z) ≈ 0$ для $z >
Data Science
Вопрос или проблема У меня есть функция потерь с $\mu ,p, o, u, v$ в качестве переменных, а $\sigma$ является логистической функцией. Мне нужно вывести эту функцию потерь. Из-за множества переменных в функции потерь мне нужно использовать функцию softmax
Data Science
Вопрос или проблема Насколько я знаю, мини-батчи могут использоваться для снижения дисперсии градиента, но я также рассматриваю, можем ли мы достичь того же результата, если мы будем использовать уменьшающийся размер шага и только один образец на каждой итерации?
Data Science
Вопрос или проблема Говорят, что обратное распространение ошибки с градиентным спуском стремится минимизировать функцию затрат, используя формулу: $$ W_{new} = W_{old} – learningRate \cdot \frac{\partial E}{\partial W} $$ Мой вопрос: если производная
Вопросы и ответы
Вопрос или проблема В моем проекте по машинному обучению мне нужно адаптировать определенную функцию f, где в моем наборе данных я знаю только СУММУ оценок f, например, в этом случае: f(a1,b1,c1) + f(a2,b2,c2) + … = S Я знаю только сумму S, поэтому я
Data Science
Вопрос или проблема Я сгенерировал 3 параметра вместе с функцией стоимости. У меня есть списки $\theta$ и список стоимости из 100 значений за 100 итераций. Я хотел бы построить последние 2 параметра относительно стоимости в 3D, чтобы визуализировать уровень
Data Science
Вопрос или проблема Насколько мне известно, в обратном распространении ошибка или градиент используются для обновления весов. В обратном распространении веса становятся небольшими относительно градиентов, что приводит к проблеме исчезающих градиентов.
Data Science
Вопрос или проблема Я пытаюсь полностью понять, почему проблемы исчезающего и взрывающегося градиентов так вредны для обучения глубоких нейронных сетей. Я понимаю, что эти проблемы приводят к тому, что некоторые веса имеют очень маленькие градиенты (исчезающий