Data Science
Почему потери MSE и кросс-энтропии имеют одинаковый градиент?
00
Вопрос или проблема Я студент по специальности анализ данных, и когда я учился выводить функцию потерь логистической регрессии (потери кросс-энтропии), я обнаружил, что градиент совершенно идентичен градиенту методом наименьших квадратов для линейной
Data Science
Интуитивное объяснение представления градиента в более высоких измерениях
00
Вопрос или проблема Я не понимаю, как сложные сети с множеством параметров/размерностей могут быть представлены в 3D пространстве и формировать стандартную поверхность затрат, так же как простая сеть с, скажем, 2 параметрами. Например, сеть с 2 параметрами
Data Science
Вычисляйте градиенты параллельно
00
Вопрос или проблема Вот часть моего кода: class SimpleNet(nn.Module): def __init__(self): super().__init__() self.linear1 = nn.Linear(2, 1, bias=False) self.linear2 = nn.Linear(1, 2, bias=False) def forward(self, x): z = self.
Data Science
Градиентный спуск сильно расходится.
00
Вопрос или проблема Я вручную создал случайный набор данных вокруг некоторого среднего значения и попытался использовать градиентный спуск для линейной регрессии, чтобы предсказать это простое среднее значение. Я сделал точно так же, как в руководстве
Data Science
градиентный спуск в n измерениях
00
Вопрос или проблема Спуск по градиенту в $n$ измерениях. Я изучаю спуск по градиенту, и в видео на YouTube и книгах показывается только 2D-кривая, где наклон падает до минимума кривой. Мой вопрос: идет ли наклон вниз по многомерной кривой, когда характеристики набора данных > 3?
Data Science
Почему производные второго порядка функции потерь ненулевые, когда задействованы линейные комбинации?
00
Вопрос или проблема Я работаю над реализацией метода Ньютона для выполнения градиентного спуска второго порядка в нейронной сети и испытываю трудности с вычислением производных второго порядка. Я понимаю, что на практике вычисление Гессиана (и его обратной
Data Science
Как именно работает метод мини-батчей?
00
Вопрос или проблема Я имею в виду, предположим, у меня есть мини-партия, я беру пример из нее и делаю для него следующее: Я выполняю прямое распространение. Используя выходные данные после прямого распространения, я рассчитываю градиенты параметров.
Data Science
Поиск вектора, который минимизирует среднеквадратичную ошибку его линейной комбинации
00
Вопрос или проблема Я работал над проектом, связанным с COVID-19. Вот вопрос: N = вектор новых ежедневно выявленных случаев заражения D = вектор ежедневных смертей E[D] = оценка ежедневных смертей N — это n-мерный вектор, n составляет около 60.
Data Science
Уравнения линейной регрессии и градиентного спуска
00
Вопрос или проблема Я довольно нов в МЛ и начинал с линейной регрессии, сочетая её с градиентным спуском. Вот уравнение, к которому я пытался прийти, используя JavaScript – А вот что у меня получилось на JS – function algorithmify(){ let sumHDiff=hypotheses();
Data Science
Якобиан по строкам с pytorch
00
Вопрос или проблема Предположим, у меня есть $f:\mathbb{R}^{d_i}\to\mathbb{R}^{d_o}$. Пусть $X \in \mathbb{R}^{n \times d_i}$, и я применяю $f$ к каждой строке $X$, получая $Y = f(X) \in \mathbb{R}^{n \times d_o}$. Я хотел бы вычислить тензор $Z$, который
Data Science
AdaGrad: Интуиция
00
Вопрос или проблема Формула обновления для Adagrad следующая: \begin{equation} w^i(t)=w^i(t-1) -\frac{\eta}{\sqrt{\epsilon +\sum_{1}^t |\nabla_i\mathcal{L}|^2} } \nabla_i\mathcal{L} \end{equation} Это указывает на то, что если накопленный градиент велик
Data Science
Понимание концепции убывающего градиента и проблемы взрывающегося градиента в контексте обучающих данных.
00
Вопрос или проблема Я пытаюсь понять суть концепций “проблема исчезающего градиента и взрывающегося градиента” с точки зрения реальных примеров ввода-вывода, а не относительно свойств выбора функции активации. Не может ли кто посоветовать
Data Science
Установка формы RaggedTensor с известной формой
00
Вопрос или проблема Я работаю с RaggedTensors для манипуляции плотным тензором. Что-то вроде этого : out_left = tf.ragged.boolean_mask(input, index) index = tf.math.logical_not(index) out_right = tf.ragged.boolean_mask(input, index) reconstruced_tensor = tf.
Data Science
Понимание интуиции, лежащей в основе сигмоидной кривой в контексте обратного распространения.
00
Вопрос или проблема Я пытался понять значимость S-образной формы сигмоидной/логистической функции. Наклон/производная сигмоиды приближается к нулю для очень больших и очень маленьких значений входных данных. То есть $σ'(z) ≈ 0$ для $z >
Data Science
Производная пользовательской функции потерь с логистической функцией
00
Вопрос или проблема У меня есть функция потерь с $\mu ,p, o, u, v$ в качестве переменных, а $\sigma$ является логистической функцией. Мне нужно вывести эту функцию потерь. Из-за множества переменных в функции потерь мне нужно использовать функцию softmax
Data Science
Можем ли мы использовать уменьшающийся размер шага вместо мини-батча в SGD?
00
Вопрос или проблема Насколько я знаю, мини-батчи могут использоваться для снижения дисперсии градиента, но я также рассматриваю, можем ли мы достичь того же результата, если мы будем использовать уменьшающийся размер шага и только один образец на каждой итерации?
Data Science
Почему мы движемся в отрицательном направлении градиента в градиентном спуске?
00
Вопрос или проблема Говорят, что обратное распространение ошибки с градиентным спуском стремится минимизировать функцию затрат, используя формулу: $$ W_{new} = W_{old} – learningRate \cdot \frac{\partial E}{\partial W} $$ Мой вопрос: если производная
Вопросы и ответы
Как обучить нейронную сеть, зная только сумму выходов?
00
Вопрос или проблема В моем проекте по машинному обучению мне нужно адаптировать определенную функцию f, где в моем наборе данных я знаю только СУММУ оценок f, например, в этом случае: f(a1,b1,c1) + f(a2,b2,c2) + … = S Я знаю только сумму S, поэтому я
Data Science
Построение градиентного спуска в 3D – Контурные графики
00
Вопрос или проблема Я сгенерировал 3 параметра вместе с функцией стоимости. У меня есть списки $\theta$ и список стоимости из 100 значений за 100 итераций. Я хотел бы построить последние 2 параметра относительно стоимости в 3D, чтобы визуализировать уровень
Data Science
Сомнения в градиенте, проблема исчезающего градиента в обратном распространении ошибок.
00
Вопрос или проблема Насколько мне известно, в обратном распространении ошибка или градиент используются для обновления весов. В обратном распространении веса становятся небольшими относительно градиентов, что приводит к проблеме исчезающих градиентов.