gradient-descent - ответы на вопросы

Data Science

При обучении нейронной сети зачем мы не берем производную по отношению к шагу метода градиентного спуска?

00

Вопрос или проблема Это один из тех вопросов, где я знаю, что ошибаюсь, но не знаю, как. Я понимаю, что при обучении нейронной сети мы вычисляем производные функции потерь по отношению к параметрам. Я также понимаю, что эти производные указывают на мгновенную

Data Science

Затормаживание ускоренного градиентного спуска Нестерова с высокой регуляризацией в экстремальной обучающей машине

00

Вопрос или проблема Я реализую метод ускоренного градиентного спуска Нестерова (NAG) для нейронной сети с экстремальным обучением (ELM) с одним скрытым слоем. Моя функция потерь — среднеквадратичная ошибка (MSE) с L2-регуляризацией.

Data Science

Проблема исчезновения градиента даже после существования функции ReLU?

00

Вопрос или проблема Допустим, у меня есть глубокая нейронная сеть с 50 скрытыми слоями, и на каждом нейроне скрытого слоя используется функция активации ReLU. Мой вопрос: Может ли возникнуть проблема исчезающего градиента во время обратного распространения

Data Science

Нейронная сеть не обучается, когда предоставлено более одной обучающей выборки.

00

Вопрос или проблема Я совсем новичок в нейронных сетях и науке о данных в целом и хотел попробовать создать простую нейронную сеть на Python. Я пытался создать нейронную сеть с нуля, надеясь начать с той, которая может научиться рисовать линию регрессии.

Data Science

Изучение параметров, когда потеря — это кусочная функция.

00

Вопрос или проблема У меня есть сеть для генерации одного числа $T$. Я знаю заранее: свойство функции потерь заключается в том, что, когда $T \in [a_1, a_2]$, потери имеют одно и то же значение $L_1$; когда $T \in [a_2, a_3]$, потери имеют другое значение $L_2$;

Data Science

Проблема регрессии – слишком сложна для градиентного спуска.

00

Вопрос или проблема Я пытаюсь предсказать значения температур как функцию времени и различных параметров. Кривая температуры выглядит как “рампа” с некоторыми “гауссовыми пиками” на регулярных интервалах.

Data Science

Влияние числа обусловленности матрицы Гессе целевой функции на скорость обучения в градиентном спуске

00

Вопрос или проблема Я изучаю книгу Иана Гудфеллоу и др. под названием “Глубокое обучение”, и в Главе 4 – Численные вычисления, на странице 87, он упоминает, что, используя приближение функции цели с помощью разложения Тейлора второго

Data Science

что такое статическая объективная функция

00

Вопрос или проблема Статья о Adam упоминает стационарную целевую функцию. Я не могу найти её определение в интернете (или, возможно, оно там с другим названием, и я не могу это выяснить). Буду благодарен, если кто-то сможет описать это или направить меня к правильному ресурсу.

Data Science

Сильно выраженная мультиколлинеарность влияет на решение линейной регрессии методом градиентного спуска?

00

Вопрос или проблема Поскольку метод наименьших квадратов может дать сбой при наличии серьезной/почти идеальной мультиколлинеарности, как будет работать градиентный спуск в такой ситуации? Он будет сходиться к минимуму? (Мое предположение –

Data Science

Почему использование градиентного спуска вместо стохастического градиентного спуска улучшает производительность?

00

Вопрос или проблема В настоящее время я провожу два типа логистической регрессии. логистическая регрессия с использованием стохастического градиентного спуска (SGD) логистическая регрессия с использованием градиентного спуска (GD) реализовано следующим

Data Science

Почему мини-пакеты ухудшают работу моего классификатора MNIST на свёрточной нейронной сети?

00

Вопрос или проблема Я создал свёрточную нейронную сеть с нуля на Python для классификации рукописных цифр MNIST (централизованный). Она состоит из одной свёрточной сети с 8 ядрами 3×3, слоя максимального объединения 2×

Data Science

Градиентный спуск против стохастического градиентного спуска против мини-пакетного градиентного спуска с учетом рабочего шага/примера

00

Вопрос или проблема Я пытаюсь понять работу градиентного спуска, стохастического градиентного спуска и градиентного спуска с мини-партиями. В случае градиентного спуска градиент вычисляется на всем наборе данных на каждом шаге.

Data Science

Многослойный перцептрон не сходится.

00

Вопрос или проблема Я написал свой многослойный перцептрон на MATLAB, и он компилируется без ошибок. Мои обучающие данные, x, имеют значения от 1 до 360, а выходные данные, y, имеют значение $\sin(x)$. Дело в том, что мой MLP уменьшает стоимость только

Data Science

Градиентный спуск вокруг оптимальной поверхности потерь

00

Вопрос или проблема Все поверхности потерь, используемые в примерах, имеют форму чаши, которая резко уменьшается вдали от оптимального значения и уменьшается медленно вокруг плоской точки оптимума. Мои вопросы: Есть ли у всех поверхностей потерь плоская

Data Science

Почему мы заботимся только о выпуклых функциях при применении градиентного спуска/SGD?

00

Вопрос или проблема Я имею в виду, что я знаю, почему нам конкретно важны выпуклые функции: это потому, что их локальные минимумы также являются глобальными, и поэтому нужно просто “следовать по пути, который идет вниз”

Data Science

С помощью ридж-регрессии веса могут приближаться к 0 при больших значениях ламбда, но никогда не равняться 0 (в отличие от Lasso). Почему?

00

Вопрос или проблема Я пытался понять, почему регрессия с риджем имеет веса, близкие к 0 при больших значениях лямбда, но они никогда не равны 0, в отличие от лассо и простой линейной регрессии. Согласно этому веб-сайту: https://www.

Data Science

Существует ли математическая верификация для TBPTT (усечённого обратного распространения ошибки через время)?

00

Вопрос или проблема Мой вопрос в заголовке. В настоящее время я ищу публикацию или академическую ссылку на этот алгоритм, даже в новом контексте. Спасибо за все возможные ответы, Обрезанная обратная пропаганда во времени (truncated BPTT) является широко

Data Science

Почему нейронной сети нужна потеря в виде скаляра?

00

Вопрос или проблема У меня есть функция потерь, которая представляет собой взвешенную перекрестную энтропию для бинарной классификации def BinaryCrossEntropy_weighted( y_true, y_pred, class_weight ): y_true= y_true.astype(np.float) y_pred = K.

Data Science

Как определить сходимость стохастического градиентного спуска?

00

Вопрос или проблема При кодировании батчевого градиентного спуска легко реализовать сходимость, так как после каждой итерации стоимость движется к минимуму, и когда изменение стоимости приближается к заранее определенному числу, мы останавливаем итерации

Data Science

Почему потери MSE и кросс-энтропии имеют одинаковый градиент?

00

Вопрос или проблема Я студент по специальности анализ данных, и когда я учился выводить функцию потерь логистической регрессии (потери кросс-энтропии), я обнаружил, что градиент совершенно идентичен градиенту методом наименьших квадратов для линейной