gradient-descent
Data Science
Вопрос или проблема Это один из тех вопросов, где я знаю, что ошибаюсь, но не знаю, как. Я понимаю, что при обучении нейронной сети мы вычисляем производные функции потерь по отношению к параметрам. Я также понимаю, что эти производные указывают на мгновенную
Data Science
Вопрос или проблема Я реализую метод ускоренного градиентного спуска Нестерова (NAG) для нейронной сети с экстремальным обучением (ELM) с одним скрытым слоем. Моя функция потерь — среднеквадратичная ошибка (MSE) с L2-регуляризацией.
Data Science
Вопрос или проблема Допустим, у меня есть глубокая нейронная сеть с 50 скрытыми слоями, и на каждом нейроне скрытого слоя используется функция активации ReLU. Мой вопрос: Может ли возникнуть проблема исчезающего градиента во время обратного распространения
Data Science
Вопрос или проблема Я совсем новичок в нейронных сетях и науке о данных в целом и хотел попробовать создать простую нейронную сеть на Python. Я пытался создать нейронную сеть с нуля, надеясь начать с той, которая может научиться рисовать линию регрессии.
Data Science
Вопрос или проблема У меня есть сеть для генерации одного числа $T$. Я знаю заранее: свойство функции потерь заключается в том, что, когда $T \in [a_1, a_2]$, потери имеют одно и то же значение $L_1$; когда $T \in [a_2, a_3]$, потери имеют другое значение $L_2$;
Data Science
Вопрос или проблема Я пытаюсь предсказать значения температур как функцию времени и различных параметров. Кривая температуры выглядит как “рампа” с некоторыми “гауссовыми пиками” на регулярных интервалах.
Data Science
Вопрос или проблема Я изучаю книгу Иана Гудфеллоу и др. под названием “Глубокое обучение”, и в Главе 4 – Численные вычисления, на странице 87, он упоминает, что, используя приближение функции цели с помощью разложения Тейлора второго
Data Science
Вопрос или проблема Статья о Adam упоминает стационарную целевую функцию. Я не могу найти её определение в интернете (или, возможно, оно там с другим названием, и я не могу это выяснить). Буду благодарен, если кто-то сможет описать это или направить меня к правильному ресурсу.
Data Science
Вопрос или проблема Поскольку метод наименьших квадратов может дать сбой при наличии серьезной/почти идеальной мультиколлинеарности, как будет работать градиентный спуск в такой ситуации? Он будет сходиться к минимуму? (Мое предположение –
Data Science
Вопрос или проблема В настоящее время я провожу два типа логистической регрессии. логистическая регрессия с использованием стохастического градиентного спуска (SGD) логистическая регрессия с использованием градиентного спуска (GD) реализовано следующим
Data Science
Вопрос или проблема Я создал свёрточную нейронную сеть с нуля на Python для классификации рукописных цифр MNIST (централизованный). Она состоит из одной свёрточной сети с 8 ядрами 3×3, слоя максимального объединения 2×
Data Science
Вопрос или проблема Я пытаюсь понять работу градиентного спуска, стохастического градиентного спуска и градиентного спуска с мини-партиями. В случае градиентного спуска градиент вычисляется на всем наборе данных на каждом шаге.
Data Science
Вопрос или проблема Я написал свой многослойный перцептрон на MATLAB, и он компилируется без ошибок. Мои обучающие данные, x, имеют значения от 1 до 360, а выходные данные, y, имеют значение $\sin(x)$. Дело в том, что мой MLP уменьшает стоимость только
Data Science
Вопрос или проблема Все поверхности потерь, используемые в примерах, имеют форму чаши, которая резко уменьшается вдали от оптимального значения и уменьшается медленно вокруг плоской точки оптимума. Мои вопросы: Есть ли у всех поверхностей потерь плоская
Data Science
Вопрос или проблема Я имею в виду, что я знаю, почему нам конкретно важны выпуклые функции: это потому, что их локальные минимумы также являются глобальными, и поэтому нужно просто “следовать по пути, который идет вниз”
Data Science
Вопрос или проблема Я пытался понять, почему регрессия с риджем имеет веса, близкие к 0 при больших значениях лямбда, но они никогда не равны 0, в отличие от лассо и простой линейной регрессии. Согласно этому веб-сайту: https://www.
Data Science
Вопрос или проблема Мой вопрос в заголовке. В настоящее время я ищу публикацию или академическую ссылку на этот алгоритм, даже в новом контексте. Спасибо за все возможные ответы, Обрезанная обратная пропаганда во времени (truncated BPTT) является широко
Data Science
Вопрос или проблема У меня есть функция потерь, которая представляет собой взвешенную перекрестную энтропию для бинарной классификации def BinaryCrossEntropy_weighted( y_true, y_pred, class_weight ): y_true= y_true.astype(np.float) y_pred = K.
Data Science
Вопрос или проблема При кодировании батчевого градиентного спуска легко реализовать сходимость, так как после каждой итерации стоимость движется к минимуму, и когда изменение стоимости приближается к заранее определенному числу, мы останавливаем итерации
Data Science
Вопрос или проблема Я студент по специальности анализ данных, и когда я учился выводить функцию потерь логистической регрессии (потери кросс-энтропии), я обнаружил, что градиент совершенно идентичен градиенту методом наименьших квадратов для линейной