Data Science
При обучении нейронной сети зачем мы не берем производную по отношению к шагу метода градиентного спуска?
00
Вопрос или проблема Это один из тех вопросов, где я знаю, что ошибаюсь, но не знаю, как. Я понимаю, что при обучении нейронной сети мы вычисляем производные функции потерь по отношению к параметрам. Я также понимаю, что эти производные указывают на мгновенную
Data Science
Затормаживание ускоренного градиентного спуска Нестерова с высокой регуляризацией в экстремальной обучающей машине
00
Вопрос или проблема Я реализую метод ускоренного градиентного спуска Нестерова (NAG) для нейронной сети с экстремальным обучением (ELM) с одним скрытым слоем. Моя функция потерь — среднеквадратичная ошибка (MSE) с L2-регуляризацией.
Data Science
Проблема исчезновения градиента даже после существования функции ReLU?
00
Вопрос или проблема Допустим, у меня есть глубокая нейронная сеть с 50 скрытыми слоями, и на каждом нейроне скрытого слоя используется функция активации ReLU. Мой вопрос: Может ли возникнуть проблема исчезающего градиента во время обратного распространения
Data Science
Нейронная сеть не обучается, когда предоставлено более одной обучающей выборки.
00
Вопрос или проблема Я совсем новичок в нейронных сетях и науке о данных в целом и хотел попробовать создать простую нейронную сеть на Python. Я пытался создать нейронную сеть с нуля, надеясь начать с той, которая может научиться рисовать линию регрессии.
Data Science
Изучение параметров, когда потеря — это кусочная функция.
00
Вопрос или проблема У меня есть сеть для генерации одного числа $T$. Я знаю заранее: свойство функции потерь заключается в том, что, когда $T \in [a_1, a_2]$, потери имеют одно и то же значение $L_1$; когда $T \in [a_2, a_3]$, потери имеют другое значение $L_2$;
Data Science
Проблема регрессии – слишком сложна для градиентного спуска.
00
Вопрос или проблема Я пытаюсь предсказать значения температур как функцию времени и различных параметров. Кривая температуры выглядит как “рампа” с некоторыми “гауссовыми пиками” на регулярных интервалах.
Data Science
Влияние числа обусловленности матрицы Гессе целевой функции на скорость обучения в градиентном спуске
00
Вопрос или проблема Я изучаю книгу Иана Гудфеллоу и др. под названием “Глубокое обучение”, и в Главе 4 – Численные вычисления, на странице 87, он упоминает, что, используя приближение функции цели с помощью разложения Тейлора второго
Data Science
что такое статическая объективная функция
00
Вопрос или проблема Статья о Adam упоминает стационарную целевую функцию. Я не могу найти её определение в интернете (или, возможно, оно там с другим названием, и я не могу это выяснить). Буду благодарен, если кто-то сможет описать это или направить меня к правильному ресурсу.
Data Science
Сильно выраженная мультиколлинеарность влияет на решение линейной регрессии методом градиентного спуска?
00
Вопрос или проблема Поскольку метод наименьших квадратов может дать сбой при наличии серьезной/почти идеальной мультиколлинеарности, как будет работать градиентный спуск в такой ситуации? Он будет сходиться к минимуму? (Мое предположение –
Data Science
Почему использование градиентного спуска вместо стохастического градиентного спуска улучшает производительность?
00
Вопрос или проблема В настоящее время я провожу два типа логистической регрессии. логистическая регрессия с использованием стохастического градиентного спуска (SGD) логистическая регрессия с использованием градиентного спуска (GD) реализовано следующим
Data Science
Почему мини-пакеты ухудшают работу моего классификатора MNIST на свёрточной нейронной сети?
00
Вопрос или проблема Я создал свёрточную нейронную сеть с нуля на Python для классификации рукописных цифр MNIST (централизованный). Она состоит из одной свёрточной сети с 8 ядрами 3×3, слоя максимального объединения 2×
Data Science
Градиентный спуск против стохастического градиентного спуска против мини-пакетного градиентного спуска с учетом рабочего шага/примера
00
Вопрос или проблема Я пытаюсь понять работу градиентного спуска, стохастического градиентного спуска и градиентного спуска с мини-партиями. В случае градиентного спуска градиент вычисляется на всем наборе данных на каждом шаге.
Data Science
Многослойный перцептрон не сходится.
00
Вопрос или проблема Я написал свой многослойный перцептрон на MATLAB, и он компилируется без ошибок. Мои обучающие данные, x, имеют значения от 1 до 360, а выходные данные, y, имеют значение $\sin(x)$. Дело в том, что мой MLP уменьшает стоимость только
Data Science
Градиентный спуск вокруг оптимальной поверхности потерь
00
Вопрос или проблема Все поверхности потерь, используемые в примерах, имеют форму чаши, которая резко уменьшается вдали от оптимального значения и уменьшается медленно вокруг плоской точки оптимума. Мои вопросы: Есть ли у всех поверхностей потерь плоская
Data Science
Почему мы заботимся только о выпуклых функциях при применении градиентного спуска/SGD?
00
Вопрос или проблема Я имею в виду, что я знаю, почему нам конкретно важны выпуклые функции: это потому, что их локальные минимумы также являются глобальными, и поэтому нужно просто “следовать по пути, который идет вниз”
Data Science
С помощью ридж-регрессии веса могут приближаться к 0 при больших значениях ламбда, но никогда не равняться 0 (в отличие от Lasso). Почему?
00
Вопрос или проблема Я пытался понять, почему регрессия с риджем имеет веса, близкие к 0 при больших значениях лямбда, но они никогда не равны 0, в отличие от лассо и простой линейной регрессии. Согласно этому веб-сайту: https://www.
Data Science
Существует ли математическая верификация для TBPTT (усечённого обратного распространения ошибки через время)?
00
Вопрос или проблема Мой вопрос в заголовке. В настоящее время я ищу публикацию или академическую ссылку на этот алгоритм, даже в новом контексте. Спасибо за все возможные ответы, Обрезанная обратная пропаганда во времени (truncated BPTT) является широко
Data Science
Почему нейронной сети нужна потеря в виде скаляра?
00
Вопрос или проблема У меня есть функция потерь, которая представляет собой взвешенную перекрестную энтропию для бинарной классификации def BinaryCrossEntropy_weighted( y_true, y_pred, class_weight ): y_true= y_true.astype(np.float) y_pred = K.
Data Science
Как определить сходимость стохастического градиентного спуска?
00
Вопрос или проблема При кодировании батчевого градиентного спуска легко реализовать сходимость, так как после каждой итерации стоимость движется к минимуму, и когда изменение стоимости приближается к заранее определенному числу, мы останавливаем итерации
Data Science
Почему потери MSE и кросс-энтропии имеют одинаковый градиент?
00
Вопрос или проблема Я студент по специальности анализ данных, и когда я учился выводить функцию потерь логистической регрессии (потери кросс-энтропии), я обнаружил, что градиент совершенно идентичен градиенту методом наименьших квадратов для линейной