gradient-descent
Data Science
Вопрос или проблема Я совсем новичок в нейронных сетях и науке о данных в целом и хотел попробовать создать простую нейронную сеть на Python. Я пытался создать нейронную сеть с нуля, надеясь начать с той, которая может научиться рисовать линию регрессии.
Data Science
Вопрос или проблема У меня есть сеть для генерации одного числа $T$. Я знаю заранее: свойство функции потерь заключается в том, что, когда $T \in [a_1, a_2]$, потери имеют одно и то же значение $L_1$; когда $T \in [a_2, a_3]$, потери имеют другое значение $L_2$;
Data Science
Вопрос или проблема Я пытаюсь предсказать значения температур как функцию времени и различных параметров. Кривая температуры выглядит как “рампа” с некоторыми “гауссовыми пиками” на регулярных интервалах.
Data Science
Вопрос или проблема Я изучаю книгу Иана Гудфеллоу и др. под названием “Глубокое обучение”, и в Главе 4 – Численные вычисления, на странице 87, он упоминает, что, используя приближение функции цели с помощью разложения Тейлора второго
Data Science
Вопрос или проблема Статья о Adam упоминает стационарную целевую функцию. Я не могу найти её определение в интернете (или, возможно, оно там с другим названием, и я не могу это выяснить). Буду благодарен, если кто-то сможет описать это или направить меня к правильному ресурсу.
Data Science
Вопрос или проблема Поскольку метод наименьших квадратов может дать сбой при наличии серьезной/почти идеальной мультиколлинеарности, как будет работать градиентный спуск в такой ситуации? Он будет сходиться к минимуму? (Мое предположение –
Data Science
Вопрос или проблема В настоящее время я провожу два типа логистической регрессии. логистическая регрессия с использованием стохастического градиентного спуска (SGD) логистическая регрессия с использованием градиентного спуска (GD) реализовано следующим
Data Science
Вопрос или проблема Я создал свёрточную нейронную сеть с нуля на Python для классификации рукописных цифр MNIST (централизованный). Она состоит из одной свёрточной сети с 8 ядрами 3×3, слоя максимального объединения 2×
Data Science
Вопрос или проблема Я пытаюсь понять работу градиентного спуска, стохастического градиентного спуска и градиентного спуска с мини-партиями. В случае градиентного спуска градиент вычисляется на всем наборе данных на каждом шаге.
Data Science
Вопрос или проблема Я написал свой многослойный перцептрон на MATLAB, и он компилируется без ошибок. Мои обучающие данные, x, имеют значения от 1 до 360, а выходные данные, y, имеют значение $\sin(x)$. Дело в том, что мой MLP уменьшает стоимость только
Data Science
Вопрос или проблема Все поверхности потерь, используемые в примерах, имеют форму чаши, которая резко уменьшается вдали от оптимального значения и уменьшается медленно вокруг плоской точки оптимума. Мои вопросы: Есть ли у всех поверхностей потерь плоская
Data Science
Вопрос или проблема Я имею в виду, что я знаю, почему нам конкретно важны выпуклые функции: это потому, что их локальные минимумы также являются глобальными, и поэтому нужно просто “следовать по пути, который идет вниз”
Data Science
Вопрос или проблема Я пытался понять, почему регрессия с риджем имеет веса, близкие к 0 при больших значениях лямбда, но они никогда не равны 0, в отличие от лассо и простой линейной регрессии. Согласно этому веб-сайту: https://www.
Data Science
Вопрос или проблема Мой вопрос в заголовке. В настоящее время я ищу публикацию или академическую ссылку на этот алгоритм, даже в новом контексте. Спасибо за все возможные ответы, Обрезанная обратная пропаганда во времени (truncated BPTT) является широко
Data Science
Вопрос или проблема У меня есть функция потерь, которая представляет собой взвешенную перекрестную энтропию для бинарной классификации def BinaryCrossEntropy_weighted( y_true, y_pred, class_weight ): y_true= y_true.astype(np.float) y_pred = K.
Data Science
Вопрос или проблема При кодировании батчевого градиентного спуска легко реализовать сходимость, так как после каждой итерации стоимость движется к минимуму, и когда изменение стоимости приближается к заранее определенному числу, мы останавливаем итерации
Data Science
Вопрос или проблема Я студент по специальности анализ данных, и когда я учился выводить функцию потерь логистической регрессии (потери кросс-энтропии), я обнаружил, что градиент совершенно идентичен градиенту методом наименьших квадратов для линейной
Data Science
Вопрос или проблема Я не понимаю, как сложные сети с множеством параметров/размерностей могут быть представлены в 3D пространстве и формировать стандартную поверхность затрат, так же как простая сеть с, скажем, 2 параметрами. Например, сеть с 2 параметрами
Data Science
Вопрос или проблема Вот часть моего кода: class SimpleNet(nn.Module): def __init__(self): super().__init__() self.linear1 = nn.Linear(2, 1, bias=False) self.linear2 = nn.Linear(1, 2, bias=False) def forward(self, x): z = self.
Data Science
Вопрос или проблема Я вручную создал случайный набор данных вокруг некоторого среднего значения и попытался использовать градиентный спуск для линейной регрессии, чтобы предсказать это простое среднее значение. Я сделал точно так же, как в руководстве