Data Science
Нейронная сеть не обучается, когда предоставлено более одной обучающей выборки.
00
Вопрос или проблема Я совсем новичок в нейронных сетях и науке о данных в целом и хотел попробовать создать простую нейронную сеть на Python. Я пытался создать нейронную сеть с нуля, надеясь начать с той, которая может научиться рисовать линию регрессии.
Data Science
Изучение параметров, когда потеря — это кусочная функция.
00
Вопрос или проблема У меня есть сеть для генерации одного числа $T$. Я знаю заранее: свойство функции потерь заключается в том, что, когда $T \in [a_1, a_2]$, потери имеют одно и то же значение $L_1$; когда $T \in [a_2, a_3]$, потери имеют другое значение $L_2$;
Data Science
Проблема регрессии – слишком сложна для градиентного спуска.
00
Вопрос или проблема Я пытаюсь предсказать значения температур как функцию времени и различных параметров. Кривая температуры выглядит как “рампа” с некоторыми “гауссовыми пиками” на регулярных интервалах.
Data Science
Влияние числа обусловленности матрицы Гессе целевой функции на скорость обучения в градиентном спуске
00
Вопрос или проблема Я изучаю книгу Иана Гудфеллоу и др. под названием “Глубокое обучение”, и в Главе 4 – Численные вычисления, на странице 87, он упоминает, что, используя приближение функции цели с помощью разложения Тейлора второго
Data Science
что такое статическая объективная функция
00
Вопрос или проблема Статья о Adam упоминает стационарную целевую функцию. Я не могу найти её определение в интернете (или, возможно, оно там с другим названием, и я не могу это выяснить). Буду благодарен, если кто-то сможет описать это или направить меня к правильному ресурсу.
Data Science
Сильно выраженная мультиколлинеарность влияет на решение линейной регрессии методом градиентного спуска?
00
Вопрос или проблема Поскольку метод наименьших квадратов может дать сбой при наличии серьезной/почти идеальной мультиколлинеарности, как будет работать градиентный спуск в такой ситуации? Он будет сходиться к минимуму? (Мое предположение –
Data Science
Почему использование градиентного спуска вместо стохастического градиентного спуска улучшает производительность?
00
Вопрос или проблема В настоящее время я провожу два типа логистической регрессии. логистическая регрессия с использованием стохастического градиентного спуска (SGD) логистическая регрессия с использованием градиентного спуска (GD) реализовано следующим
Data Science
Почему мини-пакеты ухудшают работу моего классификатора MNIST на свёрточной нейронной сети?
00
Вопрос или проблема Я создал свёрточную нейронную сеть с нуля на Python для классификации рукописных цифр MNIST (централизованный). Она состоит из одной свёрточной сети с 8 ядрами 3×3, слоя максимального объединения 2×
Data Science
Градиентный спуск против стохастического градиентного спуска против мини-пакетного градиентного спуска с учетом рабочего шага/примера
00
Вопрос или проблема Я пытаюсь понять работу градиентного спуска, стохастического градиентного спуска и градиентного спуска с мини-партиями. В случае градиентного спуска градиент вычисляется на всем наборе данных на каждом шаге.
Data Science
Многослойный перцептрон не сходится.
00
Вопрос или проблема Я написал свой многослойный перцептрон на MATLAB, и он компилируется без ошибок. Мои обучающие данные, x, имеют значения от 1 до 360, а выходные данные, y, имеют значение $\sin(x)$. Дело в том, что мой MLP уменьшает стоимость только
Data Science
Градиентный спуск вокруг оптимальной поверхности потерь
00
Вопрос или проблема Все поверхности потерь, используемые в примерах, имеют форму чаши, которая резко уменьшается вдали от оптимального значения и уменьшается медленно вокруг плоской точки оптимума. Мои вопросы: Есть ли у всех поверхностей потерь плоская
Data Science
Почему мы заботимся только о выпуклых функциях при применении градиентного спуска/SGD?
00
Вопрос или проблема Я имею в виду, что я знаю, почему нам конкретно важны выпуклые функции: это потому, что их локальные минимумы также являются глобальными, и поэтому нужно просто “следовать по пути, который идет вниз”
Data Science
С помощью ридж-регрессии веса могут приближаться к 0 при больших значениях ламбда, но никогда не равняться 0 (в отличие от Lasso). Почему?
00
Вопрос или проблема Я пытался понять, почему регрессия с риджем имеет веса, близкие к 0 при больших значениях лямбда, но они никогда не равны 0, в отличие от лассо и простой линейной регрессии. Согласно этому веб-сайту: https://www.
Data Science
Существует ли математическая верификация для TBPTT (усечённого обратного распространения ошибки через время)?
00
Вопрос или проблема Мой вопрос в заголовке. В настоящее время я ищу публикацию или академическую ссылку на этот алгоритм, даже в новом контексте. Спасибо за все возможные ответы, Обрезанная обратная пропаганда во времени (truncated BPTT) является широко
Data Science
Почему нейронной сети нужна потеря в виде скаляра?
00
Вопрос или проблема У меня есть функция потерь, которая представляет собой взвешенную перекрестную энтропию для бинарной классификации def BinaryCrossEntropy_weighted( y_true, y_pred, class_weight ): y_true= y_true.astype(np.float) y_pred = K.
Data Science
Как определить сходимость стохастического градиентного спуска?
00
Вопрос или проблема При кодировании батчевого градиентного спуска легко реализовать сходимость, так как после каждой итерации стоимость движется к минимуму, и когда изменение стоимости приближается к заранее определенному числу, мы останавливаем итерации
Data Science
Почему потери MSE и кросс-энтропии имеют одинаковый градиент?
00
Вопрос или проблема Я студент по специальности анализ данных, и когда я учился выводить функцию потерь логистической регрессии (потери кросс-энтропии), я обнаружил, что градиент совершенно идентичен градиенту методом наименьших квадратов для линейной
Data Science
Интуитивное объяснение представления градиента в более высоких измерениях
00
Вопрос или проблема Я не понимаю, как сложные сети с множеством параметров/размерностей могут быть представлены в 3D пространстве и формировать стандартную поверхность затрат, так же как простая сеть с, скажем, 2 параметрами. Например, сеть с 2 параметрами
Data Science
Вычисляйте градиенты параллельно
00
Вопрос или проблема Вот часть моего кода: class SimpleNet(nn.Module): def __init__(self): super().__init__() self.linear1 = nn.Linear(2, 1, bias=False) self.linear2 = nn.Linear(1, 2, bias=False) def forward(self, x): z = self.
Data Science
Градиентный спуск сильно расходится.
00
Вопрос или проблема Я вручную создал случайный набор данных вокруг некоторого среднего значения и попытался использовать градиентный спуск для линейной регрессии, чтобы предсказать это простое среднее значение. Я сделал точно так же, как в руководстве