mini-batch-gradient-descent - ответы на вопросы

Data Science

Оценка несмещенной дисперсии нормализации батча во время вывода в сверточных нейронных сетях.

00

Вопрос или проблема Я вижу много ответов на ту же тему. Однако у меня есть часть, которая все еще меня сбивает с толку, поэтому я задаю этот вопрос. https://stackoverflow.com/questions/38553927/batch-normalization-in-convolutional-neural-network Предпоследний

Data Science

Точное уравнение нормализации батча во время вывода в сверточной нейронной сети

00

Вопрос или проблема Я действительно вижу много ответов на ту же тему. Однако у меня есть часть, которая меня все еще сбивает с толку, поэтому я задаю этот вопрос. https://stackoverflow.com/questions/38553927/batch-normalization-in-convolutional-neural-network

Data Science

Онлайн против мини-пакетного обучения для скорости

00

Вопрос или проблема Если я обучаюсь онлайн в условиях, где у меня есть ОГРОМНОЕ количество данных, будет ли это быстрее, чем минибатчевое обучение (даже если я оптимизирую размер батча для использования GPU, то есть использую кратное 32 количество примеров на минибатч)?

Data Science

При фиксированном размере партии, будет ли больший набор данных потреблять больше памяти GPU?

00

Вопрос или проблема Если вы держите (мини) размер партии постоянным (как и все прочее), но увеличиваете количество примеров (а следовательно, и количество итераций обучения), следует ли ожидать (значительного) увеличения памяти GPU?

Data Science

Почему мини-пакеты ухудшают работу моего классификатора MNIST на свёрточной нейронной сети?

00

Вопрос или проблема Я создал свёрточную нейронную сеть с нуля на Python для классификации рукописных цифр MNIST (централизованный). Она состоит из одной свёрточной сети с 8 ядрами 3×3, слоя максимального объединения 2×

Data Science

Градиентный спуск против стохастического градиентного спуска против мини-пакетного градиентного спуска с учетом рабочего шага/примера

00

Вопрос или проблема Я пытаюсь понять работу градиентного спуска, стохастического градиентного спуска и градиентного спуска с мини-партиями. В случае градиентного спуска градиент вычисляется на всем наборе данных на каждом шаге.

Data Science

Почему нейронной сети нужна потеря в виде скаляра?

00

Вопрос или проблема У меня есть функция потерь, которая представляет собой взвешенную перекрестную энтропию для бинарной классификации def BinaryCrossEntropy_weighted( y_true, y_pred, class_weight ): y_true= y_true.astype(np.float) y_pred = K.

Data Science

Можем ли мы использовать уменьшающийся размер шага вместо мини-батча в SGD?

00

Вопрос или проблема Насколько я знаю, мини-батчи могут использоваться для снижения дисперсии градиента, но я также рассматриваю, можем ли мы достичь того же результата, если мы будем использовать уменьшающийся размер шага и только один образец на каждой итерации?

Data Science

Построение градиентного спуска в 3D – Контурные графики

00

Вопрос или проблема Я сгенерировал 3 параметра вместе с функцией стоимости. У меня есть списки $\theta$ и список стоимости из 100 значений за 100 итераций. Я хотел бы построить последние 2 параметра относительно стоимости в 3D, чтобы визуализировать уровень