gradient-descent
Data Science
Вопрос или проблема Я пытаюсь полностью понять, почему проблемы исчезающего и взрывающегося градиентов так вредны для обучения глубоких нейронных сетей. Я понимаю, что эти проблемы приводят к тому, что некоторые веса имеют очень маленькие градиенты (исчезающий