Data Science
Какая функция активации для многоклассовой классификации дает истинную вероятность (softmax против сигмоиды)
00
Вопрос или проблема Мне интересно, какая активационная функция для многоклассовой классификации дает истинную вероятность. Согласно: https://ai.stackexchange.com/questions/37889/are-softmax-outputs-of-classifiers-true-probabilities похоже, что выходная
Data Science
Почему обучение с softmax более стабильное
00
Вопрос или проблема Мне интересно, какая активационная функция будет легче для обучения (даст лучшую точность / наименьшую потерю) – SoftMax или сигмоида (для задачи многоклассовой классификации) Согласно: https://www.quora.
Data Science
Кросс-энтропийная потеря вообще важна, потому что при обратном распространении важны только вероятности Softmax и вектор one hot?
00
Вопрос или проблема Насколько важна функция потерь перекрестной энтропии (CEL), если при обратном распространении ошибки (BP) важны только вероятности Softmax (SM) и вектор one hot? При применении BP производная CEL – это разница между выходной
Data Science
Производная пользовательской функции потерь с логистической функцией
00
Вопрос или проблема У меня есть функция потерь с $\mu ,p, o, u, v$ в качестве переменных, а $\sigma$ является логистической функцией. Мне нужно вывести эту функцию потерь. Из-за множества переменных в функции потерь мне нужно использовать функцию softmax
Вопросы и ответы
Как рассчитать ожидаемое значение и дисперсию значений softmax в TensorFlow?
00
Вопрос или проблема У меня есть модель с финальным слоем softmax для N категорий. Эти категории упорядочены и числовые, поэтому имеет смысл вычислить статистику по вероятностному распределению, заданному softmax. Предположим, что значения категорий просто
Data Science
Метод обратного распространения с функцией стоимости логарифмического правдоподобия и активацией softmax
00
Вопрос или проблема В онлайн-книге о нейронных сетях Майкла Нилсена, в главе 3, он вводит новую функцию стоимости, называемую функцией логарифмического правдоподобия, определенной следующим образом: $$ C = -ln(a_y^L) $$ Предположим, у нас есть 10 выходных
Data Science
Разница в производительности Sigmoid vs. Softmax
00
Вопрос или проблема Для той же задачи бинарной классификации изображений, если на последнем слое я использую 1 узел с Sigmoid активацией и binary_crossentropy функцией потерь, процесс обучения проходит довольно гладко (92% точности после 3 эпох на валидационных данных).