Как получить модифицированную активацию tanh, предложенную ЛеКуном?

Question 1

В “Efficient Backprop” (http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf), Лекун и другие предлагают модифицированную активационную функцию tanh следующего вида:

$$ f(x) = 1.7159 * tanh(\frac{2}{3}*x) $$

Они утверждают, что:

Проще аппроксимировать полиномами
Говорят, что она соответствует цели, что ее вторая производная максимальна в 1

Я пытался начать с функции вида: $f(x) = a * tanh(b*x)$ и вывести значения $a$ и $b$, чтобы соответствовать вышеупомянутым свойствам.

Есть идеи, как эти константы выводятся? При каких предположениях? Совпадают ли они с ожидаемыми свойствами по конструкции?

Question 2

В “Стратегии обобщения и проектирования сетей” Лекун утверждает, что он выбрал параметры, которые удовлетворяют:
$$ f (\pm1) = \pm1$$

Обоснование этого заключается в том, что общий прирост сжимающей трансформации составляет около 1 в нормальных эксплуатационных условиях, и интерпретация состояния сети упрощается. Более того, абсолютное значение второй производной $f$ максимальное при $+1$ и $-1$, что улучшает сходимость в конце сессии обучения.

Визуализация производных с использованием этого кода:

Из его описания максимумов второй производной я делаю вывод, что третья производная $f(x)=a*tanh(bx)$ должна быть равна нулю для $ x = \pm1$. Третья производная:
$$\frac{\partial^{3} f}{\partial x^3}=\frac{-2ab³}{cosh²(bx)}\left(\frac{1}{cosh²(bx)} – 2tanh²(bx)\right) $$

Таким образом, мы приравниваем к нулю: $$1-2sinh²(bx)=0 \quad x\in\pm1$$
$$bx=arcsinh(\frac{1}{\sqrt{2}})$$
Подставляя значения в numpy, я получаю:

$$b=0.6584789484624083$$
Подставляя результат в $f(1)$, я получаю:
$$a=1.7320509044937022$$

Это означает, что между моими переменными и его есть небольшая разница. Сравнивая tanh, используя наши разные значения переменных, я получаю $\delta = 0.0012567267661376946$ для $x=1$, используя мой код numpy.

Либо я ошибся, он не имел такого точного численного решателя/таблицы значений, либо он выбрал “более красивое” число.

Question 3

Однажды я пытался вывести символическое решение (без тригонометрических функций) для себя (в основном полагаясь на Wolfram Alpha для выполнения тяжелой работы), используя те же ограничения, что и @a-doering ($f(\pm1)=\pm1$ и $f”'(\pm1)=0$). Я пришел к довольно – учитывая все обстоятельства – красивым коэффициентам:

$\begin{align}
f(x) &= a \tanh(bx)
\\
a &= \sqrt{3} &&\approx 1.732050808 &&\approx 1.7159
\\
b &= \frac{-\ln(2 – \sqrt{3})}{2} &&\approx 0.658478948 &&\approx \frac{2}{3}
\end{align}$

К сожалению, я не помню шаги, которые я предпринял, чтобы прийти к этому.

Вот интерактивный график для всех, кто заинтересован в том, чтобы поиграть с ним: https://www.desmos.com/calculator/tf4udjl8cn Оригинал красным, мой зеленым. Я сомневаюсь, что между ними будет какая-либо реальная разница в результате обучения.

Дополнение

Я вернулся и перевывел это, так что вот оно.

Начните с нахождения $b$, подставив $x=1$ и вычислив $\frac{d^3}{dx^3} \tanh(b) = 0$ (фактор $a$ не влияет на третью производную). WolframAlpha дает $b = \pm\frac{1}{2}\cosh^{-1}(2) = \pm\frac{1}{2}\ln(2+\sqrt{3})$.

Поскольку подстановка $b=\frac{1}{2}\ln(2+\sqrt{3})$ гарантирует, что условие третьей производной будет выполнено при $x=1$, мы можем зафиксировать как $x$, так и $b$, и масштабировать выход, чтобы выполнить условие $f(1) = 1$. Доверяя WolframAlpha, мы имеем:

\begin{align}
a \tanh\left(\frac{\ln(2+\sqrt{3})}{2}\right) &= 1
\\
a &= \frac{1}{\tanh\left(\frac{\ln(2+\sqrt{3})}{2}\right)}
\\
&= \sqrt{3}
\end{align}

Чтобы увидеть эквивалентность с моим оригинальным ответом, отметьте, что $\ln(2+\sqrt{3}) = -\ln(2-\sqrt{3})$. Полная функция становится:
\begin{align}
f(x) &= \sqrt{3} \tanh\left( \frac{\ln(2 + \sqrt{3})}{2} x \right)
\end{align}

Как получить модифицированную активацию tanh, предложенную ЛеКуном?

Вопрос или проблема

Ответ или решение

Производная модифицированного активационного функции tanh, предложенной Лекуном

Основные свойства функции

Параметризация функции активации

Итог