LeakyReLU против PReLU

Question 1

Я думал, что и PReLU, и Leaky ReLU это:
$$f(x) = \max(x, \alpha x) \qquad \text{ где } \alpha \in (0, 1)$$

Keras, однако, имеет обе функции в документации.

Leaky ReLU

return K.relu(inputs, alpha=self.alpha)

Следовательно (см. код relu):
$$f_1(x) = \max(0, x) – \alpha \max(0, -x)$$

PReLU

Исходный код PReLU:

def call(self, inputs, mask=None):
    pos = K.relu(inputs)
    if K.backend() == 'theano':
        neg = (K.pattern_broadcast(self.alpha, self.param_broadcast) *
               (inputs - K.abs(inputs)) * 0.5)
    else:
        neg = -self.alpha * K.relu(-inputs)
    return pos + neg

Следовательно:
$$f_2(x) = \max(0, x) – \alpha \max(0, -x)$$

Вопрос

Я что-то не так понял? Разве $f_1$ и $f_2$ не эквивалентны $f$ (при условии $\alpha \in (0, 1)$?)

Question 2

Leaky ReLUs позволяют небольшому ненулевому градиенту, когда узел не активен:

$$f(x) = \begin{cases}
x & \text{если $x>0$}\\
\mathbf{0.01}x & \text{в противном случае}
\end{cases} $$

Параметрические ReLUs развивают эту идею дальше, делая коэффициент утечки ($0.01$ выше) параметром, который обучается вместе с другими параметрами нейронной сети:

$$f(x) = \begin{cases}
x & \text{если $x>0$}\\
\alpha x & \text{в противном случае}
\end{cases} $$

Где $\alpha$ — это обучаемый параметр, который обучается методом градиентного спуска, подобно другим параметрам нейронной сети, таким как веса и смещения. Источник

Question 3

Довольно старый вопрос; но я добавлю еще одну деталь, на случай если кто-то еще окажется здесь.

Мотивация за PReLU заключалась в том, чтобы преодолеть недостатки ReLU (проблема умирающего ReLU) и LeakyReLU (неконсистентные предсказания для отрицательных входных значений).
Поэтому авторы статьи о PReLU думали, почему бы не позволить a в ax для x<0 (в LeakyReLU) обучаться!!

И вот в чем подвох: если все каналы делят один и тот же a, который обучается, это называется PReLU с общим каналом. Но если каждый канал обучает свой собственный a, это называется PReLU с учетом каналов.

Так что если ReLU или LeakyReLU оказались лучше для этой проблемы? Это зависит от модели:

если a обучается как 0 –> PReLU становится ReLU
если a обучается как маленькое число –> PReLU становится LeakyReLU

Question 4

Leaky ReLU (Leaky Rectified Linear Unit):

является улучшенной версией ReLU, способной смягчать Проблему умирающего ReLU.
может преобразовать входное значение (x) в выходное значение между ax и x.
*Записки:
- Если x < 0, то ax, а если 0 <= x, то x.
- a по умолчанию равен 0.01.
также называется LReLU.
является LeakyReLU() в PyTorch.
используется в:
- GAN.
плюсы:
- Усмягчает Проблему убывающего градиента.
- Усмягчает Проблему умирающего ReLU. *0 все равно выдается для входного значения 0, поэтому Проблема умирающего ReLU полностью не устранена.
минусы:
- Не является дифференцируемым в x=0.
график Leaky ReLU в Desmos:

Описание изображения

PReLU (Параметрическая исправленная линейная единица):

является улучшенной версией Leaky ReLU, имеющей 0 или более обучаемых параметров, которые меняются (настраиваются) в процессе обучения для улучшения точности и сходимости модели.
может преобразовать входное значение (x) в выходное значение между ax и x:
*Записки:
- Если x < 0, то ax, а если 0 <= x, то x.
- a по умолчанию равен 0.25. *a является начальным значением для 0 или более обучаемых параметров.
является PReLU() в PyTorch.
используется в:
- SRGAN (Сетевое противодействие для повышения разрешения). *SRGAN — это тип GAN (Сетевое противодействие генераторов).
плюсы:
- Усмягчает Проблему убывающего градиента.
- Усмягчает Проблему умирающего ReLU. *0 все равно выдается для входного значения 0, поэтому Проблема умирающего ReLU полностью не устранена.
минусы:
- Не является дифференцируемым в x = 0. *Градиент для ступенчатой функции не существует при x = 0 во время Обратного распространения, что не дает возможности вычислить и получить градиент.
график PReLU в Desmos:

Описание изображения

LeakyReLU против PReLU

Вопрос или проблема

Leaky ReLU

PReLU

Вопрос

Ответ или решение

Leaky ReLU и PReLU: Подробное Сравнение

Leaky ReLU

PReLU

Выводы