最后更新于4年前
Swish激活函数来自论文. Swish定义为:
其中的是sigmoid函数. 即可以是指定的一个常数, 也可以是一个可训练的参数(训练方法参考PReLU激活函数). 不同下函数和导数如下图:
sigmoid
Swish的导数为:
无上界, 有下界
非单调
曲线平滑, 一阶导平滑
缺点:
计算量大
事实上, 如果, Swish将退化成线性函数, 如果, Swich十分接近于ReLU函数. 因此, 可以说Swich函数根据的不同, 是线性函数和ReLU函数之间的非线性差值.
从导数图中可以看出, 参数控制了一阶导数从0到1变化的速度.
在实践中, 通常选择.