激活函数
也叫损失函数, 把输入值按照一定的规则做归化
线性激活函数
最简单的激活函数被称为线性激活,其中根本没有应用任何转换
sigmoid 激活函数
也被称为 Logistic函数神经网络,是一个常见的神经网络激活函数.
功能
- 函数的输入被转换成介于0.0和1.0之间的值。大于1.0的输入被转换为值1.0,同样,小于0.0的值被折断为0.0.
缺点
- 只对其输入中间点周围的变化敏感
tanh 激活函数
也被称为双曲正切激活函数, 是一个常见的神经网络激活函数.
功能
- 函数的输入被转换成介于-1.0和1.0之间的值。大于1.0的输入被转换为值1.0,同样,小于-1.0的值被折断为-1.0
缺点
- 只对其输入中间点周围的变化敏感
ReLU 激活函数
ReLU(Rectified Linear Activation Function), 它看起来和行为都像一个线性函数,但实际上是一个非线性函数
功能
- 如果函数输入大于0,直接返回作为输入提供的值;如果输入是0或更小,返回值0
- 反向传播训练神经网络时,它具有很多线性激活函数的理想特性
BN(BatchNorm) 激活函数
BN在干什么了吧?其实就是把隐层神经元激活输入x=WU+B从变化不拘一格的正态分布通过BN操作拉回到了均值为0,方差为1的正态分布.
功能
- 把原始正态分布中心左移或者右移到以0为均值,拉伸或者缩减形态形成以1为方差的图形。
- 就是说经过BN后,目前大部分Activation的值落入非线性函数的线性区内,其对应的导数远离导数饱和区,这样来加速训练收敛过程。
值域饱和
sigmoid/tanh 等激活函数, 对于远离中间点的值不敏感, 从而导致输入值有效范围固定, 叫做值域饱和
正向传播
上一层输出值, 传递给下一层作为输入, 进行计算, 叫做正向传播.
反响传播
根据激活函数得到的梯度和模型, 计算出预测值和实际值的误差, 来指导神经网络参数的变化, 叫做反向传播
梯度
梯度就是在某一区域上连续偏导数, 某一方向的最大值.
在单变量的实值函数的情况,梯度只是导数,或者,对于一个线性函数,也就是线的斜率.
梯度消失
由于 sigmoid/tanh 等激活函数的输出值在[-1, 1]之间, 随着神经网络的层数增加, 输出值会越来越小, 从而导致梯度也越来越小
梯度爆炸
如果激活函数的输出值大于1, 随着神经网络的层数增加, 输出值会越来越大, 从而导致梯度也越来越大
ResNet(Residual Network)
与普通网络的串行结构相比,残差单元增加了跳跃映射,将输入与输出直接进行相加,补充卷积过程中损失的特征信息
DenseNet(Dense Convolutional Network )
在DenseNet中, 第i层的输入不仅与i-1层的输出相关,还有所有之前层的输出有关.