Posted 2020-11-03Updated 2021-08-04ML Technique3 minutes read (About 485 words)0 visits

参数优化

参数初始化

合适参数初始化可以加速模型训练
- 避免反向传播的梯度信息被放大、缩小
- 导致出现梯度爆炸、消失
参数初始化值满足如下条件，则训练过程中能较好防止梯度信号被放缩
- 激活值均值为 0
- 每层激活值方差保持一致

常数（零值）初始化

常数初始化：将所有权值初始化为常数

任意常数初始化方法性能都不好，甚至无法训练
- 反向传播算法更新参数时，各参数各维度导数一致、更新后权值一致
- 各神经元在演化过程中对称，无法学习不同特征，退化为单神经元
在激活函数选择线性激活函数时
- 过大的初始化权重可能导致梯度爆炸
- 过小的初始化值可能导致梯度消失

随机初始化

随机初始化：随机生成参数

权重 $W$：均值 0、方差 1 的正态分布生成，并乘以较小常数（如：0.01）
- 权值被初始化不同值，解决零值初始化存在网络退化问题
- 但较小权值可能导致梯度弥散，无法学习
偏置 $b$：初始化为 0
- 帮助变换系统初始处于线性域，加快梯度传播

Xavier 初始化

Xavier 初始化：适合 tanh 激活函数的参数初始化方式

$Var(W^{(l)}) = \frac 2 {n^{(l-1)} + n^{(l)}}$

$n^{(l)}$：第 $l$ 层神经元数量

He 初始化

He 初始化：适合 ReLU 激活函数的参数初始化方式

$Var(W^{(l)}) = \frac 1 {n^{(l)}}$

基于 Xavier 初始化在 ReLU 上的改进，实际中二者都可以使用

超参搜索

Random Search

Grid Search

Bayesian Optimization

参数优化

https://xyy15926.github.io/ML-Technique/param_adj.html

Author

UBeaRLy

Posted on

2020-11-03

Updated on

2021-08-04

Licensed under

Alipay

Wechat

参数优化

参数初始化

常数（零值）初始化

随机初始化

Xavier 初始化

He 初始化

超参搜索

Random Search

Grid Search

Bayesian Optimization

Author

Posted on

Updated on

Licensed under

Like this article? Support the author with

Comments

Categories

Catalogue

Recents

Advertisement

follow.it