深度学习(公式篇)
深度学习
- 如何缓解过拟合?增强数据、简化模型复杂度、添加正则项、dropout、交叉验证、学习率调整
- Adam原理:通过维护一阶动量(均值)和 二阶动量(方差) 来动态调整每个参数的学习率,从而加速收敛并提高稳定性。
- BN和LN的区别?
- NMS过程
- 梯度消失和梯度爆炸如何缓解?梯度消失:ReLU/Leaky ReLU、Xavier/He初始化、BN/LayerNorm、残差连接、预训练 梯度爆炸:梯度裁剪、权重初始化、L2正则化、调整学习率、Adam优化器
激活
\sigma(x) = \frac{1}{1 + e ^{-x}}
1 - \sigma(x) = \sigma(-x)
\frac{d}{dx}\sigma(x) = \sigma(x)(1 - \sigma(x))
KL散度
D_{KL}(P || Q) = \sum_x P(x)log\frac{P(x)}{Q(x)}
交叉熵
H(P,Q) = -\sum_x P(x)logQ(x
标准语言模型损失
L_{LM} = -\frac{1}{N}\sum_{i=1}^{N} logP(y_i | y_{<i};θ)
知识蒸馏损失