深度学习

如何缓解过拟合？增强数据、简化模型复杂度、添加正则项、dropout、交叉验证、学习率调整
Adam原理：通过维护一阶动量（均值）和 二阶动量（方差） 来动态调整每个参数的学习率，从而加速收敛并提高稳定性。
BN和LN的区别？
NMS过程
梯度消失和梯度爆炸如何缓解？梯度消失：ReLU/Leaky ReLU、Xavier/He初始化、BN/LayerNorm、残差连接、预训练梯度爆炸：梯度裁剪、权重初始化、L2正则化、调整学习率、Adam优化器

激活

\sigma(x) = \frac{1}{1 + e ^{-x}}

1 - \sigma(x) = \sigma(-x)

\frac{d}{dx}\sigma(x) = \sigma(x)(1 - \sigma(x))

KL散度

D_{KL}(P || Q) = \sum_x P(x)log\frac{P(x)}{Q(x)}

交叉熵

H(P,Q) = -\sum_x P(x)logQ(x

标准语言模型损失

L_{LM} = -\frac{1}{N}\sum_{i=1}^{N} logP(y_i | y_{<i};θ)

知识蒸馏损失

深度学习（公式篇）

https://lihuigu.cn//archives/shen-du-xue-xi-gong-shi-pian

作者

lihuigu

发布于

2025-05-07

更新于

2025-05-15

许可协议

面试