深度学习(公式篇)
面试 4

深度学习

  1. 如何缓解过拟合?增强数据、简化模型复杂度、添加正则项、dropout、交叉验证、学习率调整
  2. Adam原理:通过维护一阶动量(均值)和 二阶动量(方差) 来动态调整每个参数的学习率,从而加速收敛并提高稳定性。
  3. BN和LN的区别?
  4. NMS过程
  5. 梯度消失和梯度爆炸如何缓解?梯度消失:ReLU/Leaky ReLU、Xavier/He初始化、BN/LayerNorm、残差连接、预训练 梯度爆炸:梯度裁剪、权重初始化、L2正则化、调整学习率、Adam优化器

激活

\sigma(x) = \frac{1}{1 + e ^{-x}}
1 - \sigma(x) = \sigma(-x)
\frac{d}{dx}\sigma(x) = \sigma(x)(1 - \sigma(x))

KL散度

D_{KL}(P || Q) = \sum_x P(x)log\frac{P(x)}{Q(x)}

交叉熵

H(P,Q) = -\sum_x P(x)logQ(x

标准语言模型损失

L_{LM} = -\frac{1}{N}\sum_{i=1}^{N} logP(y_i | y_{<i};θ)

知识蒸馏损失

深度学习(公式篇)
https://lihuigu.cn//archives/shen-du-xue-xi-gong-shi-pian
作者
lihuigu
发布于
更新于
许可协议