大模型开发常用
11
大模型开发
huggingface下载命令
huggingface-cli download --repo-type dataset CarlanLark/pasa-dataset --local-dir data --local-dir-use-symlinks False
- -force-download
- resume-download
PIP
强制重新安装
pip install --force-reinstall --no-cache-dir flash-attn
Deepseek R1
对每个问题q,从旧策略模型采样一组输出,使用奖励模型对这组输出进行评分,产生G个奖励,通过减去组内平均值/组内标准差进行标准化处理。
优势函数如何计算?
reference model哪里来的?
目标函数中的min,max是什么意思?分别讨论优势函数>1和<1的情况。
代码 surr2 = torch,clamp(ratio, 1- self.eps, 1+ self.eps)*advantages
和 代码 actor_loss = torch.mean(- torch.min(surr1, surr2))
提现了截断的思想
持续训练奖励模型:当前策略模型生成的数据创建新的奖励模型训练集,并通过一种包含重播机制的方法来持续训练奖励模型
DeepRetrieval
检索Agent
Reward model:评价论文和是否问题是否相关
数据集:PaSa,自己构造的数据集
多次采样,可以用上GRPO
当前的paper队列
[search]:查询
[stop]:终止分析
[analyze]:分析
BPE
- 准备语料库,确定期望的subword词表大小
- 的作用是表明subword是词的后缀
- 将语料库中的所有单词拆分成单个字符,统计每个字符的频率
- 挑出频率最高的符号对,合并,更新词表
- 新字符依然可以参与后续的merge,重复直到词表中的单词数量到达设定值,或者下一个最高频数为1