大模型开发常用
11

大模型开发

huggingface下载命令


huggingface-cli download --repo-type dataset CarlanLark/pasa-dataset --local-dir data --local-dir-use-symlinks False
  • -force-download
  • resume-download

PIP

强制重新安装

pip install --force-reinstall --no-cache-dir flash-attn

Deepseek R1

image.png

对每个问题q,从旧策略模型采样一组输出,使用奖励模型对这组输出进行评分,产生G个奖励,通过减去组内平均值/组内标准差进行标准化处理。

优势函数如何计算?

reference model哪里来的?

目标函数中的min,max是什么意思?分别讨论优势函数>1和<1的情况。

代码 surr2 = torch,clamp(ratio, 1- self.eps, 1+ self.eps)*advantages 和 代码 actor_loss = torch.mean(- torch.min(surr1, surr2))提现了截断的思想

持续训练奖励模型:当前策略模型生成的数据创建新的奖励模型训练集,并通过一种包含重播机制的方法来持续训练奖励模型

DeepRetrieval

检索Agent

Reward model:评价论文和是否问题是否相关

数据集:PaSa,自己构造的数据集

多次采样,可以用上GRPO

当前的paper队列

[search]:查询

[stop]:终止分析

[analyze]:分析

BPE

  1. 准备语料库,确定期望的subword词表大小
  2. 的作用是表明subword是词的后缀
  3. 将语料库中的所有单词拆分成单个字符,统计每个字符的频率
  4. 挑出频率最高的符号对,合并,更新词表
  5. 新字符依然可以参与后续的merge,重复直到词表中的单词数量到达设定值,或者下一个最高频数为1
大模型开发常用
https://lihuigu.cn//archives/da-mo-xing-kai-fa-chang-yong
作者
lihuigu
发布于
更新于
许可协议