大模型开发

huggingface下载命令


huggingface-cli download --repo-type dataset CarlanLark/pasa-dataset --local-dir data --local-dir-use-symlinks False

强制重新安装

pip install --force-reinstall --no-cache-dir flash-attn

对每个问题q，从旧策略模型采样一组输出，使用奖励模型对这组输出进行评分，产生G个奖励，通过减去组内平均值/组内标准差进行标准化处理。

优势函数如何计算？

reference model哪里来的？

目标函数中的min，max是什么意思？分别讨论优势函数>1和<1的情况。

代码 surr2 = torch,clamp(ratio, 1- self.eps, 1+ self.eps)*advantages 和代码 actor_loss = torch.mean(- torch.min(surr1, surr2))提现了截断的思想

持续训练奖励模型：当前策略模型生成的数据创建新的奖励模型训练集，并通过一种包含重播机制的方法来持续训练奖励模型

检索Agent

Reward model：评价论文和是否问题是否相关

数据集：PaSa，自己构造的数据集

多次采样，可以用上GRPO

当前的paper队列

[search]：查询

[stop]：终止分析

[analyze]：分析

大模型开发常用

https://lihuigu.cn//archives/da-mo-xing-kai-fa-chang-yong

作者

lihuigu

发布于

2025-03-05

更新于

2025-03-05

许可协议