LLM推理性能优化策略
LLM推理性能优化 PagedAttention 动机:LLM推理由两个阶段构成,prefill阶段和decode阶段,prefill阶段需要的kv cache占用是确定的,但是decode阶段并不知道需要多少内存分配,为了保证能生成,事先预留好最大的空间,但是最后可能会用不上,造成显存利用率低。
大厂手撕题
最低加油次数:优先队列 priority_queue 数组中的第K个最大元素
大模型面经(1)
大模型相关知识 BPE的原理? 子词分割算法,从字符级别开始,通过迭代合并频率最高的字符对(或字符序列)来构建新的 Token,从而可以处理部分 OOV(Out-Of-Vocabulary)情况。 初始化词汇表 V: V 包含语料库中的所有唯一字符,即单词字符的集合 统计字符对的频次: 对于每个单词
大模型开发常用
大模型开发 huggingface下载命令
huggingface-cli download --repo-type dataset CarlanLark/pasa-dataset --local-dir data --local-dir-use-symlinks False
-force-do
从RL到RL-System
分布式RL训练框架 actor 在 RLHF 会进行 auto-regressive decoding,而 critic, reward 和 reference 则只会 prefill,不会 decode。所以,我们将 actor 的推理特定称为 rollout,而其他模型的推理称为 inferen
TensorRT模型部署一些经验
TensorRT部署的一些经验 受不了了,一天的计划全被这个事情打乱了,公司不让升级tensorrt版本,8.4.0有些小问题,但还是绕过了这个这些问题,搭建了一个新模型,明天收🥬看看效果。 有一些遇到的问题,后面再记录,先去做每日一题了,今天的题目看起来还有点意思。
数据结构
数据结构 排序算法 快速排序 主要步骤: 选择基准元素(pivot):从数组中选择一个元素作为基准。 划分(Partition):将数组分为两部分,使得左边的元素都小于等于基准,右边的元素都大于等于基准。 递归排序:对左右两部分分别递归地进行快速排序 空间复杂度:O(logn) 时间复杂度: 最好情
C++后端知识点
一些非常重要的C++基础知识点
操作系统
操作系统 线程&进程&协程 线程与进程的比较如下: 进程是资源分配的单位,线程是 CPU 调度的单位; 进程拥有完整的资源平台,而线程只独享必不可少的资源,如寄存器和栈; 线程同样具有就绪、阻塞、执行三种基本状态,具有状态之间的转换关系; 线程能减少并发执行的时间和空间开销 对于,线程相比进程能减少
数据库原理
数据库 事务 事务 是数据库管理系统执行过程中的一个逻辑工作单元,它由一组SQL操作组成,这些操作要么全部成功执行(提交),要么全部不执行(回滚),以确保数据库的一致性和完整性。 事务的四大特性AICD: 原子性:一个不可分割的工作单位,事务中的操作要么全部成功,要么全部失败回滚 一致性:从一个一致