Mooncake技术报告
Mooncake技术报告 发现 KVCache 的调度是 LLM 服务调度的核心。为了提高整体吞吐量,通常有两种通用方法: 1) 尽可能多地复用 KVCache 以减少所需的计算资源; 2) 最大化每个批次中的令牌数量以提高模型 FLOP 利用率 (MFU)。 然而,从远程位置复用 KVCache
未命名文章
FalshInfer论文阅读笔记 GPU注意力内核 块稀疏和可组合格式,解决KV Cache的存储异构性,优化内存访问减少冗余 开发可定制的注意力模板,适应不同的注意力变量,通过JIT编译 动态调度框架管理动态输入,同时和CUDAGraph兼容 注意力组合运算 Block Sparse Matrix
vLLM整体架构
vLLM整体架构 看了一些整体架构的博客,以及源码,我的一些感想是,可以尝试从更加high level的角度考虑这个推理框架的设计,如果是你的话,你会怎么设计?现在已经有参考答案了,可以从结果推过程,这么做目的是什么? 一个推理框架,首先是一个暴露给用户的一个entrypoint,可以轻松通过这个调
Speculative decoding的碎碎念
推测解码一些碎碎念 大语言模型在众多领域上展现出很强的能力,但是decode架构使得只能token by token,这种顺序性会造成严重的延迟瓶颈。但最近的研究侧重于通过新颖算法和系统级创新,在保证输出质量的同时打破顺序依赖关系。 由此提出了生成-细化框架来解决这种顺序依赖关系,主要步骤是生成dr
FlashAttention系列
FlashAttention系列 FlashAttention V1 Fast、Memory Efficient、IO-Awareness、Exact Attention 计算密集型 内存密集型:减少对HBM的访问(通过Fusion),但是模型训练时需要保留中间结果,供反向传播时使用 FalshAt
SGLang为什么这么快?
SGLang为什么这么快? CPU Overlap Optimization 如何降低CPU开销?(CPU干等的时间) Pseudo Code,每一行都会被阻塞 While True:
recv_reqs = recv_requests()
process_input_request
EAGLE3-目前的Spec decoding Sota方案
EAGLE-3原理与实现详解 SGlang中已经对Eagle3进行了继承,并且可以很方便分析方法带来的性能优化, eagle官方提供了draft模型: jamesliu1/sglang-EAGLE3-Llama-3.1-Instruct-8B
使用命令 python3 -m sglang.laun
深度学习(公式篇)
深度学习 如何缓解过拟合?增强数据、简化模型复杂度、添加正则项、dropout、交叉验证、学习率调整 Adam原理:通过维护一阶动量(均值)和 二阶动量(方差) 来动态调整每个参数的学习率,从而加速收敛并提高稳定性。 BN和LN的区别? NMS过程 梯度消失和梯度爆炸如何缓解?梯度消失:ReLU/L
Qwen3思考模式
Qwen3思考模式 在本次 Qwen3 的更新中,支持多种思考模式可谓是核心亮点之一。Qwen3 既可以在思考模式下深思熟虑,也可以在非思考模式中提供快速的响应。更重要的是,这两种模式的结合增强了 Qwen3 实现稳定且高效的“思考预算”控制能力。如下图所示,随着思考预算分配的提升,模型在评测集上的
推理框架性能分析
推理框架性能分析 基准的定义:一个标准化测试流程和指标,用于衡量系统、算法、硬件或软件的性能表现,需要可重复、可比较的量化结果哦,帮助获取某项技术的能力边界、效率和优化空间。 基准和性能分析的必要性:能用->好用 问题定位, 资源优化, 稳定性保证,验证系统在峰值压力下稳定 响应优化,关键路径优化