lihuigu's blog

Mooncake技术报告

Mooncake技术报告发现 KVCache 的调度是 LLM 服务调度的核心。为了提高整体吞吐量，通常有两种通用方法： 1) 尽可能多地复用 KVCache 以减少所需的计算资源； 2) 最大化每个批次中的令牌数量以提高模型 FLOP 利用率 (MFU)。然而，从远程位置复用 KVCache

2025-06-02

未命名文章

FalshInfer论文阅读笔记 GPU注意力内核块稀疏和可组合格式，解决KV Cache的存储异构性，优化内存访问减少冗余开发可定制的注意力模板，适应不同的注意力变量，通过JIT编译动态调度框架管理动态输入，同时和CUDAGraph兼容注意力组合运算 Block Sparse Matrix

2025-05-24

vLLM整体架构

vLLM整体架构看了一些整体架构的博客，以及源码，我的一些感想是，可以尝试从更加high level的角度考虑这个推理框架的设计，如果是你的话，你会怎么设计？现在已经有参考答案了，可以从结果推过程，这么做目的是什么？一个推理框架，首先是一个暴露给用户的一个entrypoint，可以轻松通过这个调

2025-05-22

Speculative decoding的碎碎念

推测解码一些碎碎念大语言模型在众多领域上展现出很强的能力，但是decode架构使得只能token by token，这种顺序性会造成严重的延迟瓶颈。但最近的研究侧重于通过新颖算法和系统级创新，在保证输出质量的同时打破顺序依赖关系。由此提出了生成-细化框架来解决这种顺序依赖关系，主要步骤是生成dr

2025-05-19

FlashAttention系列

FlashAttention系列 FlashAttention V1 Fast、Memory Efficient、IO-Awareness、Exact Attention 计算密集型内存密集型：减少对HBM的访问（通过Fusion），但是模型训练时需要保留中间结果，供反向传播时使用 FalshAt

2025-05-17

SGLang为什么这么快？

SGLang为什么这么快？ CPU Overlap Optimization 如何降低CPU开销？（CPU干等的时间） Pseudo Code，每一行都会被阻塞 While True: recv_reqs = recv_requests() process_input_request

2025-05-17

EAGLE3-目前的Spec decoding Sota方案

EAGLE-3原理与实现详解 SGlang中已经对Eagle3进行了继承，并且可以很方便分析方法带来的性能优化， eagle官方提供了draft模型： jamesliu1/sglang-EAGLE3-Llama-3.1-Instruct-8B 使用命令 python3 -m sglang.laun

2025-05-13

深度学习（公式篇）

深度学习如何缓解过拟合？增强数据、简化模型复杂度、添加正则项、dropout、交叉验证、学习率调整 Adam原理：通过维护一阶动量（均值）和二阶动量（方差）来动态调整每个参数的学习率，从而加速收敛并提高稳定性。 BN和LN的区别？ NMS过程梯度消失和梯度爆炸如何缓解？梯度消失：ReLU/L

2025-05-07

Qwen3思考模式

Qwen3思考模式在本次 Qwen3 的更新中，支持多种思考模式可谓是核心亮点之一。Qwen3 既可以在思考模式下深思熟虑，也可以在非思考模式中提供快速的响应。更重要的是，这两种模式的结合增强了 Qwen3 实现稳定且高效的“思考预算”控制能力。如下图所示，随着思考预算分配的提升，模型在评测集上的

2025-05-06

推理框架性能分析

推理框架性能分析基准的定义：一个标准化测试流程和指标，用于衡量系统、算法、硬件或软件的性能表现，需要可重复、可比较的量化结果哦，帮助获取某项技术的能力边界、效率和优化空间。基准和性能分析的必要性：能用->好用问题定位，资源优化，稳定性保证，验证系统在峰值压力下稳定响应优化，关键路径优化

2025-04-30