lihuigu's blog

LLM推理性能优化策略

LLM推理性能优化 PagedAttention 动机：LLM推理由两个阶段构成，prefill阶段和decode阶段，prefill阶段需要的kv cache占用是确定的，但是decode阶段并不知道需要多少内存分配，为了保证能生成，事先预留好最大的空间，但是最后可能会用不上，造成显存利用率低。

2025-04-29

大厂手撕题

最低加油次数：优先队列 priority_queue 数组中的第K个最大元素

2025-03-14

大模型面经（1）

大模型相关知识 BPE的原理？子词分割算法，从字符级别开始，通过迭代合并频率最高的字符对（或字符序列）来构建新的 Token，从而可以处理部分 OOV（Out-Of-Vocabulary）情况。初始化词汇表 V： V 包含语料库中的所有唯一字符，即单词字符的集合统计字符对的频次：对于每个单词

2025-03-05

大模型开发常用

大模型开发 huggingface下载命令 huggingface-cli download --repo-type dataset CarlanLark/pasa-dataset --local-dir data --local-dir-use-symlinks False -force-do

2025-03-05

从RL到RL-System

分布式RL训练框架 actor 在 RLHF 会进行 auto-regressive decoding，而 critic, reward 和 reference 则只会 prefill，不会 decode。所以，我们将 actor 的推理特定称为 rollout，而其他模型的推理称为 inferen

2025-02-05

TensorRT模型部署一些经验

TensorRT部署的一些经验受不了了，一天的计划全被这个事情打乱了，公司不让升级tensorrt版本，8.4.0有些小问题，但还是绕过了这个这些问题，搭建了一个新模型，明天收🥬看看效果。有一些遇到的问题，后面再记录，先去做每日一题了，今天的题目看起来还有点意思。

2025-01-09

数据结构

数据结构排序算法快速排序主要步骤：选择基准元素（pivot）：从数组中选择一个元素作为基准。划分（Partition）：将数组分为两部分，使得左边的元素都小于等于基准，右边的元素都大于等于基准。递归排序：对左右两部分分别递归地进行快速排序空间复杂度：O(logn) 时间复杂度：最好情

2024-11-13

C++后端知识点

一些非常重要的C++基础知识点

2024-08-28

操作系统

操作系统线程&进程&协程线程与进程的比较如下：进程是资源分配的单位，线程是 CPU 调度的单位；进程拥有完整的资源平台，而线程只独享必不可少的资源，如寄存器和栈；线程同样具有就绪、阻塞、执行三种基本状态，具有状态之间的转换关系；线程能减少并发执行的时间和空间开销对于，线程相比进程能减少

2024-08-13

数据库原理

数据库事务事务是数据库管理系统执行过程中的一个逻辑工作单元，它由一组SQL操作组成，这些操作要么全部成功执行（提交），要么全部不执行（回滚），以确保数据库的一致性和完整性。事务的四大特性AICD：原子性：一个不可分割的工作单位，事务中的操作要么全部成功，要么全部失败回滚一致性：从一个一致

2024-08-13