我什么都不知道!
(论文阅读)Sarathi-Serve:LLM 推理服务吞吐量和延迟的平衡
发表于 OSDI'24 的工作,提出了 Chunked Prefill 这一技术,实现了 LLM 推理服务在吞吐量和执行延迟上的平衡。
Read more ⟶
(论文阅读)IMPRESS:基于重要性指导的 LLM 多级 KV 存储系统
发表于 FAST'25 的工作,研究了 Token 的重要性,并进而辅助多级存储上的 KV Cache 替换策略。
Read more ⟶
阿里天池数据库大赛:高性能 Top-K 查询
简单参加了第三届阿里天池数据库大赛,终赛第九名。
Read more ⟶