我什么都不知道！

（论文阅读）Sarathi-Serve：LLM 推理服务吞吐量和延迟的平衡

Jul 23, 2025

发表于 OSDI'24 的工作，提出了 Chunked Prefill 这一技术，实现了 LLM 推理服务在吞吐量和执行延迟上的平衡。

（论文阅读）IMPRESS：基于重要性指导的 LLM 多级 KV 存储系统

May 6, 2025

发表于 FAST'25 的工作，研究了 Token 的重要性，并进而辅助多级存储上的 KV Cache 替换策略。

阿里天池数据库大赛：高性能 Top-K 查询

Sep 1, 2021

简单参加了第三届阿里天池数据库大赛，终赛第九名。