推理优化 | HE Xin

Jul 13, 2026	长音频转写慢 10 倍、99% 的 Attention 在白做功——MURMUR 是怎么解决的
Jul 09, 2026	vllm v1 源码精读（五）：从 generate() 到 Speculative Decoding 的完整计算流
Jul 07, 2026	投机解码到底能快多少？从理论建模到 closed-form 的完整推导
Jun 25, 2026	COLM'25 \| PredGen：你还在说话，LLM 已经想好怎么回了
Jun 24, 2026	从零理解 ASR：音频基础、Qwen3-ASR 架构，以及离线 vs 流式推理原理
Jun 12, 2026	ICML'26 \| Transformer 真的需要三个投影矩阵吗？Q-K=V 让 KV Cache 直接砍半
Jun 12, 2026	UPenn & Meta \| NF-CoT：当 LLM 的思维链不再是文字，而是连续概率流
Jun 03, 2026	ReMoE：只动 Router 就让 MoE 推理快 2 倍？这才是端侧 MoE 部署该有的姿势
May 26, 2026	arXiv'26 \| Frontier：LLM 推理仿真器，端到端误差从 51.7% 降到 2.6%
May 17, 2026	DAC'26 \| ExpertFlow：让 MoE 大模型在单卡上跑起来，内存省 93%、速度快 10 倍
May 14, 2026	EuroSys'26 \| LLMFolder 用常量折叠把 FFN 参数砍 80%，精度反超剪枝方法 65%
May 14, 2026	FAST'26 \| SolidAttention 把 SSD 搬进 LLM 推理，笔记本也能跑 128k 上下文
May 14, 2026	LLM 推理启动慢？华为用一个「可编程 Page Cache」把模型加载砍了 79%
May 14, 2026	延迟降47%！FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局
May 10, 2026	把 Dense LLM 变成 MoE 还能推理提速？NeurIPS 2024 Read-ME 做到了
May 10, 2026	说人话理解 EPIC：KV Cache 复用的「编译-链接」范式（附可运行代码复现）
Apr 29, 2026	MoE 推理的内存墙，被一块多芯粒芯片打穿了？
Apr 27, 2026	KV Cache 也能「语义共享」？SemShareKV 用 LSH 做到了
Apr 27, 2026	多 Agent 协作不需要说「人话」？LatentMAS 让 LLM 在隐空间里直接协作