推理优化

an archive of posts with this tag

Jun 25, 2026 COLM'25 | PredGen:你还在说话,LLM 已经想好怎么回了
Jun 24, 2026 从零理解 ASR:音频基础、Qwen3-ASR 架构,以及离线 vs 流式推理原理
Jun 12, 2026 ICML'26 | Transformer 真的需要三个投影矩阵吗?Q-K=V 让 KV Cache 直接砍半
Jun 12, 2026 UPenn & Meta | NF-CoT:当 LLM 的思维链不再是文字,而是连续概率流
Jun 03, 2026 ReMoE:只动 Router 就让 MoE 推理快 2 倍?这才是端侧 MoE 部署该有的姿势
May 26, 2026 arXiv'26 | Frontier:LLM 推理仿真器,端到端误差从 51.7% 降到 2.6%
May 17, 2026 DAC'26 | ExpertFlow:让 MoE 大模型在单卡上跑起来,内存省 93%、速度快 10 倍
May 14, 2026 EuroSys'26 | LLMFolder 用常量折叠把 FFN 参数砍 80%,精度反超剪枝方法 65%
May 14, 2026 FAST'26 | SolidAttention 把 SSD 搬进 LLM 推理,笔记本也能跑 128k 上下文
May 14, 2026 LLM 推理启动慢?华为用一个「可编程 Page Cache」把模型加载砍了 79%
May 14, 2026 延迟降47%!FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局
May 10, 2026 把 Dense LLM 变成 MoE 还能推理提速?NeurIPS 2024 Read-ME 做到了
May 10, 2026 说人话理解 EPIC:KV Cache 复用的「编译-链接」范式(附可运行代码复现)
Apr 29, 2026 MoE 推理的内存墙,被一块多芯粒芯片打穿了?
Apr 27, 2026 KV Cache 也能「语义共享」?SemShareKV 用 LSH 做到了
Apr 27, 2026 多 Agent 协作不需要说「人话」?LatentMAS 让 LLM 在隐空间里直接协作