推理优化
an archive of posts with this tag
| May 17, 2026 | DAC'26 | ExpertFlow:让 MoE 大模型在单卡上跑起来,内存省 93%、速度快 10 倍 |
|---|---|
| May 14, 2026 | EuroSys'26 | LLMFolder 用常量折叠把 FFN 参数砍 80%,精度反超剪枝方法 65% |
| May 14, 2026 | FAST'26 | SolidAttention 把 SSD 搬进 LLM 推理,笔记本也能跑 128k 上下文 |
| May 14, 2026 | LLM 推理启动慢?华为用一个「可编程 Page Cache」把模型加载砍了 79% |
| May 14, 2026 | 延迟降47%!FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局 |
| May 10, 2026 | 把 Dense LLM 变成 MoE 还能推理提速?NeurIPS 2024 Read-ME 做到了 |
| May 10, 2026 | 说人话理解 EPIC:KV Cache 复用的「编译-链接」范式(附可运行代码复现) |
| Apr 29, 2026 | MoE 推理的内存墙,被一块多芯粒芯片打穿了? |
| Apr 27, 2026 | KV Cache 也能「语义共享」?SemShareKV 用 LSH 做到了 |
| Apr 27, 2026 | 多 Agent 协作不需要说「人话」?LatentMAS 让 LLM 在隐空间里直接协作 |