May 14, 2026 说人话理解 PARD:为什么有些请求要提前丢掉,goodput 反而更高? May 14, 2026 说人话理解 MFS:把一个模型家族塞进同一个大模型里 May 14, 2026 用编译器「常量折叠」的思路压缩 LLM?这篇 EuroSys 2026 的工作把 FFN 参数砍了 80% May 14, 2026 说人话理解 KUNSERVE:LLM Serving 爆内存时,为什么要先丢参数? May 14, 2026 说人话理解 IBP:不用量化,也能缓解 GPU 内存搬运瓶颈? May 14, 2026 笔记本也能跑 128k 上下文 LLM?SolidAttention 把 SSD 玩出了新花样 May 14, 2026 LLM 推理启动慢?华为用一个「可编程 Page Cache」把模型加载砍了 79% May 14, 2026 KV Cache 的两层存储到底卡在哪?FAST'26 这篇论文给出了答案 May 14, 2026 LoRA fine-tune吞吐量提升1.96倍!LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉 May 14, 2026 延迟降47%!FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局 May 12, 2026 训练一个「会管技能库」的 AI——SkillOS 让 agent 真正越用越强 May 12, 2026 MoE 训练通信瓶颈有救了?DySHARP 直接在交换机里做计算,干掉 50% 冗余流量 May 10, 2026 把 Dense LLM 变成 MoE 还能推理提速?NeurIPS 2024 Read-ME 做到了 May 10, 2026 说人话理解 EPIC:KV Cache 复用的「编译-链接」范式(附可运行代码复现) Apr 29, 2026 MoE 推理的内存墙,被一块多芯粒芯片打穿了? Apr 27, 2026 KV Cache 也能「语义共享」?SemShareKV 用 LSH 做到了 Apr 27, 2026 多 Agent 协作不需要说「人话」?LatentMAS 让 LLM 在隐空间里直接协作 Apr 26, 2026 KVCOMM:让多 Agent 系统的 KV Cache 真正“通起来”,TTFT 直接砍掉 7.8 倍 Apr 26, 2026 KV Cache 复用的第三条路:FAST 2026 CacheSlide 是怎么解决 Agent 推理的位置漂移问题的 Apr 26, 2026 让不同 LLM 之间共享 KV Cache?DroidSpeak 是怎么做到的