| Jun 30, 2026 | ICLR'25 | SWIFT:不训练不搜索,Self-Speculative Decoding 的即插即用版 |
| Jun 30, 2026 | 2025 | SSD for dLLMs:扩散语言模型也能用推测解码,最高 3.46× |
| Jun 30, 2026 | arXiv'26 | SSD for ASR:用 CTC 编码器打草稿,LLM 验证,语音识别也能推测解码 |
| Jun 30, 2026 | WWW'26 | SS-MoE:显存墙下的 MoE 推理,Self-Speculative Decoding 怎么救场? |
| Jun 30, 2026 | EMNLP'23 | 不用额外模型,LLM 自己给自己加速——Self-Speculative Decoding 原理详解 |
| Jun 30, 2026 | ACL'24 | LayerSkip:Meta 把 Self-Speculative Decoding 从头训到尾,直接干到 2.16× |
| Jun 30, 2026 | 从图像到文本:Diffusion 模型原理全解——数学、结构、训练、推理一次讲清 |
| Jun 26, 2026 | 2026 | dLLM-ASR 让语音识别推理快 4.44 倍,还不掉精度 |
| Jun 25, 2026 | 公司里那个一言不发的马尾辫大叔,现在被装进了你的 AI agent 里 |
| Jun 25, 2026 | SpecASR:ASR 专属 Speculative Decoding,让 LLM 语音识别快 3.79 倍 |
| Jun 25, 2026 | COLM'25 | PredGen:你还在说话,LLM 已经想好怎么回了 |
| Jun 25, 2026 | LLM agent 为什么不稳?问题可能不在模型,在 harness |
| Jun 25, 2026 | Meta-Harness:让 LLM 自己搜索最优 harness,模型不动,性能白涨 |
| Jun 24, 2026 | 从零理解 ASR:音频基础、Qwen3-ASR 架构,以及离线 vs 流式推理原理 |
| Jun 18, 2026 | arXiv'26 | LLM Agents 让群体信念变得可编程:当 AI 开始系统性操控舆论 |
| Jun 16, 2026 | 进阶篇 | 不靠人工设计,让遗传算法自己进化出 SOTA 的 LLM 剪枝指标 |
| Jun 15, 2026 | 说人话:一文搞懂现在火热的 LLM agent 自进化原理 |
| Jun 12, 2026 | ICML'26 | Transformer 真的需要三个投影矩阵吗?Q-K=V 让 KV Cache 直接砍半 |
| Jun 12, 2026 | UPenn & Meta | NF-CoT:当 LLM 的思维链不再是文字,而是连续概率流 |
| Jun 12, 2026 | arXiv'26 | 为什么你的多智能体系统越加 agent 越慢?DeLM 用去中心化解了这个矛盾 |
| Jun 11, 2026 | arXiv'26 | Self-Harness:让 Agent 自己改自己的 harness,pass rate 最高翻倍 |
| Jun 11, 2026 | Anthropic | 当 AI 开始造自己:递归自我改进离我们有多远? |
| Jun 11, 2026 | arXiv'26 | FlashMemory-DeepSeek-V4:用 13.5% 的显存干 100% 的活,超长上下文推理的 less is more |
| Jun 07, 2026 | MoE 变 Dense:剪枝+蒸馏能救内存瓶颈吗? |
| Jun 03, 2026 | ReMoE:只动 Router 就让 MoE 推理快 2 倍?这才是端侧 MoE 部署该有的姿势 |
| Jun 02, 2026 | LLM 时代,还有人搞 AutoML 吗?有,而且变得更难了 |
| May 26, 2026 | arXiv'26 | Frontier:LLM 推理仿真器,端到端误差从 51.7% 降到 2.6% |
| May 26, 2026 | arXiv'26 | ELF:Flow Matching 生成文字,用 10 倍少的数据全面超越主流 Diffusion LM |
| May 19, 2026 | LLMRouterBench:当所有 routing 方法被拉到同一起跑线,结果有些尴尬 |
| May 19, 2026 | LLM Agent Memory 全景拆解:从 RAG 到 KV Cache 到参数写入,100+ 篇工作的方法演进与真实取舍 |
| May 17, 2026 | ICLR'26 Workshop Spotlight | Lang-PINN:让 LLM 多智能体帮你从自然语言一键搭建物理信息神经网络 |
| May 17, 2026 | DAC'26 | ExpertFlow:让 MoE 大模型在单卡上跑起来,内存省 93%、速度快 10 倍 |
| May 14, 2026 | EuroSys'26 | MFS 把整个 model family 融进一套嵌套模型,KVCache 跨 tier 直接共享 |
| May 14, 2026 | EuroSys'26 | LLMFolder 用常量折叠把 FFN 参数砍 80%,精度反超剪枝方法 65% |
| May 14, 2026 | EuroSys'26 | KUNSERVE 把冗余参数副本临时让给 KVCache,P99 TTFT 最快降 72× |
| May 14, 2026 | FAST'26 | SolidAttention 把 SSD 搬进 LLM 推理,笔记本也能跑 128k 上下文 |
| May 14, 2026 | LLM 推理启动慢?华为用一个「可编程 Page Cache」把模型加载砍了 79% |
| May 14, 2026 | KV Cache 的两层存储到底卡在哪?FAST'26 这篇论文给出了答案 |
| May 14, 2026 | LoRA fine-tune吞吐量提升1.96倍!LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉 |
| May 14, 2026 | 延迟降47%!FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局 |
| May 12, 2026 | 训练一个「会管技能库」的 AI——SkillOS 让 agent 真正越用越强 |
| May 12, 2026 | MoE 训练通信瓶颈有救了?DySHARP 直接在交换机里做计算,干掉 50% 冗余流量 |
| May 10, 2026 | 把 Dense LLM 变成 MoE 还能推理提速?NeurIPS 2024 Read-ME 做到了 |
| May 10, 2026 | 说人话理解 EPIC:KV Cache 复用的「编译-链接」范式(附可运行代码复现) |
| Apr 29, 2026 | MoE 推理的内存墙,被一块多芯粒芯片打穿了? |
| Apr 27, 2026 | KV Cache 也能「语义共享」?SemShareKV 用 LSH 做到了 |
| Apr 27, 2026 | 多 Agent 协作不需要说「人话」?LatentMAS 让 LLM 在隐空间里直接协作 |
| Apr 26, 2026 | KVCOMM:让多 Agent 系统的 KV Cache 真正“通起来”,TTFT 直接砍掉 7.8 倍 |
| Apr 26, 2026 | KV Cache 复用的第三条路:FAST 2026 CacheSlide 是怎么解决 Agent 推理的位置漂移问题的 |
| Apr 26, 2026 | 让不同 LLM 之间共享 KV Cache?DroidSpeak 是怎么做到的 |
| Mar 12, 2026 | AutoHete: 面向大语言模型的自动化高效异构训练系统 | An Automatic and Efficient Heterogeneous Training System for LLMs |
| Mar 12, 2026 | Ghost in the Cloud: 地理分布式大模型训练的安全隐患 | Your Geo-distributed LLM Training is Easily Manipulated |
| Mar 12, 2026 | Lang-PINN: 从自然语言到物理信息神经网络的多智能体框架 | From Language to PINNs via a Multi-Agent Framework |
| Mar 12, 2026 | ExpertFlow: 基于预测性专家缓存与令牌调度的高效MoE推理 | Efficient MoE Inference via Predictive Expert Caching and Token Scheduling |
| Feb 04, 2024 | vLLM 源码解析(二) |
| Feb 04, 2024 | vLLM 源码解析(一) |