2026

an archive of posts from this year

May 26, 2026 arXiv'26 | Frontier:LLM 推理仿真器,端到端误差从 51.7% 降到 2.6%
May 26, 2026 arXiv'26 | ELF:Flow Matching 生成文字,用 10 倍少的数据全面超越主流 Diffusion LM
May 19, 2026 LLMRouterBench:当所有 routing 方法被拉到同一起跑线,结果有些尴尬
May 19, 2026 LLM Agent Memory 全景拆解:从 RAG 到 KV Cache 到参数写入,100+ 篇工作的方法演进与真实取舍
May 17, 2026 EuroSys'26 | TokenFlow:让 LLM 流式输出真正「流」起来
May 17, 2026 AAAI'23 | NAS-LID:用「局部内在维度」给超网做体检,省 86% 显存
May 17, 2026 ICLR'26 Workshop Spotlight | Lang-PINN:让 LLM 多智能体帮你从自然语言一键搭建物理信息神经网络
May 17, 2026 DAC'26 | ExpertFlow:让 MoE 大模型在单卡上跑起来,内存省 93%、速度快 10 倍
May 17, 2026 KDD'25 | BurstGPT:我们收集了 1031 万条 Azure OpenAI 真实 trace,LLM 推理系统没你想的那么稳
May 17, 2026 KBS'21 | 我写的 AutoML 综述被引 2700+ 次,今天来聊聊这篇文章的来龙去脉
May 16, 2026 Eurosys26 | FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局 - marsggbo
May 16, 2026 LoRA fine-tune吞吐量提升1.96倍!LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉 - marsggbo
May 16, 2026 KV Cache 的两层存储到底卡在哪?FAST'26 这篇论文给出了答案 - marsggbo
May 16, 2026 Fast26 | LLM 推理启动慢?华为用一个「可编程 Page Cache」把模型加载砍了 79% - marsggbo
May 14, 2026 EuroSys'26 | PARD 提前丢掉注定超时的请求,goodput 最高提升 176%
May 14, 2026 EuroSys'26 | MFS 把整个 model family 融进一套嵌套模型,KVCache 跨 tier 直接共享
May 14, 2026 EuroSys'26 | LLMFolder 用常量折叠把 FFN 参数砍 80%,精度反超剪枝方法 65%
May 14, 2026 EuroSys'26 | KUNSERVE 把冗余参数副本临时让给 KVCache,P99 TTFT 最快降 72×
May 14, 2026 EuroSys'26 | IBP 用无损 bit 压缩缓解 PCIe 瓶颈,GNN/DLRM/LLM 推理都能用
May 14, 2026 FAST'26 | SolidAttention 把 SSD 搬进 LLM 推理,笔记本也能跑 128k 上下文
May 14, 2026 LLM 推理启动慢?华为用一个「可编程 Page Cache」把模型加载砍了 79%
May 14, 2026 KV Cache 的两层存储到底卡在哪?FAST'26 这篇论文给出了答案
May 14, 2026 LoRA fine-tune吞吐量提升1.96倍!LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉
May 14, 2026 延迟降47%!FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局
May 12, 2026 训练一个「会管技能库」的 AI——SkillOS 让 agent 真正越用越强
May 12, 2026 MoE 训练通信瓶颈有救了?DySHARP 直接在交换机里做计算,干掉 50% 冗余流量
May 12, 2026 2508_06526
May 10, 2026 NeurIPS24 | 把Dense LLM变身MoE还提速 - marsggbo
May 10, 2026 ICML25 | EPIC:KV Cache 复用的「编译-链接」范式(附可运行代码复现) - marsggbo
May 10, 2026 把 Dense LLM 变成 MoE 还能推理提速?NeurIPS 2024 Read-ME 做到了
May 10, 2026 说人话理解 EPIC:KV Cache 复用的「编译-链接」范式(附可运行代码复现)
Apr 29, 2026 MoE 推理的内存墙,被一块多芯粒芯片打穿了? - marsggbo
Apr 29, 2026 KV Cache 复用的第三条路:FAST 2026 CacheSlide 是怎么解决 Agent 推理的位置漂移问题的 - marsggbo
Apr 29, 2026 KVCOMM:让多 Agent 系统的 KV Cache 真正“通起来”,TTFT 直接砍掉 7.8 倍 - marsggbo
Apr 29, 2026 MoE 推理的内存墙,被一块多芯粒芯片打穿了?
Apr 27, 2026 KV Cache 也能「语义共享」?SemShareKV 用 LSH 做到了
Apr 27, 2026 写完 Markdown 还要手动排版?我写了个 VS Code 插件一键搞定微信公众号、知乎、小红书
Apr 27, 2026 多 Agent 协作不需要说「人话」?LatentMAS 让 LLM 在隐空间里直接协作
Apr 26, 2026 NSDI26 | DroidSpeak让不同 LLM 之间共享 KV Cache - marsggbo
Apr 26, 2026 KVCOMM:让多 Agent 系统的 KV Cache 真正“通起来”,TTFT 直接砍掉 7.8 倍
Apr 26, 2026 KV Cache 复用的第三条路:FAST 2026 CacheSlide 是怎么解决 Agent 推理的位置漂移问题的
Apr 26, 2026 让不同 LLM 之间共享 KV Cache?DroidSpeak 是怎么做到的
Apr 24, 2026 TokenDance 解决多 Agent LLM 推理的 KV Cache 冗余问题 - marsggbo
Apr 03, 2026 当 AI 开始学会"记住":LLM Agent 记忆系统的统一视角 - marsggbo
Mar 12, 2026 RouteMark: 基于路由行为指纹的模型合并知识产权归属 | A Fingerprint for IP Attribution in Routing-based Model Merging
Mar 12, 2026 AutoHete: 面向大语言模型的自动化高效异构训练系统 | An Automatic and Efficient Heterogeneous Training System for LLMs
Mar 12, 2026 GM-Skip: 基于度量引导的 Transformer 块跳过策略加速视觉语言模型 | Metric-Guided Transformer Block Skipping for Efficient VLMs
Mar 12, 2026 Ghost in the Cloud: 地理分布式大模型训练的安全隐患 | Your Geo-distributed LLM Training is Easily Manipulated
Mar 12, 2026 Lang-PINN: 从自然语言到物理信息神经网络的多智能体框架 | From Language to PINNs via a Multi-Agent Framework
Mar 12, 2026 ExpertFlow: 基于预测性专家缓存与令牌调度的高效MoE推理 | Efficient MoE Inference via Predictive Expert Caching and Token Scheduling