- formatting
- images
- links
- math
- code
- blockquotes
•
•
•
•
•
-
KDD'25 | BurstGPT:我们收集了 1031 万条 Azure OpenAI 真实 trace,LLM 推理系统没你想的那么稳
-
KBS'21 | 我写的 AutoML 综述被引 2700+ 次,今天来聊聊这篇文章的来龙去脉
-
Eurosys26 | FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局 - marsggbo
layout: post title: "延迟降47%!FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局" date: 2026-05-14 tags: [LLM, MoE, 论文解读, 推理优化, Expert Offloading] Eurosys26 | FineMoE如何用「细粒
-
LoRA fine-tune吞吐量提升1.96倍!LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉 - marsggbo
layout: post title: "LoRA fine-tune吞吐量提升1.96倍!LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉" date: 2026-05-14 tags: [LLM, LoRA, 训练优化, Kernel Fusion, 分布式训练,
-
KV Cache 的两层存储到底卡在哪?FAST'26 这篇论文给出了答案 - marsggbo
layout: post title: "KV Cache 的两层存储到底卡在哪?FAST'26 这篇论文给出了答案" date: 2026-05-14 tags: [LLM, KV Cache, 论文解读, 系统优化, FAST] KV Cache 的两层存储到底卡在哪?FAST'26 这篇论文给