- formatting
- images
- links
- math
- code
- blockquotes
•
•
•
•
•
-
DAC'26 | ExpertFlow:让 MoE 大模型在单卡上跑起来,内存省 93%、速度快 10 倍
-
KDD'25 | BurstGPT:我们收集了 1031 万条 Azure OpenAI 真实 trace,LLM 推理系统没你想的那么稳
-
KBS'21 | 我写的 AutoML 综述被引 2700+ 次,今天来聊聊这篇文章的来龙去脉
-
Eurosys26 | FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局 - marsggbo
layout: post title: "延迟降47%!FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局" date: 2026-05-14 tags: [LLM, MoE, 论文解读, 推理优化, Expert Offloading] Eurosys26 | FineMoE如何用「细粒
-
LoRA fine-tune吞吐量提升1.96倍!LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉 - marsggbo
layout: post title: "LoRA fine-tune吞吐量提升1.96倍!LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉" date: 2026-05-14 tags: [LLM, LoRA, 训练优化, Kernel Fusion, 分布式训练,