- formatting
- images
- links
- math
- code
- blockquotes
•
•
•
•
•
-
KBS'21 | 我写的 AutoML 综述被引 2700+ 次,今天来聊聊这篇文章的来龙去脉
-
Eurosys26 | FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局 - marsggbo
layout: post title: "延迟降47%!FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局" date: 2026-05-14 tags: [LLM, MoE, 论文解读, 推理优化, Expert Offloading] Eurosys26 | FineMoE如何用「细粒
-
LoRA fine-tune吞吐量提升1.96倍!LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉 - marsggbo
layout: post title: "LoRA fine-tune吞吐量提升1.96倍!LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉" date: 2026-05-14 tags: [LLM, LoRA, 训练优化, Kernel Fusion, 分布式训练,
-
KV Cache 的两层存储到底卡在哪?FAST'26 这篇论文给出了答案 - marsggbo
layout: post title: "KV Cache 的两层存储到底卡在哪?FAST'26 这篇论文给出了答案" date: 2026-05-14 tags: [LLM, KV Cache, 论文解读, 系统优化, FAST] KV Cache 的两层存储到底卡在哪?FAST'26 这篇论文给
-
Fast26 | LLM 推理启动慢?华为用一个「可编程 Page Cache」把模型加载砍了 79% - marsggbo
layout: post title: "LLM 推理启动慢?华为用一个「可编程 Page Cache」把模型加载砍了 79%" date: 2026-05-14 tags: [LLM, 推理优化, 系统, 论文解读, FAST] LLM 推理启动慢?华为用一个「可编程 Page Cache」把模型