MoE | HE Xin

Jul 28, 2026	DAC'26 \| ExpertFlow 让 MoE 推理不再被显存卡脖子：单卡跑 Mixtral-8x7B，吞吐最高提升 10 倍
Jul 23, 2026	OSDI'26 \| 双路 CPU + 两张 5090，本地跑满血 671B DeepSeek：云端 SLO 是怎么在消费级硬件上达成的
Jul 22, 2026	arXiv'25 \| SMoE：expert 不在 GPU 上？别搬了，找个'平替'直接算
Jul 22, 2026	arXiv'26 \| ST-MoE：expert 激活不是随机的——用时空相关性把 expert 提前搬上片
Jul 22, 2026	arXiv'26 \| DySHARP：MoE 通信里一半流量是重复的，让 NVSwitch 帮你去重
Jun 30, 2026	WWW'26 \| SS-MoE：显存墙下的 MoE 推理，Self-Speculative Decoding 怎么救场？
Jun 17, 2026	巴西「主权大模型」翻车：当模型可以随便融合，怎么证明它偷了你的权重？
Jun 07, 2026	MoE 变 Dense：剪枝+蒸馏能救内存瓶颈吗？
Jun 03, 2026	ReMoE：只动 Router 就让 MoE 推理快 2 倍？这才是端侧 MoE 部署该有的姿势
May 17, 2026	DAC'26 \| ExpertFlow：让 MoE 大模型在单卡上跑起来，内存省 93%、速度快 10 倍
May 14, 2026	延迟降47%！FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局
May 12, 2026	MoE 训练通信瓶颈有救了？DySHARP 直接在交换机里做计算，干掉 50% 冗余流量
May 10, 2026	把 Dense LLM 变成 MoE 还能推理提速？NeurIPS 2024 Read-ME 做到了
Apr 29, 2026	MoE 推理的内存墙，被一块多芯粒芯片打穿了？
Mar 12, 2026	RouteMark: 基于路由行为指纹的模型合并知识产权归属 \| A Fingerprint for IP Attribution in Routing-based Model Merging
Mar 12, 2026	ExpertFlow: 基于预测性专家缓存与令牌调度的高效MoE推理 \| Efficient MoE Inference via Predictive Expert Caching and Token Scheduling