LLM | HE Xin

Jun 11, 2026	arXiv'26 \| Self-Harness：让 Agent 自己改自己的 harness，pass rate 最高翻倍
Jun 11, 2026	arXiv'26 \| FlashMemory-DeepSeek-V4：用 13.5% 的显存干 100% 的活，超长上下文推理的 less is more
Jun 07, 2026	MoE 变 Dense：剪枝+蒸馏能救内存瓶颈吗？
Jun 03, 2026	ReMoE：只动 Router 就让 MoE 推理快 2 倍？这才是端侧 MoE 部署该有的姿势
Jun 02, 2026	LLM 时代，还有人搞 AutoML 吗？有，而且变得更难了
May 26, 2026	arXiv'26 \| Frontier：LLM 推理仿真器，端到端误差从 51.7% 降到 2.6%
May 26, 2026	arXiv'26 \| ELF：Flow Matching 生成文字，用 10 倍少的数据全面超越主流 Diffusion LM
May 19, 2026	LLMRouterBench：当所有 routing 方法被拉到同一起跑线，结果有些尴尬
May 19, 2026	LLM Agent Memory 全景拆解：从 RAG 到 KV Cache 到参数写入，100+ 篇工作的方法演进与真实取舍
May 17, 2026	ICLR'26 Workshop Spotlight \| Lang-PINN：让 LLM 多智能体帮你从自然语言一键搭建物理信息神经网络
May 17, 2026	DAC'26 \| ExpertFlow：让 MoE 大模型在单卡上跑起来，内存省 93%、速度快 10 倍
May 14, 2026	EuroSys'26 \| MFS 把整个 model family 融进一套嵌套模型，KVCache 跨 tier 直接共享
May 14, 2026	EuroSys'26 \| LLMFolder 用常量折叠把 FFN 参数砍 80%，精度反超剪枝方法 65%
May 14, 2026	EuroSys'26 \| KUNSERVE 把冗余参数副本临时让给 KVCache，P99 TTFT 最快降 72×
May 14, 2026	FAST'26 \| SolidAttention 把 SSD 搬进 LLM 推理，笔记本也能跑 128k 上下文
May 14, 2026	LLM 推理启动慢？华为用一个「可编程 Page Cache」把模型加载砍了 79%
May 14, 2026	KV Cache 的两层存储到底卡在哪？FAST'26 这篇论文给出了答案
May 14, 2026	LoRA fine-tune吞吐量提升1.96倍！LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉
May 14, 2026	延迟降47%！FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局
May 12, 2026	训练一个「会管技能库」的 AI——SkillOS 让 agent 真正越用越强
May 12, 2026	MoE 训练通信瓶颈有救了？DySHARP 直接在交换机里做计算，干掉 50% 冗余流量
May 10, 2026	把 Dense LLM 变成 MoE 还能推理提速？NeurIPS 2024 Read-ME 做到了
May 10, 2026	说人话理解 EPIC：KV Cache 复用的「编译-链接」范式（附可运行代码复现）
Apr 29, 2026	MoE 推理的内存墙，被一块多芯粒芯片打穿了？
Apr 27, 2026	KV Cache 也能「语义共享」？SemShareKV 用 LSH 做到了
Apr 27, 2026	多 Agent 协作不需要说「人话」？LatentMAS 让 LLM 在隐空间里直接协作
Apr 26, 2026	KVCOMM：让多 Agent 系统的 KV Cache 真正“通起来”，TTFT 直接砍掉 7.8 倍
Apr 26, 2026	KV Cache 复用的第三条路：FAST 2026 CacheSlide 是怎么解决 Agent 推理的位置漂移问题的
Apr 26, 2026	让不同 LLM 之间共享 KV Cache？DroidSpeak 是怎么做到的
Mar 12, 2026	AutoHete: 面向大语言模型的自动化高效异构训练系统 \| An Automatic and Efficient Heterogeneous Training System for LLMs
Mar 12, 2026	Ghost in the Cloud: 地理分布式大模型训练的安全隐患 \| Your Geo-distributed LLM Training is Easily Manipulated
Mar 12, 2026	Lang-PINN: 从自然语言到物理信息神经网络的多智能体框架 \| From Language to PINNs via a Multi-Agent Framework
Mar 12, 2026	ExpertFlow: 基于预测性专家缓存与令牌调度的高效MoE推理 \| Efficient MoE Inference via Predictive Expert Caching and Token Scheduling
Feb 04, 2024	vLLM 源码解析（二）
Feb 04, 2024	vLLM 源码解析（一）