2026 | HE Xin

Jul 28, 2026
Jul 28, 2026	106K star 的开源 ASR 老祖宗 \| 重读 Whisper 原论文的每一个技术细节
Jul 28, 2026	DAC'26 \| ExpertFlow 让 MoE 推理不再被显存卡脖子：单卡跑 Mixtral-8x7B，吞吐最高提升 10 倍
Jul 27, 2026	OSDI'26 \| 双路 CPU + 两张 5090，本地跑满血 671B DeepSeek：云端 SLO 是怎么在消费级硬件上达成的 - marsggbo
Jul 27, 2026	arXiv'26 \| 无损压缩逼近 Shannon 极限：你的 LLM 权重里一半以上的 bit 是白存的 - marsggbo
Jul 27, 2026	arXiv'25 \| SMoE：expert 不在 GPU 上？别搬了，找个'平替'直接算 - marsggbo
Jul 27, 2026	arXiv'26 \| PLENA：Agent 时代的 LLM 推理，被两堵 Memory Wall 卡住了 - marsggbo
Jul 27, 2026	arXiv'26 \| ST-MoE：expert 激活不是随机的——用时空相关性把 expert 提前搬上片 - marsggbo
Jul 27, 2026	arXiv'26 \| DySHARP：MoE 通信里一半流量是重复的，让 NVSwitch 帮你去重 - marsggbo
Jul 27, 2026	arXiv'26 \| Cassandra：不训练、不加显存，把 draft model 从 target 模型的 bit 里抠出来 - marsggbo
Jul 27, 2026	DAC'26 \| SlideFormer 让单张 4090 全参微调 123B 模型 - marsggbo
Jul 27, 2026	arXiv'26 \| StepAudio 2.5：一个底座三种人格，ASR 模式把 RTF 干到 0.0053 - marsggbo
Jul 27, 2026	Self-Speculative Decoding 简史：不引入额外模型，用自己给自己打草稿这件事到底能走多远 - marsggbo
Jul 27, 2026	arXiv'24 \| SenseVoice：10 秒音频 70ms 转完，阿里在 LLM 化浪潮里逆行的 non-autoregressive 路线 - marsggbo
Jul 27, 2026	arXiv'26 \| Qwen3-ASR：1.7B 对线 GPT-4o，阿里把 ASR 卷成了'又小又快又开源' - marsggbo
Jul 27, 2026	arXiv'24 \| Seed-ASR：字节跳动把 ASR 做成了'给 LLM 喂音频'，上下文感知才是杀手锏 - marsggbo
Jul 27, 2026	arXiv'25 \| MiMo-Audio：小米用 1 亿小时音频复刻 GPT-3 时刻，few-shot 能力真的涌现了 - marsggbo
Jul 27, 2026	arXiv'25 \| Kimi-Audio：1300 万小时音频 + 混合 token 输入，月之暗面的通用音频底座怎么搭 - marsggbo
Jul 27, 2026	arXiv'25 \| FireRedASR：小红书用 7 万小时人工标注告诉你，数据质量能打赢参数量 - marsggbo
Jul 27, 2026	大厂 ASR 技术报告横评：从 Seed-ASR 到 StepAudio 2.5，两年时间行业共识是怎么形成的 - marsggbo
Jul 27, 2026	长音频转写慢 10 倍、99% 的 Attention 在白做功——MURMUR 是怎么解决的 - marsggbo
Jul 27, 2026	一篇 Markdown，一键发到微信、知乎、小红书、Twitter - marsggbo
Jul 27, 2026	Gemma 4 拆解 \| 多模态怎么塞进端侧，MTP drafter 又是怎么自带投机采样的 - marsggbo
Jul 27, 2026	arXiv'26 \| Foundry 把 LLM 冷启动的 CUDA Graph 捕获从 10 分钟压到 3.9 秒
Jul 27, 2026	ICML'26 Workshop \| 韩英混说训好了，韩日混说能白拿吗？答案是：几乎不能
Jul 23, 2026	OSDI'26 \| 双路 CPU + 两张 5090，本地跑满血 671B DeepSeek：云端 SLO 是怎么在消费级硬件上达成的
Jul 22, 2026	arXiv'25 \| SMoE：expert 不在 GPU 上？别搬了，找个'平替'直接算
Jul 22, 2026	arXiv'26 \| 无损压缩逼近 Shannon 极限：你的 LLM 权重里一半以上的 bit 是白存的
Jul 22, 2026	arXiv'26 \| PLENA：Agent 时代的 LLM 推理，被两堵 Memory Wall 卡住了
Jul 22, 2026	arXiv'26 \| ST-MoE：expert 激活不是随机的——用时空相关性把 expert 提前搬上片
Jul 22, 2026	arXiv'26 \| DySHARP：MoE 通信里一半流量是重复的，让 NVSwitch 帮你去重
Jul 22, 2026	arXiv'26 \| Cassandra：不训练、不加显存，把 draft model 从 target 模型的 bit 里抠出来
Jul 21, 2026	DAC'26 \| SlideFormer 让单张 4090 全参微调 123B 模型
Jul 15, 2026	arXiv'26 \| StepAudio 2.5：一个底座三种人格，ASR 模式把 RTF 干到 0.0053
Jul 15, 2026	Self-Speculative Decoding 简史：不引入额外模型，用自己给自己打草稿这件事到底能走多远
Jul 15, 2026	arXiv'24 \| SenseVoice：10 秒音频 70ms 转完，阿里在 LLM 化浪潮里逆行的 non-autoregressive 路线
Jul 15, 2026	arXiv'24 \| Seed-ASR：字节跳动把 ASR 做成了'给 LLM 喂音频'，上下文感知才是杀手锏
Jul 15, 2026	arXiv'26 \| Qwen3-ASR：1.7B 对线 GPT-4o，阿里把 ASR 卷成了'又小又快又开源'
Jul 15, 2026	arXiv'25 \| MiMo-Audio：小米用 1 亿小时音频复刻 GPT-3 时刻，few-shot 能力真的涌现了
Jul 15, 2026	arXiv'25 \| Kimi-Audio：1300 万小时音频 + 混合 token 输入，月之暗面的通用音频底座怎么搭
Jul 15, 2026	arXiv'25 \| FireRedASR：小红书用 7 万小时人工标注告诉你，数据质量能打赢参数量
Jul 15, 2026	大厂 ASR 技术报告横评：从 Seed-ASR 到 StepAudio 2.5，两年时间行业共识是怎么形成的
Jul 13, 2026	长音频转写慢 10 倍、99% 的 Attention 在白做功——MURMUR 是怎么解决的
Jul 12, 2026	一篇 Markdown，一键发到微信、知乎、小红书、Twitter
Jul 12, 2026	Gemma 4 拆解 \| 多模态怎么塞进端侧，MTP drafter 又是怎么自带投机采样的
Jul 09, 2026	vllm v1 源码精读（五）：从 generate() 到 Speculative Decoding 的完整计算流
Jul 08, 2026	GPU 算力没在算模型，在等 CPU 发号施令——CUDA Graph 是怎么解决这件事的
Jul 07, 2026	推理模型做 decode，GPU 只有 3% 在干活——SparseSpec 把稀疏 Attention 变成了 2.1× 加速
Jul 07, 2026	投机解码到底能快多少？从理论建模到 closed-form 的完整推导
Jul 06, 2026	vllm v1 源码解析（四）：插件系统——用 Python entry_points 实现零侵入扩展
Jul 06, 2026	vllm v1 源码精读（三）：KV Cache 管理、Chunked Prefill 与异步架构
Jul 06, 2026	vllm v1 源码精读（二）：generate() 计算流——model.forward() 在哪里被调用？
Jul 06, 2026	vllm v1 源码精读（一）：为什么要重写，以及 LLM() 这行代码背后发生了什么
Jul 06, 2026	160 个 AI 比 80 个效果更差？这篇论文量化了一件大家隐约知道但说不清楚的事
Jun 30, 2026	ICLR'25 \| SWIFT：不训练不搜索，Self-Speculative Decoding 的即插即用版
Jun 30, 2026	2025 \| SSD for dLLMs：扩散语言模型也能用推测解码，最高 3.46×
Jun 30, 2026	arXiv'26 \| SSD for ASR：用 CTC 编码器打草稿，LLM 验证，语音识别也能推测解码
Jun 30, 2026	WWW'26 \| SS-MoE：显存墙下的 MoE 推理，Self-Speculative Decoding 怎么救场？
Jun 30, 2026	EMNLP'23 \| 不用额外模型，LLM 自己给自己加速——Self-Speculative Decoding 原理详解
Jun 30, 2026	ACL'24 \| LayerSkip：Meta 把 Self-Speculative Decoding 从头训到尾，直接干到 2.16×
Jun 30, 2026	从图像到文本：Diffusion 模型原理全解——数学、结构、训练、推理一次讲清
Jun 30, 2026	贝叶斯优化从零推导：从「我对这个函数有个猜测」到自动调参
Jun 26, 2026	长音频转写慢 10 倍，99% 的 Attention 在白做功——MURMUR 如何破解这道难题
Jun 26, 2026	2026 \| dLLM-ASR 让语音识别推理快 4.44 倍，还不掉精度
Jun 25, 2026	公司里那个一言不发的马尾辫大叔，现在被装进了你的 AI agent 里
Jun 25, 2026	SpecASR：ASR 专属 Speculative Decoding，让 LLM 语音识别快 3.79 倍
Jun 25, 2026	COLM'25 \| PredGen：你还在说话，LLM 已经想好怎么回了
Jun 25, 2026	LLM agent 为什么不稳？问题可能不在模型，在 harness
Jun 25, 2026	Meta-Harness：让 LLM 自己搜索最优 harness，模型不动，性能白涨
Jun 24, 2026	从零理解 ASR：音频基础、Qwen3-ASR 架构，以及离线 vs 流式推理原理
Jun 18, 2026	arXiv'26 \| LLM Agents 让群体信念变得可编程：当 AI 开始系统性操控舆论
Jun 17, 2026	巴西「主权大模型」翻车：当模型可以随便融合，怎么证明它偷了你的权重？
Jun 16, 2026	进阶篇 \| 不靠人工设计，让遗传算法自己进化出 SOTA 的 LLM 剪枝指标
Jun 15, 2026	说人话：一文搞懂现在火热的 LLM agent 自进化原理
Jun 12, 2026	ICML'26 \| Transformer 真的需要三个投影矩阵吗？Q-K=V 让 KV Cache 直接砍半
Jun 12, 2026	UPenn & Meta \| NF-CoT：当 LLM 的思维链不再是文字，而是连续概率流
Jun 12, 2026	arXiv'26 \| 为什么你的多智能体系统越加 agent 越慢？DeLM 用去中心化解了这个矛盾
Jun 11, 2026	arXiv'26 \| Self-Harness：让 Agent 自己改自己的 harness，pass rate 最高翻倍
Jun 11, 2026	Anthropic \| 当 AI 开始造自己：递归自我改进离我们有多远？
Jun 11, 2026	arXiv'26 \| Mirage：把世界模型的 3D 记忆搬进 Latent Space，快 10 倍还省 55 倍显存
Jun 11, 2026	arXiv'26 \| FlashMemory-DeepSeek-V4：用 13.5% 的显存干 100% 的活，超长上下文推理的 less is more
Jun 07, 2026	MoE 变 Dense：剪枝+蒸馏能救内存瓶颈吗？
Jun 03, 2026	ReMoE：只动 Router 就让 MoE 推理快 2 倍？这才是端侧 MoE 部署该有的姿势
Jun 02, 2026	LLM 时代，还有人搞 AutoML 吗？有，而且变得更难了
May 26, 2026	arXiv'26 \| Frontier：LLM 推理仿真器，端到端误差从 51.7% 降到 2.6%
May 26, 2026	arXiv'26 \| ELF：Flow Matching 生成文字，用 10 倍少的数据全面超越主流 Diffusion LM
May 19, 2026	LLMRouterBench：当所有 routing 方法被拉到同一起跑线，结果有些尴尬
May 19, 2026	LLM Agent Memory 全景拆解：从 RAG 到 KV Cache 到参数写入，100+ 篇工作的方法演进与真实取舍
May 17, 2026	EuroSys'26 \| TokenFlow：让 LLM 流式输出真正「流」起来
May 17, 2026	AAAI'23 \| NAS-LID：用「局部内在维度」给超网做体检，省 86% 显存
May 17, 2026	ICLR'26 Workshop Spotlight \| Lang-PINN：让 LLM 多智能体帮你从自然语言一键搭建物理信息神经网络
May 17, 2026	DAC'26 \| ExpertFlow：让 MoE 大模型在单卡上跑起来，内存省 93%、速度快 10 倍
May 17, 2026	KDD'25 \| BurstGPT：我们收集了 1031 万条 Azure OpenAI 真实 trace，LLM 推理系统没你想的那么稳
May 17, 2026	KBS'21 \| 我写的 AutoML 综述被引 2700+ 次，今天来聊聊这篇文章的来龙去脉
May 14, 2026	EuroSys'26 \| PARD 提前丢掉注定超时的请求，goodput 最高提升 176%
May 14, 2026	EuroSys'26 \| MFS 把整个 model family 融进一套嵌套模型，KVCache 跨 tier 直接共享
May 14, 2026	EuroSys'26 \| LLMFolder 用常量折叠把 FFN 参数砍 80%，精度反超剪枝方法 65%
May 14, 2026	EuroSys'26 \| KUNSERVE 把冗余参数副本临时让给 KVCache，P99 TTFT 最快降 72×
May 14, 2026	EuroSys'26 \| IBP 用无损 bit 压缩缓解 PCIe 瓶颈，GNN/DLRM/LLM 推理都能用
May 14, 2026	FAST'26 \| SolidAttention 把 SSD 搬进 LLM 推理，笔记本也能跑 128k 上下文
May 14, 2026	LLM 推理启动慢？华为用一个「可编程 Page Cache」把模型加载砍了 79%
May 14, 2026	KV Cache 的两层存储到底卡在哪？FAST'26 这篇论文给出了答案
May 14, 2026	LoRA fine-tune吞吐量提升1.96倍！LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉
May 14, 2026	延迟降47%！FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局
May 12, 2026	训练一个「会管技能库」的 AI——SkillOS 让 agent 真正越用越强
May 12, 2026	MoE 训练通信瓶颈有救了？DySHARP 直接在交换机里做计算，干掉 50% 冗余流量
May 12, 2026	2508_06526
May 10, 2026	把 Dense LLM 变成 MoE 还能推理提速？NeurIPS 2024 Read-ME 做到了
May 10, 2026	说人话理解 EPIC：KV Cache 复用的「编译-链接」范式（附可运行代码复现）
Apr 29, 2026	MoE 推理的内存墙，被一块多芯粒芯片打穿了？
Apr 27, 2026	KV Cache 也能「语义共享」？SemShareKV 用 LSH 做到了
Apr 27, 2026	写完 Markdown 还要手动排版？我写了个 VS Code 插件一键搞定微信公众号、知乎、小红书
Apr 27, 2026	多 Agent 协作不需要说「人话」？LatentMAS 让 LLM 在隐空间里直接协作
Apr 26, 2026	KVCOMM：让多 Agent 系统的 KV Cache 真正“通起来”，TTFT 直接砍掉 7.8 倍
Apr 26, 2026	KV Cache 复用的第三条路：FAST 2026 CacheSlide 是怎么解决 Agent 推理的位置漂移问题的
Apr 26, 2026	让不同 LLM 之间共享 KV Cache？DroidSpeak 是怎么做到的
Mar 12, 2026	RouteMark: 基于路由行为指纹的模型合并知识产权归属 \| A Fingerprint for IP Attribution in Routing-based Model Merging
Mar 12, 2026	AutoHete: 面向大语言模型的自动化高效异构训练系统 \| An Automatic and Efficient Heterogeneous Training System for LLMs
Mar 12, 2026	GM-Skip: 基于度量引导的 Transformer 块跳过策略加速视觉语言模型 \| Metric-Guided Transformer Block Skipping for Efficient VLMs
Mar 12, 2026	Ghost in the Cloud: 地理分布式大模型训练的安全隐患 \| Your Geo-distributed LLM Training is Easily Manipulated
Mar 12, 2026	Lang-PINN: 从自然语言到物理信息神经网络的多智能体框架 \| From Language to PINNs via a Multi-Agent Framework
Mar 12, 2026	ExpertFlow: 基于预测性专家缓存与令牌调度的高效MoE推理 \| Efficient MoE Inference via Predictive Expert Caching and Token Scheduling