- formatting
- images
- links
- math
- code
- blockquotes
•
•
•
•
•
-
ICML25 | EPIC:KV Cache 复用的「编译-链接」范式(附可运行代码复现) - marsggbo
说人话理解 EPIC:KV Cache 复用的「编译-链接」范式(附可运行代码复现) 原文:EPIC: Efficient Position-Independent Caching for Serving Large Language Models 1. 前言 你有没有想过,当你用 RAG 系统给
-
把 Dense LLM 变成 MoE 还能推理提速?NeurIPS 2024 Read-ME 做到了
-
说人话理解 EPIC:KV Cache 复用的「编译-链接」范式(附可运行代码复现)
-
KV Cache 复用的第三条路:FAST 2026 CacheSlide 是怎么解决 Agent 推理的位置漂移问题的 - marsggbo
原文:CacheSlide: Unlocking Cross Position-Aware KV Cache Reuse for Accelerating LLM Serving 1. 前言:两种方案都不够用 作为一个天天和 LLM 推理打交道的牛马,我对 KV Cache 这个话题有复杂感情——它
-
MoE 推理的内存墙,被一块多芯粒芯片打穿了? - marsggbo
今天想和大家聊聊这篇来自港科大的工作 —— Expert Streaming,最近在 arXiv 上出现,是少见的从芯片架构角度直接解决 MoE 推理内存瓶颈的硬核工作。 先交代下背景:MoE 火是真的火,DeepSeek、Qwen3 都在往 MoE 走,但我们自己跑的时候,却结结实实踩了个大坑 —