- formatting
- images
- links
- math
- code
- blockquotes
•
•
•
•
•
-
KV Cache 复用的第三条路:FAST 2026 CacheSlide 是怎么解决 Agent 推理的位置漂移问题的 - marsggbo
原文:CacheSlide: Unlocking Cross Position-Aware KV Cache Reuse for Accelerating LLM Serving 1. 前言:两种方案都不够用 作为一个天天和 LLM 推理打交道的牛马,我对 KV Cache 这个话题有复杂感情——它
-
MoE 推理的内存墙,被一块多芯粒芯片打穿了? - marsggbo
今天想和大家聊聊这篇来自港科大的工作 —— Expert Streaming,最近在 arXiv 上出现,是少见的从芯片架构角度直接解决 MoE 推理内存瓶颈的硬核工作。 先交代下背景:MoE 火是真的火,DeepSeek、Qwen3 都在往 MoE 走,但我们自己跑的时候,却结结实实踩了个大坑 —
-
KVCOMM:让多 Agent 系统的 KV Cache 真正“通起来”,TTFT 直接砍掉 7.8 倍 - marsggbo
原文:KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems(Duke / MIT / NVIDIA,OpenReview 投稿) 代码:https://githu
-
MoE 推理的内存墙,被一块多芯粒芯片打穿了?
-
KV Cache 也能「语义共享」?SemShareKV 用 LSH 做到了