Xin HE's Website

Share papers, techniques, and wonderful life

图解 vLLM 的推理调度策略 - marsggbo

原文：从continuous batching到vLLM中的batching - 不知叫什么好的文章 - 知乎 https://zhuanlan.zhihu.com/p/688551989

1 min read · April 04, 2024 · cnblogs.com

2024
大模型推理框架 vLLM 源码解析（二）：Block 模块分配和管理 - marsggbo

1. Block 概览 vLLM 的一个很大创新点是将物理层面的 GPU 和 CPU 可用内存切分成若干个 block,这样可以有效降低内存碎片化问题。具体而言，vLLM 的 block 分为逻辑层面（logical）和物理层面（physical），二者之间存在映射关系。下图很好解释了两个层面 bl

1 min read · March 23, 2024 · cnblogs.com

2024
OpenAI 的视频生成大模型Sora的核心技术详解（一）：Diffusion模型原理和代码详解 - marsggbo

标题党一下，顺便蹭一下 OpenAI Sora大模型的热点，主要也是回顾一下扩散模型的原理。 1. 简单理解扩散模型简单理解，扩散模型如下图所示可以分成两部分，一个是 forward，另一个是 reverse 过程： forward：这是加噪声的过程，表示为\(q(X_{0:T})\)，即在原图（

1 min read · February 22, 2024 · cnblogs.com

2024
vLLM 源码解析（二）

15 min read · February 04, 2024

2024 · LLM Serving vLLM 大模型推理 · techniques
vLLM 源码解析（一）

14 min read · February 04, 2024

2024 · LLM Serving vLLM 大模型推理 · techniques