- formatting
- images
- links
- math
- code
- blockquotes
•
•
•
•
•
-
TACC 集群使用笔记
-
Pytorch 使用 storage 实现 offload 参数示例
-
TACC 集群使用笔记 - marsggbo
1注册账号 先在网页上注册账号,之后需要联系导师或者管理员把你添加到对应的集群里去,例如我加入的是 Lonestar6 集群。 之后需要跟着这个教程绑定 MFA 软件(可以是 DUO 或者 1password) 之后登录账号,系统会要求先后输入你的账户密码和 MFA 的 6 位数 token loc
-
图解 vLLM 的推理调度策略 - marsggbo
原文: 从continuous batching到vLLM中的batching - 不知叫什么好的文章 - 知乎 https://zhuanlan.zhihu.com/p/688551989
-
大模型推理框架 vLLM 源码解析(二):Block 模块分配和管理 - marsggbo
1. Block 概览 vLLM 的一个很大创新点是将物理层面的 GPU 和 CPU 可用内存切分成若干个 block,这样可以有效降低内存碎片化问题。具体而言,vLLM 的 block 分为逻辑层面(logical)和物理层面(physical),二者之间存在映射关系。下图很好解释了两个层面 bl