LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

1,278次阅读
没有评论

LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

  新智元报道  

编辑:LRS

【新智元导读】吞吐量上不去有可能是内存背锅!无需修改模型架构,减少内存浪费就能提高吞吐量!

虽然大型语言模型(LLM)的性能表现足够惊艳,但每次接收用户请求时都需要耗费大量显存和计算资源,一旦请求数量超出预期,就极有可能面临ChatGPT刚发布时的宕机、排队、高延迟等窘境。


LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

想要打造一个高吞吐量的LLM服务,就需要模型在一个批次内处理尽可能多的请求,不过现有的系统大多在每次处理请求时申请大量的key-value(KV)缓存,如果管理效率不高,大量内存都会在碎片和冗余复制中被浪费掉,限制了batch size的增长。


LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

最近,来自加州大学伯克利分校、斯坦福大学、加州大学圣迭戈分校的研究人员基于操作系统中经典的虚拟内存和分页技术,提出了一个新的注意力算法PagedAttention,并打造了一个LLM服务系统vLLM


LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

论文链接:https://arxiv.org/pdf/2309.06180.pdf

开源链接:https://github.com/vllm-project/vllm

vLLM在KV缓存上实现了几乎零浪费,并且可以在「请求内部」和「请求之间」灵活共享KV高速缓存,进一步减少了内存的使用量。


LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

评估结果表明,vLLM可以将常用的LLM吞吐量提高了2-4倍 ,在延迟水平上与最先进的系统(如FasterTransformer和Orca)相当,并且在更长序列、更大模型和更复杂的解码算法时,提升更明显。


PagedAttention


为了解决注意力机制的内存管理问题,研究人员开发了一种全新的注意力算法PagedAttention,并构建了一个LLM服务引擎vLLM,采用集中式调度器来协调分布式GPU工作线程的执行。


LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

1. 算法


受操作系统中分页(paging)算法启发,PagedAttention将序列中KV缓存划分为KV块,其中每个块包含固定数量tokens的键(K)和值(V)向量,从而将注意力计算转换为块级运算:


LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

在注意力计算期间,PagedAttention内核分别识别和获取不同的KV块,比如下面的例子中,键和值向量分布在三个块上,并且三个块在物理内存上是不连续的,然后将查询向量与块中的键向量相乘得到部分注意力得分,再乘以块中的值向量得到最终注意力输出。


LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

这种设计使得KV块存储在非连续物理内存中,从而让vLLM中的分页内存管理更加灵活。


2. KV缓存管理器


操作系统会将内存划分为多个固定大小的页,并将用户程序的逻辑页映射到物理页,连续的逻辑页可以对应于非连续的物理内存页,所以用户在访问内存时看起来就像连续的一样。


此外,物理内存空间不需要提前完全预留,使操作系统能够根据需求动态分配物理页。


通过PageAttention划分出的KV块,vLLM利用虚拟内存机制将KV缓存表示为一系列逻辑KV块,并在生成新token及KV缓存时,从左到右进行填充;最后一个KV块的未填充位置预留给后续生成操作。


KV块管理器还负责维护块表(block table),即每个请求的逻辑和物理KV块之间的映射。


将逻辑和物理KV块分离使得vLLM能够动态地增长KV高速缓存存储器,而无需预先将其保留给所有位置,消除了现有系统中的大多数内存浪费。


3. 解码


从下面的例子中可以看出vLLM如何在单个输入序列的解码过程中执行PagedAttention并管理内存。

LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

① 与操作系统的虚拟内存一样,vLLM最初不需要为最大可能生成的序列长度保留内存,只保留必要的KV块,以容纳在即时计算期间生成的KV缓存。


提示词中包含7个tokens,所以vLLM将前两个逻辑KV块(0和1)映射到2个物理KV块(7和1);在预填充(prefill)步骤中,vLLM使用自注意算法生成提示和首个输出token的KV缓存;然后将前4个token的KV缓存存储在逻辑块0中,后面3个token存储在逻辑块1中;剩余的slot被保留用于后续自回归生成。


② 在首个自回归解码步骤中,vLLM在物理块7和1上使用PagedAttention算法生成新token


由于最后一个逻辑块中仍有一个slot可用,所以将新生成的KV缓存存储在该slot,更新块表的#filled记录。


③ 在第二次解码步骤中,当最后一个逻辑块已满时,vLLM将新生成的KV缓存存储在新的逻辑块中,为其分配一个新的物理块(物理块3),并映射存储在块表中。


在LLM的计算过程中,vLLM使用PagedAttention内核访问以前以逻辑KV块形式存储的KV缓存,并将新生成的KV缓存保存到物理KV块中。


在一个KV块(块大小>1)中存储多个token使PagedAttention内核能够跨更多位置并行处理KV缓存,从而提高硬件利用率并减少延迟,但较大的块大小也会增加内存碎片。

随着生成越来越多的token及其KV缓存,vLLM会动态地将新的物理块分配给逻辑块,从左到右地填充所有块,并且只有当所有先前的块都满时才分配新的物理块,即请求的所有内存浪费限制在一个块内,可以有效地利用所有内存,从而允许更多的请求放入内存进行批处理,提高了吞吐量;一旦请求完成生成,就可以释放其KV块来存储其他请求的KV缓存。


4. 通用解码


除了贪婪解码和采样,支持单个用户提示输入生成单个输出序列等基本场景外,该算法还可以支持更复杂的解码场景,如并行采样(Parallel sampling)、集束搜索(Beam Search)、共享前缀等。

LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

5. 调度和抢占(Scheduling and Preemption)


当请求流量超过系统容量时,vLLM必须对请求子集进行优先级排序,具体采用「先来先服务」(FCFS)的调度策略,可以确保公平性并防止饥饿。


不过LLM的输入提示在长度上可能变化很大,并且输出长度是先验未知的,具体取决于输入提示和模型;随着请求及其输出数量的增长,vLLM可能会耗尽GPU的物理块来存储新生成的KV缓存。


交换(Swapping)是大多数虚拟内存算法使用的经典技术,将被释放的页复制到磁盘上的交换空间。


除了GPU块分配器之外,vLLM还包括CPU块分配器,以管理交换到CPU RAM的物理块;当vLLM耗尽新令牌的空闲物理块时,会选择一组序列来释放KV缓存并将其传输到CPU。


在这种设计中,交换到CPU RAM的块数永远不会超过GPU RAM中的物理块总数,因此CPU RAM上的交换空间受到分配给KV缓存的GPU内存的限制。


重新计算(Recomputation),当被抢占的序列被重新调度时,可以简单地重新计算KV缓存,其延迟可以显著低于原始延迟,因为解码时生成的token可以与原始用户提示连接起来作为新的提示,所有位置的KV缓存可以在一次提示阶段迭代中生成。


交换和重计算的性能取决于CPU、RAM和GPU内存之间的带宽以及GPU的计算能力。


6. 分布式执行(Distributed Execution)


vLLM支持Megatron-LM风格的张量模型并行策略,遵循SPMD(单程序多数据)执行调度,其中线性层被划分以执行逐块矩阵乘法,并且GPU通过allreduce操作不断同步中间结果。


具体来说,注意算子在注意头维度上被分割,每个SPMD过程负责多头注意中的注意头子集,不过每个模型分片仍然处理相同的输入token集合,即在同一位置需要KV缓存。


LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

不同的GPU worker共享管理器,以及从逻辑块到物理块的映射,使用调度程序为每个输入请求提供的物理块来执行模型;尽管每个GPU工作线程具有相同的物理块id,但是一个工作线程仅为其相应的注意头存储KV缓存的一部分。


在每一步中,调度程序首先为批处理中的每个请求准备带有输入token id的消息,以及每个请求的块表;


然后调度程序将该控制消息广播给GPU worker,使用输入token id执行模型;在注意力层,根据控制消息中的块表读取KV缓存;在执行过程中,将中间结果与all-reduce通信原语同步,而无需调度程序的协调。


最后,GPU worker将该迭代的采样token发送回调度器。


评估结果


基础采样


LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

在ShareGPT数据集上,随着请求速率的增加,延迟最初缓慢增加,之后会突然激增,可能是因为当请求速率超过服务系统的容量时,导致队列长度无限增长。


vLLM可以承受比Orca高1.7倍-2.7倍的请求速率,比Orca(Max)高2.7倍-8倍的请求速率,同时保持相似的延迟,因为PagedAttention可以有效地管理内存使用,从而能够比Orca在一个批次内处理更多的请求。


LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

对于OPT-13B模型,vLLM同时处理的请求比Orca多2.2倍,比Orca(Max)多4.3倍。


与FasterTransformer相比,vLLM实现高达22倍的请求速率,可能是因为没有利用细粒度的调度机制,并且与Orca(Max)一样在内存管理方面很低效。


多序列


在并行采样中,请求中的所有并行序列可以共享提示符的KV缓存,随着采样序列数量的增加,vLLM实现了比Orca基线更大的提升。


LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

由于集束搜索中共享内容更多,vLLM展示出了更大的性能优势。


在OPT-13B和Alpaca数据集上,vLLM相对于Orca(Oracle)的改进从基本采样的1.3倍增加到宽度为6的集束搜索的2.3倍。


LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

通过计算共享保存的块数除以未共享的总块数计算的存储器节省量,结果显示并行采样节省了6.1%-9.8%的内存,集束搜索节省了37.6%-55.2%的内存。


在使用ShareGPT数据集的相同实验中,可以看到并行采样节省了16.2%-30.5%的内存,集束搜索节省了44.3%-66.3%的内存。

参考资料:https://arxiv.org/abs/2309.06180
LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention


LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention
LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...