LLM部署优化——如何基于TensorRT-LLM 提升LLM算力使用效率?

445次阅读
没有评论

LLM部署优化——如何基于TensorRT-LLM 提升LLM算力使用效率?

近年大型语言模型 (LLM) 带来企业及大规模应用的全新契机。在私领域扩充并部署LLM推理服务,可能面临服务及算力扩充问题。有鉴于LLM推理服务普遍需要较大的GPU资源、又需满足各方非同步、长短不一的文本生成,更需要进行软件设计、代码实现和数据库等多方面的综合考虑和优化,进一步提升算力使用效率。

本次演讲将围绕以下内容展开

🎯 NVIDIA LLM 容器化部署工具简介

🎯 结合Triton Inference Server及TensorRT-LLM优化您的 LLM 推理服务

🎯 结合PEFT模型搭配TensorRT-LLM扩展您的LLM推理服务

LLM部署优化——如何基于TensorRT-LLM 提升LLM算力使用效率?欢迎感兴趣的各位小伙伴扫码免费报名观看直播【报名】即可免费领取专题PPT《大模型微调与部署实践》👇

LLM部署优化——如何基于TensorRT-LLM 提升LLM算力使用效率?

(报名后进群,领取PPT)


LLM部署优化——如何基于TensorRT-LLM 提升LLM算力使用效率?

活动详情

LLM部署优化——如何基于TensorRT-LLM 提升LLM算力使用效率?

大模型没那么“难”

LLM部署优化——如何基于TensorRT-LLM 提升LLM算力使用效率?

扫码免费报名👇

LLM部署优化——如何基于TensorRT-LLM 提升LLM算力使用效率?
(报名后进群,会后领取PPT)

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy