如何降低大模型推理成本?

968次阅读
没有评论

如何降低大模型推理成本?

如何降低大模型推理成本?李曦鹏 英伟达 开发与技术部亚太区总经理

个人介绍:李曦鹏,NVIDIA 开发与技术部门亚太区总经理,博士毕业于中国科学院过程工程研究所。长期从事 GPU 加速计算,工业应用端到端优化加速。带领团队支持了国内外各行业头部企业人工智能和加速计算的大规模部署,团队开发有 Merlin-HugeCTR,Faster-Transformer, CV-CUDA 等加速计算开源产品

如何降低大模型推理成本?演讲题目:LLM时代的模型推理引擎

演讲提纲:LLM时代对于模型的推理部署提出了全新的挑战,从推理架构、成本和用户体验,都和传统的AI模型推理不同。推理优化不但关系部署成本,更关系到LLM下一个创新。本演讲介绍TensorRT-LLM及其中的各个优化、调度、量化技术,帮助大家高效部署LLM模型。

如何降低大模型推理成本?听众收益:

1. 如何降低LLM推理成本

2. TensorRT-LLM

3. 量化

如何降低大模型推理成本?扫码报名参加大会如何降低大模型推理成本?

如何降低大模型推理成本?

如何降低大模型推理成本? 点击『阅读原文』,报名参加大会!

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy