xLLM社区重磅首秀,揭秘大模型推理全景图与开源AI Infra生态

9次阅读
没有评论

xLLM社区重磅首秀,揭秘大模型推理全景图与开源AI Infra生态

成立仅三个月的xLLM社区将于12月6日在北京举办主题为 “共建开源 AI Infra 生态” 的线下Meetup。

在AI Infra技术架构中,xLLM扮演着至关重要的角色——它如同操作系统,位于底层硬件芯片与上层大模型应用之间,是连接算力与模型的”中枢神经”。

此次活动不仅将揭开xLLM社区的神秘面纱,更将深度分享其技术愿景、核心规划、阶段性成果以及蓬勃发展的生态全景,为业界呈现下一代大模型推理引擎的突破性力量。

xLLM:超越单一场景的下一代推理引擎框架

过去,AI Infra基础设施的核心技术长期依赖国外开源框架(如vLLM、SGLang、TensorRT-LLM等)。随着xLLM等推理引擎的开源,将大大加速国产全栈AI Infra生态建设。

区别于当前行业广泛采用的vLLM(主要聚焦大语言模型与多模态场景),xLLM定位为更强大的推理引擎框架。其设计之初便着眼于支持多元化、复杂化的生成式AI场景,核心能力覆盖:大语言模型 (LLM)、多模态理解与生成、生成式推荐系统、文生图 (Text-to-Image)和文生视频 (Text-to-Video) 等前沿领域。

本次Meetup将首次系统阐述xLLM如何通过其创新架构,为这些丰富场景提供统一、高效、可扩展的推理支持,以及未来的技术演进规划。

此外,北京航空航天大学教授杨海龙也将详细介绍面向超智融合时代的全栈式性能工程探索。

据悉,该成果已应用于11.11京东大促等核心零售业务场景,助力业务效率提升5倍以上,机器成本降低90% ,有力保障了关键业务在洪峰流量下的平稳流畅运行。

开放生态:模型与硬件的交响曲

此次活动将首次全景式展示xLLM框架背后的核心技术。

目前,xLLM框架集成了业界领先的开源KV Cache存储解决方案——Mooncake。本次meetup上,清华大学副教授,Mooncake发起人章明星将揭秘Mooncake如何为大规模、低延迟的推理任务提供关键的存储加速。

此外,还特别邀请到北京智源人工智能研究院研发经理门春雷,分享在计算单元与算子优化、特别是编译优化方面的前沿经验,探讨如何榨干硬件潜力,实现推理速度的飞跃。

成立之初,xLLM秉持开放理念,致力于构建繁荣生态。在模型层, xLLM推理框架具备强大的模型接入能力,可灵活对接多种主流大模型。

目前,xLLM已在GitHub等平台开源,全球开发者都可以下载使用。

硬件层方面,xLLM框架设计兼顾通用性与适配性,为未来更广泛的硬件支持奠定基础。

本次Meetup将重点介绍与国产算力领跑者昇腾在统一内存池化方案上的应用实践,展示其在高性能、低成本推理上的潜力。

未来,还会和清华、北大、中科大、北航、硬件厂商等产学研生态伙伴一起,推动AI技术生态的协同创新和行业智能化升级。

诚邀参与,共绘全景

xLLM社区是一个专注于打造下一代高性能、通用化大模型推理引擎的开源技术社区。

成立三个月以来,汇聚了众多来自顶尖科技公司与研究机构的开发者与专家,致力于突破大模型落地应用在性能、成本、场景多样性上的瓶颈,推动AI技术的普惠化发展。

此次Meetup,是一次技术实力的集中展示,更是一张面向未来的“大模型推理全景图”的绘制起点。

我们诚挚邀请关注大模型技术发展、AI基础设施、高性能计算、推荐系统以及国产化AI解决方案的开发者、研究者、企业技术决策者与行业伙伴莅临现场,共同探讨交流。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy