大模型训练需求井喷 “算力之渴”如何解?

842次阅读
没有评论

点击蓝字

关注我们

大模型训练需求井喷 “算力之渴”如何解?

高文

中国工程院院士、鹏城实验室主任、清华大学人工智能国际治理研究院学术委员会委员

人工智能大模型的快速发展,让算力问题受到前所未有的关注。伴随着算力发展规划政策的相继出台,算力整体布局持续优化,全国上下已形成积极推动算力产业快速健康发展的局面。工信部数据显示,截至2023年6月底,全国在用数据中心机架总规模超过760万标准机架,算力总规模达到197EFLOPS、近五年年均增速近30%,存力总规模超过1080EB。

与基础设施建设相同步,算力融合应用加速涌现。根据中国信息通信研究院测算,2022年,我国算力核心产业规模达到1.8万亿元。算力每投入1元,将带动3至4元的GDP经济增长。

但与此同时,大模型产业井喷式发展带来算力的紧缺与能耗的激增。目前,国内已有100多个大模型公开发布,继续引发智能算力紧张的加剧,出现GPU“一卡难求”的局面。面对需求的暴增和算力基础设施的现状,“算力之渴”如何解?

01

“绿化”算力全产业链

“我们正在推动液冷、间接蒸发自然冷却等节能技术的应用,并在部分算力中心开展试点。同时,我们也在推动数据中心企业启动氢燃料电池等绿电在数据中心的试点,梳理10个‘小散老旧’数据中心(约4000个标准机架),并预计将于年底前全部完成数据中心改造任务。”近日,在工业和信息化部新闻宣传中心(人民邮电报社)、中国邮电新闻工作者协会等单位联合组织的“算力中国行”大型调研采访活动中,上海市通信管理局信息通信发展处副处长魏征对记者表示。

为满足算力需求,除了增加算力供给规模外,数据中心的“降耗增效”也在紧锣密鼓进行。目前,政府、企业以及各大相关机关和组织都在积极探索优化制冷系统、提高算力应用环节效率等绿色计算手段。

近日,蚂蚁集团与中国信通院发布《面向算力应用环节的计算绿色化白皮书》(以下简称白皮书)。白皮书显示,截至2023年6月,我国累计建成196家国家绿色数据中心,行业内先进绿色中心电能利用效率降至1.08左右,达到世界领先水平。但伴随产业发展,PUE指标优化空间不断减少,其局限性也逐渐显现。

蚂蚁集团首席技术官、平台技术事业群总裁何征宇坦言,算力由数据中心的服务器提供,但实际上,大量的电能被用于维持服务器的正常运转,并没有供给计算服务本身。根据统计数据,目前的数据中心用于计算的电能可能低于20%。

白皮书也提到,行业在推动算力绿色低碳发展过程中,关注点主要仍停留在可再生能源生产和绿色数据中心建设上。为了实现更大程度的总体节能减排效果,行业需要重视“端到端的绿色算力”。

端到端的绿色算力框架,全面覆盖从电力生产、算力生产(包括智算中心建设商、硬件厂商、云厂商)到算力应用全产业环节的绿色计算。何征宇介绍,在电力生产环节,我们主要通过优化用能结构,实现数据中心清洁能源和新型储能的合理利用,围绕源网荷储一体化的微电网并网模式,探索数据中心与能源融合发展的绿色新场景;在算力生产环节,通过应用高能效绿色硬件技术与产品,从选址、设计、施工、运营等环节入手,提高数据中心全生命周期绿色化水平,从而推进节能减排改造与绿色低碳化重构,并采用高效IT系统、制冷系统、供配电系统以及辅助系统,来协调促进算力绿色生产与绿色传输;在业务应用环节,注重提高软件平台对计算资源的利用率,提升应用与算法效率,将固有计算资源通过动态、弹性方式进行调配,减少算力应用侧能源消耗,实现算力在服务环节的绿色低碳。

白皮书强调,算力应用环节的绿色计算,是智能算效提升空间最大、收效最快,也是尚未被足够重视和仍需加强的部分。

02

提升算力调度水平

当前,算力网络快速融合,多样的算力需求加大对异构算力网络的需求。而将不同类型的算力资源高效精准地调度到相应需求的资源节点中,则需要算力调度。

让算力像水、电一样流动,供有需要的企业取用,是算力调度的理想状况。近两年,国内涌现一大批算力调度平台。这些平台通过整合不同来源、类型和架构的算力资源,满足丰富的业务应用场景需求。今年6月,我国首个实现多元异构算力调度的全国性平台“全国一体化算力算网调度平台”发布。

中国工程院院士高文表示,我国算力网络面临两大技术挑战,一是通信连接(超低延迟、超宽带)挑战;二是算力调度挑战——目前云算力、智能算力、超算算力、混合算力的服务商入口、系统、计费等不同。

中企通信数据科学及创新总监詹东东同样提及:“尤其对于云计算和边缘计算协同的算力架构而言,最重要的是对算力的调度能力,对算力的需求很多时候会分布在不同的区域,“如何协同好”,是很多客户正在思考的问题。”

国家(上海)新型互联网交换中心(以下简称SHIXP)是算力调度、交易的重要试点。记者了解到,SHIXP主要负责本地区的算力网络和算力中心的算力调度,并于今年7月底正式上线了全国首个算力交易平台。目前,已建成算网节点14个,吸纳入驻企业40家,接入国内主流运营商8家、总带宽1.82T,累计登记算力资源超过156PFlops。

“我建议,全国要建一个大的算力调度标准。”上海市通信管理局信息通信发展处副处长魏征表示,统一标准的建立,意味着所有的云服务商要对外提供统一、可度量的算力服务,既保证现有运营商资源的直接输出,也保证他们在未来统一市场的可持续发展。“这相当于现有所有的云服务商未来成为发电厂,算力调度平台公司成为电网。”魏征说。

03

推进国产化软硬件适配

采访中,有电信运营商工作人员透露,近几个月接到的最多的算力需求,就是做大模型训练。

随着人工智能技术的大爆发,特别是大模型时代的到来,通用大模型正快速向行业垂直应用领域推进。通过模型调优与快速迭代,垂直大模型正在释放前所未有的产业数智新动能。同时,智算资源紧缺、国内产品相对不足的痛点更加突出。除了硬件制造能力外,在底层技术开发、软件生态适配和场景落地实践等方面,国产算力产业还需长足进步。

上海市通信管理局二级巡视员葛伦卿表示,在算力供给方面,面临绿色节能、国产适配等问题,随着AI大模型训练、高级人工智能算法对算力的更大需求,数据中心、绿色节能面对巨大考验。在国产设备方面,目前很多国产芯片厂商在做自研或兼容开源生态软硬件,企业间的内卷和低效竞争、算力使用厂商适配高等问题突出。针对这些问题,一方面,数据中心要平衡好最大算力与更低能耗的关系,进一步推动绿色化数据中心的建设导向,深化绿色节能的新型数据中心技术研发,全力打造低能耗、高效能的绿色节能型算力平台;另一方面,联盟、协会等行业组织要凝聚共识,帮助算力供给方打破技术和生态壁垒,加强国产化软硬设备。

工信部表示,围绕算力发展需要,我国将增强自主创新能力,推进计算架构、计算方式和算法创新,加强CPU、GPU和服务器等重点产品研发,加速新技术、新产品落地应用;同时,围绕算力相关软硬件生态体系建设,我国亦将加强硬件、基础软件、应用软件等适配协同,提升产业基础高级化水平。

关于我们

清华大学人工智能国际治理研究院(Institute for AI International Governance, Tsinghua University,THU I-AIIG)是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势,研究院面向人工智能国际治理重大理论问题及政策需求开展研究,致力于提升清华在该领域的全球学术影响力和政策引领作用,为中国积极参与人工智能国际治理提供智力支撑。


新浪微博:@清华大学人工智能国际治理研究院

微信视频号:THU-AIIG

Bilibili:清华大学AIIG

来源 | 本文转载科技日报,点击阅读原文获取更多内容

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy