ChatGPT让所有人意识到了大模型的潜力,一场大模型竞赛已经展开。而在惊叹AI进化速度的同时,越来越多的人也意识到这背后每天都在“燃烧”的算力——与AI摧毁人类这种科幻话题相比,如何防止数据中心变成一个个能耗黑洞,可能更加紧迫。
4月12日,在2023英特尔可持续发展高峰论坛后,我们与英特尔以及宁畅和新华三的数据中心业务相关负责人进行了交流,听了听他们如何看待和参与今天数据中心这场势在必行的自我革命。
受访者分别为:
陈葆立,英特尔数据中心与人工智能集团副总裁兼中国区总经理;庄秉翰,英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理;秦晓宁,宁畅总裁;刘宏程,新华三集团计算存储产品线副总裁。
以下为经整理后的问答实录。
Q:ChatGPT带来的算力需求背后,数据中心的能源问题如何解决。
陈葆立:其实AI的火爆过去几年已经出现过好几次了,近几个月ChatGPT又出现在更多大众视线中。它背后需要大量不同的CPU、GPU来支持AI的训练和推理,计算量正在大幅提升。对英特尔来说,这并不影响我们整个规划的初衷。从我们的路线图上可以看到,核数正在飞速增长,从现在第四代至强拥有的50个核、60个核,在一两年之后,很快会增长到100个核、200个核。所以在同样一个数据中心的设计当中,它的高密度、核数,以及性能都是大幅度提升的。我们提前与众多生态伙伴进行包括冷板以及浸没式液冷的创新和研究,就是因为在算力如此集中的情况下,数据中心的设计势必要经历巨大的演进。
秦晓宁:能耗问题的解决,需要在芯片层面、系统层面,甚至于整体机房的结构设计层面进行综合考虑。例如,从室外机柜散热的优化,到机柜内侧的系统平台设计,到不管是冷板还是浸没式液冷,是一套完整的解决方案。
Q:是否会存在短期对算力的追求大过对绿色算力的投入,反而让数据中心的变革走了回头路。
庄秉翰:不管是否出现ChatGPT的应用,液冷技术对基于新一代处理器的服务器而言是一个发展方向,而且此前曾有数据显示其会有约30%的复合年增长率。同时,ChatGPT反而会加速液冷的发展,基本上所有OEM伙伴都在推出基于液冷的解决方案。
此外,液冷技术本身并不是一个特别新的技术,如何把它产业化是一个关键,在这其中英特尔就起到链接产业的作用。我们联合生态伙伴,共同定制诸多标准,通过这些标准可以加速整个市场产业化进程,而加速产业化可以降低成本,只有降低成本之后才能让基于液冷的数据中心更加普及。传统风冷数据中心的PUE约在1.4-1.5,如果通过液冷,现在可以做到近1.1,这对整个能耗的改善有很明显的作用,同时我们也可以降低数据中心对能源的需求。所以其实ChatGPT的火爆有利于进一步推广液冷技术的应用,因为其加速了整个产业的发展,同时对于新建的数据中心,大家也更有意识地去推出节能减碳的方案。
秦晓宁:我们和英特尔一起合作了浸没式液冷产品。如果说冷板现在还有很多客户想去尝试,那么浸没式液冷可能对客户的挑战就更大了,它的成本增长不止是10%、20%。但是跟ChatGPT的投入比起来,我认为绿色可持续的节能技术,对客户来说反而是加速了其使用。因为这方面成本的增加与算力增加相比,只是一小部分,但是一旦节能技术运用进去之后,对未来算力的提升和运维的降低是非常巨大的。所以现在来看,不管是冷板技术,或是我们跟英特尔合作的浸没式液冷技术,在未来的可持续发展当中,不能说绝对领先,但至少是领先业界半步以上的。我们在很多客户那里尝试的时候,有了英特尔广泛的客户支撑,后续绿色节能和可持续发展技术的落地节奏会更快。
Q:新华三和宁畅如何与英特尔合作?
刘宏程:举个来看,目前在国内,5G基站的能耗也是比较突出的问题。基于此,新华三此前和英特尔及运营商合作时提供了创新的节能方案,可以帮助提供运营商的5G解决方案整体功耗降低30%-40%,这也在很大程度上体现出了英特尔的技术领先性。同时,英特尔本身也开放合作,在最新的服务器方面,英特尔创新地推出电源汇流排技术(Power Corridor),通过限流板的方式,针对CPU底座进行设计,可以降低整个部件级的能耗。因为有了这些技术的积累,我们和英特尔的长远合作是一个互利互惠的过程,共同为客户提供更好的服务。
秦晓宁:英特尔在生态方面的建设也是非常全面的。我们做的这些创新产品,刚开始需要落地,要有一些前瞻性的客户去选择它、尝试它,之后才能逐步在使用过程当中推广至更多的行业和客户,而这也是英特尔的优势,因为它有各行各业标杆性的客户,愿意去做创新性的技术合作和尝试。
此外,还有在推动建立行业标准方面的努力。目前,许多冷板产品各个厂商都可以支持,但它的标准是不统一的,甚至快插接口大小、尺寸都不一样。无论是从成本还是通用性的角度来看,如果没有一家厂商来牵头制定标准、统一规范,对于客户是一件非常困扰的事情。因为每家服务器厂商的产品不同,那么到了客户的机房甚至都无法使用。这个标准一旦制定出来,我们就可以大幅度优化方案适配的普适性,以及普惠性,并且大幅度降低后续运维的成本。
Q:你们是否观察到市场上冷板式液冷的成本在降低?
秦晓宁:浸没式液冷目前多为小批量尝试,因为其初期成本较高。但今年3月15日英特尔携手业界多家生态伙伴刚刚编纂和发布了冷板团体标准,目前冷板的成本逐步下降,而且许多成本与量相关,冷板标准统一后,产量提升会带来成本的下降。但相关成本的降低,不仅限于单个元器件的采购成本上,如果从前期设计环节就将可替代性、制定标准规范等方面纳入考量,未来成本将持续优化。
诚如陈葆立先生此前的分享,CPU中也有很多可以进行节能降耗的技术,如主板跟BIOS、BMC相配合,会在运行过程中根据功耗进行动态调整,对系统的影响也较小。如果这种统一的功耗能够控制好,将非常有助于控制成本,但现在这个可能是相对不可测算的。因为购买配件时的成本是可以看出来的,但是在动态使用过程当中环温的控制,包括散热、CPU能耗对整个功耗的影响,其实是一个比较隐性的成本。整体而言,在持续使用的情况下,尤其是一个大型数据中心的使用过程当中,是能够实现可观的成本控制和节能降耗。
刘宏程:前面提到关于ChatGPT的应用是否会让液冷走回头路,对于现在这个时间点,现有算力的快速发展,其实反而是促使大多数客户快速从风冷技术转向更节能的液冷技术的重要原因。
这个不仅是客户所面临的问题,也不仅是可以节能多少的问题,而是在使用过程当中有可能出现巨大空间浪费的情况,因为存量数据中心当中无法容纳新的能耗过高的设备。比如GPU服务器会导致空间的占用,以及增加数据中心的管理和运营费用。比如在考虑到耗电问题时,还要把管理耗电的费用纳入衡量体系,因此也促使更多中国客户在快速考量更新数据中心整体设计时,转向更节能、更先进的液冷数据中心的方式来解决能耗和平衡的问题。
这当中就涉及到规模的问题,当用户需求激增,整体产业规模即呈现在业界所有参与者的面前。尽管用户规模增大,但依然面临各自为战的情况,当由英特尔带动把液冷所有标准建立之后,实际上产业链所有的供应商将用统一标准来实现互连、互操作,这能够极大降低采购成本以及在未来数据中心的运维成本,让整体液冷技术在数据中心更容易落地。有了这个标准之后,就可以快速把定制化变成标准件,成本就会快速下降。
所以,当“用户需求激增→标准建立→规模效应体现→整体成本自然下降”的循环形成之后,可以加速推动产业从存量的数据中心转向新型节能的数据中心。
Q:刚提到存量数据中心改造的问题,现在有哪些解决方案?
陈葆立:的确,现在大量的数据中心算力是在存量数据中心中。近期我们把绿色数据中心技术框架升级到2.0版本,拥有高能效与高功率密度、先进散热技术、基础设施智能化和材料&可循环设计四个垂直领域,以及XPU、服务器、机架、数据中心四个水平方向的共13种关于节能减碳的方案。其中有一些是基于新数据中心的建设,比如液冷、浸没式液冷,但同时也有专门针对存量数据中心的解决方案。
在英特尔与国内运营商于20个省的共420多个机房里,通过应用英特尔智慧节能解决方案方案,可以把存量数据中心的PUE从1.49降低到1.38,并基于此在制冷系统大幅节能,实现了可观的节省支出。所以,可以看出节能并不一定代表提高成本,节能也是可以帮助降低成本。而这些不仅可以应用于存量数据中心,新的数据中心同样适用。
Q:冷板和浸没式液冷对整体解决方案有哪些不同的要求。目前这些液冷方案的普及,除了成本之外还有哪些制约它落地的难点?
陈葆立:我们主要把液冷分为冷板和浸没式这两种,抽象一点形容的话,就是天气热时,冷板像是“铺一个凉席”,也就是在很热的CPU上铺了一层冷板,把热能通过冷板传递出去。而浸没式液冷是“泡澡”,把所有的部件泡在液体当中,让温度可以降低。
除了成本之外,还有如安全、液体漏液等其他的考量。假设管道或液体突然泄漏,整个电子器件产生损耗如何应对?在这个过程当中需要大量的验证,这是为什么我们和诸如宁畅、新华三等很多业内领先伙伴,一起做了非常多试验。其实很多厂家也都提供了各种不同的方案,但是我们需要大规模验证去证明这些应用在液冷中的液体可以真正的安全的使用,并且不影响整个作业和服务。
所以对于英特尔而言,当面对客户询问液体是否安全,或当他们使用某款液体时我们的CPU是不是依然能提供三年质保,我们会非常有底气回答,因为这是经过大规模验证过的,或做过很多仿真试验的。我们相信它能带来能耗的优势是远远大于它可能的一些耗损。
庄秉翰:简单补充一下,具体采用冷板或是浸没式液冷,是需要根据客户平衡其对PUE和成本需求之后,做出的决策。另外,尤其是浸没式液冷,其实对器件、和芯片本身也有一些可靠性的影响。英特尔也是第一个基于第三代和第四代至强可扩展处理器,在浸没式液冷场景下使用,提供一年保修服务的厂家,这也是我们为了加速液冷技术在产业链应用所做的努力。
Q:今天各个行业对液冷的使用到了什么阶段?
庄秉翰:整体来看,国内几个服务器使用的头部行业,如互联网、运营商、金融行业等,对液冷都已经跳过了POC阶段,进入到了规模化采用的状态。