2023年7月11日在北京英特尔发布会上拍摄的英特尔Gaudi2 AI处理器产品(来源:钛媒体App编辑拍摄)
随着ChatGPT大模型和生成式AI热潮引发智能算力需求猛增,英伟达A100在国内销售紧俏之时,其强劲对手准备在国内入局。
钛媒体App获悉,7月11日,芯片巨头英特尔公司(Intel)发布面向中国市场、采用台积电7nm工艺的第二代Gaudi深度学习加速器Habana Gaudi2。
新的Gaudi2可便捷扩展、可运行大语言模型,加速AI训练及推理,运行ResNet-50的每瓦性能约是英伟达A100的2倍,性价比相较于AWS云中基于英伟达的解决方案高出40%,并预计今年9月性价比超越英伟达最新H100。英特尔称,凭借包括至强和Gaudi2在内的产品组合,新产品为中国市场提供更高的深度学习性能和效率,从而帮助构建中国AI的未来。
会后,英特尔高管对钛媒体App等表示,此次英特尔Habana Gaudi2是中国特供产品。相比国际版Gaudi2,面向中国市场推出的加速卡在性能上差别不大,而集成以太网RDMA端口数量从24个端口减到21个,以符合美国芯片出口管制规定。
英特尔强调,Gaudi2及下一代5nm Gaudi3都会在合法合规的情况下继续支持中国客户,预计Gaudi3也会推出中国特别版本。
“英特尔承诺遵守美国政府的所有出口要求,我们今天推出的Gaudi2版本完全符合规定。同样,英特尔不仅为中国市场,而且为全球市场构建服务器。我们所做的一切都符合美国的要求,目前不受任何限制。因此,我们今天谈到的一切都符合美国的要求,同时也满足中国市场不断增长的 AI 需求。”英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera对钛媒体App表示。
英特尔执行副总裁Sandra Rivera
据悉,2019年12月,英特尔斥资约20亿美元重金收购了成立于2016年的以色列人工智能(AI)芯片初创企业Habana Labs。在此之前,英特尔收购了FPGA厂商Altera、AI芯片公司Nervana,以增强英特尔数据中心业务技术能力。同时,英特尔还放弃了自家高性能计算加速卡Xeon Phi项目。
收购后的最近四年,英特尔加紧使Habana团队与英特尔内部业务整合。目前,Habana在英特尔数据中心与人工智能(DCAI)事业部独立运营其工程业务,负责人是Sandra Rivera。
2022年Intel Vision活动上,英特尔推出第二代深度学习芯片Habana Gaudi 2和Habana Greco,分别用于AI训练和AI推理。当时在BERT Tralning Throughput等模型测试中,性能是竞争对手Nvidia A100 80GB GPU的两倍左右。
不到一年后的今天,英特尔推出“中国特供”的 AI 芯片Habana Gaudi2。
据悉,第二代Gaudi2 AI深度学习夹层卡HL-225B专为数据中心实现大规模横向扩展而设计,HL-225B处理器符合美国工业与安全局(BIS)有关规定。该夹层卡符合OCP OAM1.1(开放计算平台之开放加速器模块)规范。而HL-225B夹层卡内置Gaudi HL-2080处理器技术,拥有24个完全可编程的第四代张量处理器核心(TPC)。这些核心原生设计能为广泛的深度学习工作负载加速。另外,英特尔Habana的SynapseAI软件套件,针对Gaudi平台深度学习业务进行了优化。
相比第一代,Gaudi2制造工艺由台积电16nm升级到台积电7nm,内存和缓存提高到96GB HBM2e和48MB SRAM,内存带宽升为2.4TB/s,并集成了专用媒体处理器。在ResNet-50模型测试中,Gaudi2比一代训练吞吐量提高了3倍,BERT模型的训练吞吐量提高了4.7倍。目前,单个Gaudi 2在ResNet-50模型中可达到非常稳定的5800个图像/每秒的吞吐量。
测试GPT-3方面,Gaudi2也表现出了强劲性能,在384个加速器上训练时间达311分钟,从256个加速器到384个加速器实现了近线性95%的扩展;Hugging Face评估中,Gaudi2运行Stable Diffusion、70亿以及1760亿参数BLOOMz模型时,AI 推理方面的表现在行业内保持领先,从而使英特尔Gaudi2成为仅有的两个提交GPT-3 LLM训练性能结果的芯片解决方案之一。
更重要的是,相比英伟达AI芯片,英特尔Gaudi2拥有性价比优势,能够降低大模型算力成本。目前,单独购买一颗Gaudi2 AI OCP 加速器模块 (OAM)的成本为7400美元-8000美元之间。这种显着的成本优势,加上英伟达A100/H800在国内供应紧张持续短缺,或使Gaudi2成为英伟达NVIDIA H100最重要的替代品。
不过在纵向扩展互联中,相比海外版,中国市场的Gaudi2每张芯片集成的专用于内部互联的100Gbps(RoCEv2 RDMA)以太网接口,从24个减至21个。
英特尔提到此项变化影响有限。英特尔Habana Labs首席运营官Eltan Medina告诉钛媒体App,根据模型的不同,特供版Gaudi2性能可能会有轻微的影响,但在很多数据训练扩展中,并不使用这三个端口,整体性能差别不大。
英特尔现场演示中,在第四代至强可扩展处理器上通过AMX加速指令运行文生图模型Stable Diffusion,用5.34秒就生成一张图片。另据Sandra Rivera透露,目前英特尔在 AI 算力方面形成了通用计算、深度学习加速、开放式软件环境三层的整体解决方案。
Sandra Rivera对钛媒体App表示,软件开发或者是开发者生态是英特尔多年的一个强项,在整个数据中心领域,其实真正在数据中心当中的软件生态,一个是x86的软件生态,另外一个是CUDA。英特尔的方法是让客户在oneAPI环境中提供大量技术支持,例如Hugging Face,只需几十秒就能把一些现有的模型调通,能够把它在Gaudi上做一些执行。
英特尔还透露,Gaudi2国内首批将与百度智能云、浪潮信息、美团、紫光新华三、超聚变、华勤技术等公司合作。其中,浪潮信息现场发布基于8颗Gaudi2加速卡HL-225B、双路第四代英特尔至强可扩展处理器的浪潮信息AI服务器NF5698G7;新华三则宣布即将适配Gaudi2,打造专为大模型训练的智能算力服务器H3C UniServer R5500 G6,算力提升3倍,GPT-4训练时间缩短70%。
对于制程,英特尔将于2024年推出台积电5nm制程Habana Gaudi3,将实现性能提升以及效能。Medina称得益于5nm,Gaudi3将实现性能“跃进”。预计2025年,Habana Gaudi将与英特尔Ponte Vecchio GPU产品进行架构与功能整合,推出新的GPU产品。
“目前更高端英特尔GPU还没有推出,在专用的训练和推理大模型方面,英特尔唯一方案只有Gaudi2。未来第四代,英特尔将统一Habana和AXG方面之间的路线图,进行更深层次的整合。”Medina此前预计,Gaudi仍将是英特尔至少未来几年针对 AI 工作负载的推荐解决方案。
对于英伟达的市场争夺,Sandra Rivera强调,市场需要替代品。他们(客户)非常欢迎英特尔在向大众部署 AI 方面发挥重要的领导作用。英特尔将与客户进行深入合作。
“几十年来,英特尔一直致力于把新的技术普及、普惠到各行各业,各种客户,不只是大客户,还有中型客户、小型客户。降低进入门槛,提高市场参与度,加快创新速度。接下来,我们希望很快通过与中国合作伙伴部署性价比解决方案,一起把技术推到最终用户手上。”Sandra Rivera表示。(本文首发钛媒体App,作者|林志佳)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App