“不作诗,也没有时间作诗,它要深入到各行各业。”华为云CEO张平安给迷雾中的盘古大模型定了调。
7月7日东莞,华为云在开发者大会上发布盘古大模型3.0。关于华为做大模型的方向,它已经做了什么,它的技术架构,答案逐渐清晰。
这么多大模型里,盘古看起来是与行业连接最紧密的,紧密到甚至让人感觉它是难得从行业里抽身请假,来发布会亮了个相。
这是一个不做C端的大模型,而在B端的一些具体场景中,它宣称自己已经是一位满级选手。
43年的数据
7月6日,华为轮值董事长胡厚崑在世界人工智能大会上预告了盘古大模型3.0的发布。同日的另一件事是,盘古气象大模型在高分辨率全球 AI 气象预报系统方面的研究成果在《Nature》正刊发表。这是近年来中国科技公司首篇作为唯一署名单位发表的《Nature》正刊论文。
图源:华为官网
今年5月,盘古气象大模型提前10天预测到了台风玛娃的路径。这件事交给数值预报的话,需要3000台高性能计算机花5个小时。盘古气象大模型只花了10秒钟,用了一台服务器,一张卡。
相比传统的数值预报,盘古气象大模型在天气预测速度上提升了1万倍,并且是首个精度超过传统数值预报方法的AI模型。欧洲中期预报中心和中央气象台等都在实测中发现盘古预测的优越性。
《Nature》审稿人对该成果给予高度评价:
“华为云盘古气象大模型让人们重新审视气象预报模型的未来。”
盘古气象大模型的模型开发摒弃了无法完全处理3D气象信息的2D神经网络,采用三维神经网络(3D Earth-Specific Transformer),参数量为2.56亿。
在此之前,这样一个行业大模型的训练首先要克服巨大的数据工程。盘古3.0喂进去了43年的天气历史数据,以及200tb的海量数据。
图源:华为云
列车检测员
行业大模型是一个工程学问题。在大模型推理这样的办法出现之前,这些繁琐的事精也需要被分担。比如3000太高性能计算机,或者大量人力。
在货运铁路上,每天有无数高速摄像机以一节车厢80张的高频速度对经过的货车底部拍照,然后传回列车检测员的电脑屏幕。他们被要求每秒需审阅1张图,1000列货车会生产出400万张照片,需要260双眼睛来消化巨大的信息量。
列车检测员,一个急需减负的工种。
这样通过通过高速摄像来动态采集列车车底配件、车体侧部等部位图像,实时判别货运列车是否存在故障的货运铁路巡检模式被称为TFDS(货车运行故障动态图像检测),基于TFDS预训练大模型和超过360万张以上的铁路货车图像,华为在盘古3.0的基础上训练出了铁路大模型。
这个铁路大模型现在已经可以精准识别67种货车车型,可识别的故障种类达到430种以上。其无故障图片筛除率达到了95%,对于列车检测员来说这意味着原本400万张的工作量,现在减到了20万张。
图源:华为云
5+N+X
华为云人工智能领域首席科学家田奇指出了通用大模型落地行业的三个挑战:
通用性强,但专业性弱。
知识虽多,但技能不足。
价值挖掘快,但数据安全难保障。
为了解决这三层问题,华为的大模型体系设计成三层架构:L0(基础大模型)、L1(行业大模型)和L2(场景模型)。
以盘古铁路大模型为例,TFDS预训练大模型的开发过程就是L1层,而在更具体的应用层面,比如故障状态分类、关键点检测则是L2层。
图源:华为云
L2层是X个,也就是无数个更细化的具体场景模型。比如气象领域的台风预测,或是金融行业的银行网点助手等。重点是开箱即用。
L1层是包括气象、铁路以及政务、金融等行业在内的N个行业大模型,在行业公开数据以及企业自有数据的支持下帮助企业训练出自己的大模型。盘古在这一层为客户提供了公有云部署、云专属资源池以及HCS私有化部署三种部署方式。
为L1、L2层提供基础能力的则是自然语言大模型、多模态大模型、视觉大模型、预测大模型以及科学计算大模型,这5个基础大模型。在L0和L1层的基础上,华为云提供了大模型行业开发套件,为企业以自有数据训练自己的专属行业大模型提供途径。
这一套三层架构也叫做5+N+X。
图源:华为云
L0层内,盘古3.0包含一个3万亿tokens的训练数据集,和包括问答、生成、视觉等8个领域100多种能力在内的能力集。但基础大模型与能力集以及与数据集都是分别解耦的,这意味着在实际训练过程中,数据集可以在100亿参数或者1000亿参数的大模型之间快速转换。基础大模型层内的三层结构中间更灵活的按需组合,可以更大限度发挥基础大模型的通用能力。
除此之外,盘古3.0提供了100亿、380亿、710和千亿参数的不同尺寸基础大模型,以满足不同客户的需求。
这个5+N+X的三层架构在纵向上追求击打场景的精准度,在横向上讲究灵活。
优势在别处
模型能力因为行业而具像化的同时,底层算力的基础在支撑着盘古大模型能够完美的匹配企业的需求。
昇腾和鲲鹏两款芯片为基础的AI算力云平台配合异构计算架构CANN,结合全场景AI框架昇思以及全流程MLOps的机器学习平台Modelarts所形成的全栈能力,在昇腾云上大模型的训练效率可以达到业界主流的1.1倍。
图源:华为云
并且除了自研的AI框架昇思,华为云也可以支持Pytorch、TensorFlow等其他主流的AI框架。在芜湖AI算力中心之外,华为云也在贵安和乌兰察布两个AI算力中心上线了昇腾AI云服务。算力可达到2000p FLOPS(200亿亿次浮点),千卡训练可连续维持超1个月。
华为是最早开始大模型研究的国内企业之一。2021年华为云拿出了5个基础大模型,去年迭代到盘古2.0后,气象、矿山等行业大模型顺势而出,此次盘古3.0公布的时候,国内的大模型竞争已经白热化。而在国内公有云市场已经升至第二的华为云,技术能力也开始做厚。
不做诗,坚持“AI for Industries”,后发先至的盘古3.0并不着急。
它的战场和优势不在于做一个“Chat”,而是别处。比如基于无线基站而围拢起的矿山生态,比如全球300多条城市轨道线路和总长130000多公里的铁路,比如一个制造企业的身份。