如何架构更完善的“算力经济”

710次阅读
没有评论

5月31日,由品玩主办的「模型思辨」国内大模型产业生态研讨会在北京举办。360集团创始人周鸿祎、百度、阿里巴巴、商汤科技、Zilliz、瀚博半导体等来自大模型产业链上的头部互联网公司、芯片、数据库、应用项目、投资机构等100多位VP级的嘉宾参与此次研讨会,深度探讨中国大模型产业生态的建设。

如何架构更完善的“算力经济”圆桌对话一《如何构架更完善的“算力经济”》

随着大模型等AI工具的快速发展,高性能算力需求呈现爆发趋势,并推动通用算力向超算、智算升级。那么,算力产业发展有多大的空间,还面临哪些问题及挑战?研讨会的第一个圆桌对话围绕“如何架构更完善的算力经济”主题展开。红点中国合伙人刘岚作为主持人,亿铸科技创始人、董事长兼CEO熊大鹏,大禹智芯联合创始人兼CPO王昕溥,知存科技创始人兼CEO王绍迪,天数智芯战略与公共事务部副总裁余雪松,得瑞领新VP康雷,瀚博半导体软件产品副总裁李国亮作为对谈嘉宾,带来了精彩的观点碰撞。

如何架构更完善的“算力经济”天数智芯战略与公共事务部副总裁余雪松

天数智芯战略与公共事务部副总裁余雪松表示:“现在进入数字经济时代,未来三十年算力的需求是更强的趋势,可能是指数级的,速度远远比我们想像的快。之前有一个研究表明,算力指数每提高一个百分点就会带动GDP增长零点五个百分点,这不仅仅是经济高质量发展的强大驱动力,也为计算芯片提供了极其广阔的市场空间。”

如何架构更完善的“算力经济”亿铸科技创始人、董事长兼CEO熊大鹏

“目前AIGC正在各个行业开花结果,大模型对算力市场增长的推动将是巨大的。”亿铸科技创始人、董事长兼CEO熊大鹏表示,“AI算力将成为一种基础设施和商品,这将需要我们提供更便宜的算力和创新的商业模式。”

如何架构更完善的“算力经济”得瑞领新VP康雷

得瑞领新VP康雷则表示,“随着AI的到来,我们也在继续观察都有哪些相关的卸载可以在存储节点去做,从内存到相对更低的存储需要分几步走,都有哪些可以做更好的连接帮助AI更好地训练、推理和执行。”

如何架构更完善的“算力经济”大禹智芯联合创始人兼CPO王昕溥

AI的火热带动了AI底层的市场规模急剧扩大,“整个市场规模急剧扩张的时候,成本控制就会成为大家关注的问题,所以会出现新的想法、新的技术代替IB在这个行业中的垄断,今年开始已经变成非常重要的网络领域火热的方向。”大禹智芯联合创始人兼CPO王昕溥说。

如何架构更完善的“算力经济”知存科技创始人兼CEO王绍迪

针对AI大模型对算力芯片的影响,知存科技创始人兼CEO王绍迪认为,存算一体对解决大模型需要处理庞大的数据和参数的问题帮助是很大的,未来市场会越来越多的向异构AI芯片倾斜,对于整个算力芯片市场来说是非常大的利好。

如何架构更完善的“算力经济”瀚博半导体软件产品副总裁李国亮

除了上述观点之外,瀚博半导体软件产品副总裁李国亮表示,“提供大算力还需要更多系统性的东西,不仅仅是算力,还需要板卡间的互联,甚至更大的系统级互联,数据传输和存储。我们一起通力合作,一定会对社会带来经济效益、对整体产业会有非常大的好处。”

以下为圆桌对谈全文:

刘岚:目前A股中算力经济的股票已经涨了很多,今天我们好好讨论一下,看一看大家怎么看大模型的这些机会,首先请大家简单介绍一下自己的公司。

熊大鹏:亿铸科技是全球首家采用新型忆阻器(ReRAM),面向数据中心、云计算、自动驾驶等场景,研发存算一体AI大算力计算芯片的公司之一。我们选择的ReRAM从成本、密度、功耗、性能稳定性等各方面综合考虑,是目前最适合做存算一体AI大算力的存储介质。

王昕溥:大禹智芯是国内比较早专注于DPU的创业公司,核心团队都是来自于国内云计算公司和硅谷芯片公司。我们提供从芯片、硬件到软件和系统的整体解决方案,希望把DPU做成继CPU和GPU之后的第三颗大芯片,形成云算一体。

王绍迪:知存科技专注存算一体芯片领域,致力于提供更高性能的AI计算能力。我们公司是2017年成立的,目前已经量产商用了国际首款存内计算SoC芯片WTM2101。

余雪松:天数智芯是2018年开始做通用GPU,已经量产两款通用GPU产品-天垓100、智铠100,兼容主流生态,广泛适用不同行业众多应用场景,是国内首家实现通用GPU量产的硬科技企业,并且在当前十分热门的大模型支持方面取得了阶段性成果。我们将以服务国家战略为己任,持续推进通用GPU创新发展。

康雷:得瑞领新在现在的存储行业,正在快速地从HDD向SSD切换,基本上就像是油车向电车迁移的一个趋势,目前国内企业级SSD市场百分之八十的份额还被国外大厂比如三星等占据,我们也是期待更多的国内厂商像得瑞一样开发出自己高性能的SSD,做好国产替代。我们的产品已经在阿里、腾讯,包括各大运营商和行业企业应用。

李国亮:瀚博半导体成立于2018年12月,专注于研发大算力芯片,已经推出云端通用AI推理卡及视频编解码卡等产品,并已经设计完成一款7nm云端GPU芯片,后续也会推出相应的产品。

刘岚:红点中国源于1999年在硅谷成立的红点创投,2005年进入中国并扎根本土,我们关注互联网、IT技术和科技领域的早期投资。在中国,红点是最早关注产业互联网和ToB领域的投资机构之一,18年来见证了中国科技创新创业的不断发展。今天到场的嘉宾里就有我们的投资企业,包括360、瀚博半导体和APUS。

大家怎么看这场人工智能的技术革命?包括对算力经济的影响和促进,希望各位结合自己公司的业务谈一谈。

熊大鹏:目前AIGC正在各个行业开花结果,大模型对算力的需求将是巨大的。中国AI算力经济不缺数据,不缺钱,缺的是两个方面,一个是大模型本身的发展:算力、有效数据、人才竞争。另一个方面是工欲善其事必先利其器,要利用新的技术路线和计算架构,解决对工艺制程的依赖、摩尔定律瓶颈、能源管控和巨大能耗的需求形成的剪刀差、冯·诺依曼架构带来的存储墙、外部环境和地缘政治的影响等问题。国内有很多非常优秀的AI算力芯片公司正在追赶国外巨头,有些是同道追及,有些是弯道超车。我认为我们应当换道超车,比如通过存算一体的架构创新,有着巨大的能效比优势,且不依赖先进工艺制程。亿铸科技还提出了“存算一体超异构”,也就是融合存算一体架构、CPU、GPGPU、芯粒(Chiplet)、3D封装等技术,为大模型时代AI大算力芯片换道发展提供全新思路。

王昕溥:最近一波的AI浪潮确实给我们带来了很多思考,了解DPU的都知道,最早的兴起其实是云计算公司,国外最早就是AWS部署上线,国内是阿里。第一个大规模场景还是最经典的云计算卸载,网络卸载和存储卸载,就是基于云计算场景。第二个场景是存储,在这个场景里大家做了一些自研的高性能网络协议,也是在AWS和阿里落地。HPC因为整个市场相对前两个比较稳定,而且从底层技术网络架构来讲有一个很难超越的天花板,就是IB的存在,大家很难去挑战。因为最近AI的火热导致整个AI底层的算力市场规模急剧扩大,云计算市场中,一个服务器一般会搭配一张DPU卡使用,但在AI场景里面一张GPU卡就会搭配一张DPU卡,服务器本身还是需要的,可能一台服务器需要配八到十张DPU卡进行互联和数据传输,所以市场规模是非常大的。整个市场规模急剧扩张的时候,成本控制就会成为大家关注的问题,所以会出现新的想法、新的技术代替IB在这个行业中的垄断,今年开始已经变成非常重要的网络领域比较火热的方向。大禹智芯过去在高速低延时网络中有些传统的积累,所以希望和建设算力网络的用户以及国内GPU芯片公司合作,能够在此过程中提供新的解决方案,帮助大家解决成本问题,同时快速发展。

王绍迪:过去人工智能是以CNN视觉和语音算法为主,可以理解为我们的眼睛或者耳朵,但其实只有眼睛和耳朵的话,人工智能能够做的事情是非常少的。基于现在的GPT模型以Transformer为主,相当于代入了语言能力。我们思考都是以自己的语言为基础来思考,有了Transformer后人工智能可以更好地理解、分析并且生成、输出一些内容。因此从这个角度来说,它能够带来的应用场景已经是非常广了,从写代码级别的工作,到生成图片、生成视频内容这种需要大量创意和人工的工作,成本都有大幅度的降低。因此从市场角度来说,AIGC未来的应用市场规模我认为其实比之前十倍还要大,可能是百倍左右的市场,能够降低整体社会成本,也能提高效率,带来一个新的经济增长点。另外从算力的角度来说,这对我们这类算力芯片公司来说也是一个很大的利好。像传统的CNN算法不管是图像识别还是语音识别,需要的算力相对比较低,大部分情况下通用化架构就可以解决问题。但未来五到十年内都是Transformer加多模态的模型为主,算力的需求比原来可能大一百倍一千倍,算力成本就会急剧上升,NVIDIA自己也推出多个专用化的芯片。所以未来低成本的异构AI芯片的机会越来越多,甚至细分领域都有专用的芯片,这对于存算一体芯片企业来说打开了一个大市场。存算一体技术对于解决大模型庞大的数据和参数的是帮助很大的。所以从这个角度来说不仅是市场需求,对在座各嘉宾企业来说都有非常大的利好,包括对社会生产力发展带来新的增长。

余雪松:NVIDIA公布最新一期财报的当天,其股价上涨了将近百分之三十,现在市值也破万亿美元了,这充分说明了市场对算力芯片的需求是非常明确的。刚才主持人讲我国正在进行百模大战,所以大模型的训练将是接下来算力需求的重点所在。天数智芯是一家做通用GPU的企业,有训练和推理两款芯片产品,已经实现量产应用。大模型热潮起来之后,我们也和合作伙伴一起共同努力,在大模型训练推理方面取得了阶段性进展,很多企业对我们的关注度明显提升。因此从这个角度来说,我觉得这是一个很大的机会。现在进入数字经济时代,未来三十年算力的需求只会更加强劲,算力需求的增长可能是指数级的,速度远远比我们想像的快。

康雷:AIGC变火以后大家都在想自己能够有什么收益,我们做为一家存储企业的,当时第一反应有点失望,觉得ChatGPT当下拉动的主要是GPU、Network、交换和网卡,没有对存储的拉动。但我们认为从长远来看,AI一样会对存储对大幅的拉动作用。之前也有嘉宾聊过这个想法,因为ChatGPT目前是基于文本交流为主,后续会有更多图片、视频、训练和推理等等。早先发表的内容都是专家、作家、记者等等,后来到了互联网时代可以大家都可以发布内容,再然后有自媒体,再往后AI可以自动产生内容,如果可以自动产生电影,就像足球游戏挑选自己喜欢的球星组建球队,我们是不是也可以挑选喜欢的影星拍一部悬疑类、动作类的电影?内容产生的方式发生改变,可能会对存储内容带来相当大的变化。就像从互联网时代、手机时代带来存储的大量增长一样,可以预见AI时代来临的时候存储也会有指数性的增长,所以对我们这样的公司会有非常大的推动作用。相比存算一体的公司,我们比较偏存储,但也在看近期怎样把存储和计算结合。我们的结合肯定是在芯片层面,做到更细的处理单元结合,怎样一步一步从记忆到存储的缝隙填补,让不同数据都有不同层次的交换、平台和路径。

李国亮:最近一波人工智能是一场盛宴,特别是大模型,颠覆了大家总体的思考方式。大模型需要非常大的算力,需要我们提供大算力的硬件,这是一个非常好的机会。我们公司的产品可以提供大算力,可以提供很大的存储,大模型的广泛应用也会助力提供大算力的产品和公司的发展。提供大算力还需要更多系统性的东西,不仅仅是算力,还需要板卡间的互联,甚至更大的系统级互联,数据传输和存储。我们一起通力合作,一定会对整体产业有非常大的好处,包括对社会带来经济效益。当然,路径本身还是很长的,需要一些时间,但前途还是非常光明的,当前的形势也提供了非常好的契机。

刘岚:谢谢各位,本场圆桌讨论挺有意思,讨论嘉宾们里面,两位是做存算一体的,两位是做通用AI训练的,也有做传统存储和网络交换的,应该可以深入讨论一下。下一个问题是针对做算力芯片的公司,因为大模型出来之前大家可能还是用传统的方式去看架构,包括NVIDIA的A100、H100,包括AMD的MI系列芯片,国内这些通用的AI算力芯片都在看他们的发展,大模型带来的是什么变化?自己的公司的产品规划和思考有没有什么变化?未来更加看好哪一块算力芯片的市场?

熊大鹏:AI将改变各个行业,将改变生活的各个方面。对于AI算力的需求将没有天花板。AI算力将成为一种基础设施和商品,如同今天的水、电和移动通讯一样,其规模将和其带来的各类应用和增值服务的收益达到一个合理的平衡,这将需要我们提供更便宜的算力和创新的商业模式。我们公司最开始就定位做大模型这样的AI大算力场景,今年以来针对大模型实际应用中发生的问题,我们也在思考哪方面需要加强。大模型带来最大的挑战之一就是使存储墙的问题变得更严峻,而存算一体最大的优势之一就是能够解决存储墙的问题。另外,芯片和芯片的互联、服务器和服务器的互联也是需要重点攻克的挑战,我们会重点针对大模型,做更多软硬结合的性能优化。亿铸科技专注做AI推理计算芯片,根据民生证券对美国硅谷的考察和调研,未来对于AI推理计算的算力需求将急剧增长,同时由于各类应用部署的推广,AI推理计算的增长将远远超过训练市场的需求。

王绍迪:作为公司创始人和CEO,其实大部分时间在想产品做什么、未来几年做什么,市场在哪里。存算一体的计算单元不是现在的逻辑单元,而是存储器的存储单元本身。存算一体也随着存储介质迭代逐渐往前发展。像存储介质Flash,我们可以回想一下 2000年左右我们用的MP3的flash是128MB,到了2010年手机容量达到32GB,现在我们常用的已经达到了几TB,容量是逐渐往上涨的。存算一体也是这样,随着容量增长,算力也是和容量一个维度增长。所以我们刚开始做存算一体的时候,第一代产品能够集成的规模比较小,当时就是4MB;去年开发的第二代相比第一代大概晚了两年,算力提高六百倍左右,集成规模大了很多,存储器集成规模发展速度也是很快;我们第三代产品规划的是大算力芯片。2021年有一个头部公司跟我们交流要不要去做NLP处理加速的芯片,存算一体非常适合这类大模型,但那个时候还没看到NLP的应用潜力,我们也不敢下决心需要去做这样的芯片。随着ChatGPT大模型出来以后,证明NLP这套路线确实是可以走通,并且也有非常大的市场,我们第三代芯片应用场景就很明确了。所以我们会加速整个研发计划,原本是可能2025年出来第三代芯片,现在我们计划加速到2024年推出适用大模型的芯片,基于国产工艺、并且成本更低可能只有几百元人民币就可以运行大模型的这么一个芯片。所以对我个人而言,大模型的出现其实解决了我很多的疑问,对于下一步应该做什么样的存算一体产品看到了明确的选项。

余雪松:天数从创立开始就致力于做通用GPU产品,在产品的设计之初就已经关注到客户需要最大限度的降低跨平台开发成本,走兼容主流生态路线。目前来看,这条路走得还是很对,我们的天垓100和智铠100可以有效满足大模型需要。因为通用算力不管是对大模型还是高性能计算来说都是必须的,算法模型在不停演进和迭代,专用算力芯片可能很难这么快地适应,需要一个较长过程,但通用GPU不需要。因此,我们还会坚持在这条路持续走下去。从趋势看,大模型对算力要求越来越高,一方面芯片性能要持续提升,另一方面集群能力也要进步。因此,我们需要做着两方面工作:一是不断提升芯片计算能力。一个芯片有上万个核,单核性能提升非常重要。我们所有芯片底层软硬件都是自主研发,能够保障我们接下来去深度研究微架构、指令集等底层技术,从而提高我们的单核性能。二是系统集群水平提高。不仅是卡间互联、软硬件适配协同,还包括系统层级的通信、调度等能力,从而提高系统整体的计算能力,降低能耗水平。个人觉得对我们国家来说还需要解决一个问题,就是如何通过应用牵引我们自己生态的发展,实现芯片、存储和网络的联动发展。

李国亮:通用是非常重要的,如果做的产品性能确实非常好,但通用性不强,应用的领域就会受限。除了通用外,还需要考虑可扩展、互联等。

刘岚:大模型的训练和应用的增加对数据中心的流量也会产生比较大的影响。

王昕溥:我觉得从底层网络来讲,对大模型主要有这样几点制约。首先是规模,网络瓶颈会影响单个任务能够调用的GPU数量。其次是延时,好的网络能够提升P95或者P99,同样硬件规模下能够缩短任务运行时间,达到很显著的程度。DPU做数据在网络上的搬运,网络协议再优化,毕竟也是把数据从内存搬到内存,和几位嘉宾提到的面临同样的内存墙问题。如果能够在离数据最近的地方把数据处理掉,这其实是DPU诞生之初的主要设计指导思想。

刘岚:大模型对存储空间的需求也是成几何级数增长,那么对存储技术的影响是什么?算力发展过程中的需求影响有多大?

康雷:第一反应是对存储需求没有那么大,但随着内容增多,需求增多也是肯定的。我们在做计算和存储的融合,因为这也是一个大的趋势。卸载是有几个节点都在做,CPU也在做很多卸载,DPU也在做很多卸载,存储也是在做各种各样的尝试。大家都在想着计算可以节能、安全,都有更好的提升。随着AI的到来,我们也在继续观察都有哪些相关的卸载可以在存储节点去做,包括数据中有碰到内存墙,而从内存到相对更低的存储需要分几步走,都有哪些可以做更好的连接帮助AI更好地训练、推理和执行。

王绍迪:AI大模型有两个部分的需求,一个是内存,一个是存储。内存明显就是高带宽,现有的HBM从第一代转向第三代,已经非常接近HBM的极限,一个带宽速度,一个是传输功耗。下一代如果要内存和带宽继续提高,集成方式要从2.5D转成3D。但是转成3D的话,不管是内存还是GPU芯片的成本都会有非常大幅度的上升,可能上升十倍左右,所以会有带宽和成本的取舍问题需要解决。另一个就是存储,如果单单看ChatGPT这种175B的模型需要的存储容量是不大的,但未来可能会走到专家系统模型,参数量更大,达到1个T甚至10个T左右,未来专家系统模型肯定会需要一个更经济效益的方式,无论对带宽还是存储容量都有更大的需求。

熊大鹏:记得是上个月,三星设备解决方案部门总裁庆桂显发布了一个战略,“在不久的将来,存储器在人工智能服务器中的重要性将超过英伟达GPU的重要性。因此,预计到2028年,我们将使发布以存储器为中心的超级计算机。”未来,随着AI大模型的发展,计算模型参数会越来越大,需要存储的东西也会越来越多,所以如果以存储为中心,围绕存储部署计算资源,能够使得数据搬运做得更优,带来的效益在大模型时代会是非常明显的。

刘岚:大模型的部署在各种硬件平台如何实现无缝迁移是必须考虑的问题,包括算法、解决方案、硬件,我们也知道天数、瀚博都有自己很好的云端训练芯片推出市场,而且已经商用,两位对软件生态的需求有什么看法?

余雪松:天数智芯的软硬件都是自主研发,具有自主可控、高性能、通用性、灵活性等特点,兼容主流生态和各种开发框架,支持了200余种人工智能算法模型稳定运行。天数智芯产品通用性非常好,对国内开发框架、算法模型等软硬件产品适配良好,打通了人工智能产业全链条。因此从这个角度来说,未来通用还是必须要走的一条路线。但从具体适配工作看,任务量还是非常大,我们需要去跟几乎每一个客户是适配,尽管我们花的时间比较短。未来有没有可能统一标准?这是工信部等行业主管部门应该考虑的,实际上现在也在做了,已经在制定接口、算子等标准,这将会对整个生态起正向的引领作用,加速适配迁移这个过程。同时,我还有一个建议,希望相关部门能推动在行业层面凝聚共性需求,然后提取适配认证要求,制定测试相关标准,可以通过第三方来做这样的测评,这样应该能够大幅降低这个行业客户的适配认证工作量。

李国亮:生态对我们来说非常重要,也是业界讨论的一个热点,我们希望做到统一,但涉及的层面比较广。我们的生态肯定是从上到下的,而不仅仅是芯片,会涉及到整个产业链上下游的不同厂商。这就需要从更高的层面,由国家出面,或者是国家找一个比较大的、很有影响力的国企来主导做这个事情。大家的需求点不一样,各自的产品也不一样,肯定会有一些互相之间的妥协,求同存异。我们统一生态以后迁移就好做了,对于大算力硬件来说,比较的就是产品的性能和功耗比,所以对所有上下游厂商都是好事情。Transformer看上去是在统一AI的各个领域,其实对我们也是好的,即便不是在那么大的层面,至少对大模型是非常好的。如果以此作为出发点,大家互相交流、互相合作,国产生态才能做好。

刘岚:请各位用一句话总结未来十年甚至更长时间人工智能行业的发展。

熊大鹏:在AI计算芯片领域,展望未来一到三年,我们最重要的任务就是:提供更高的算力与能效比;实现更高的容量与存储密度;通过存算一体超异构创新,融合传统CPU、GPGPU、存算一体超异构及软件生态,提供一种能够适应未来算法快速变化、满足算力可持续发展需求的可行思路,破解国内AI大算力困局,走出属于中国AI芯片产业自己的发展道路。

王昕溥:不从技术本身,而从普罗大众的角度来讲,未来人工智能能够极大地促进大家生活质量的提高,但一定是在安全可靠的范围内。

王绍迪:希望未来十年人工智能的发展能够被完善、成熟的监管所引导,给社会带来更高质量的经济效益、给人们带来幸福快乐的生活。

余雪松:套用一下公司宣传片的结束语:计算开创未来。

康雷:希望AI能够给大家带来更多的便利,存储也会为大家提供这种变化的平台,今后大家真的可以自己通过定义个剧本、选些明星,比如让李小龙和吴京拍个片子,然后自己周末在家里看两个小时的电影。

李国亮:我还是希望上下游的厂商能够更多地交流和合作,才能把这个产业做好。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy