逐浪大模型，国产GPU的机遇和挑战 | 钛媒体深度

图片来源：视觉中国

“这是一个比互联网时代还大10倍的机会。”

在ChatGPT出现以后，科技界和各路风险投资机构普遍认为，真正的人工智能有了可以实现的路径，ChatGPT的推出是AI的“iPhone时刻”。2022年11月30日，OpenAI发布了聊天机器人ChatGPT。两个月之后，ChatGPT的用户量突破了1 亿。在ChatGPT之前，TikTok 达到1 亿用户用了9 个月，微信用了14个月，Instagram 用了2 年半，Twitter则用了5 年。瑞银分析师在报告中感叹道，“在互联网过去20 年的发展中，我们找不到哪款消费级互联网应用的用户增长速度比ChatGPT 更快。”

不过，应用层面的火爆只是这次AI浪潮中的一个头浪，ChatGPT背后的大模型技术，让人们看到了更多的可能性。

所谓大模型，是指具有非常大参数数量的人工神经网络模型。公开数据显示，到2020年时ChatGPT所使用的预训练大大语言模型参数GPT—3，达到了1750亿。

“当参数数量达到700亿时，人工智能就发展出‘涌现’的能力，意味着出现了某种程度的智能。”曾经在英伟达任职的石浩对钛媒体App表示，目前学术界解释不了“涌现”的原因，但ChatGPT的大模型训练是现在行业可以参考的唯一方向。“国内大模型的众多参与者，也只能按照这个路线‘依葫芦画瓢’，先把模型理解了，才能一步步进行调优。”

而伴随着巨大参数数量的大模型参与到人工智能的研究中，算力成为了成败的关键，GPU则是决定算力大小的核心部件。目前的算力市场，英伟达的产品几乎是无可代替的存在。当越来越多的国产大模型进入到追赶GPT的队伍中，国产GPU也迎来了行业的机遇和挑战。

英伟达押对了筹码

逐浪大模型，国产GPU的机遇和挑战 | 钛媒体深度

GPU为何能成为大模型算力基础设施中最重要的一环，还要追溯到十多年一次试验的巧合。

根据财新的报道，2012年，多伦多大学的研究员联合同学llya Sutskever与导师Geoffreytinton设计了一个深度卷积神经网络(CNN)。当时，训练这一神经网络需要庞大的CPU资源，甚至花上几个月时间。该团队最后使用了两张当时英伟达为大型PC游戏准备的GPU GTX580，结果训练不到一周便完成了。

事实上，巧合的发生来源于GPU特有的单元架构。

CPU 作为核心控制计算单元，高速缓冲存储器（Cache）、控制单元（Control）在 CPU 硬件架构设计中所占比例较大，主要为实现低延迟和处理单位内核性能要求较高的工作而存在，而计算单元（ALU）所占比例较小，这使得 CPU 的大规模并行计算表现不佳。

而GPU 架构内主要为计算单元，采用极简的流水线进行设计，适合处理高度线程化、相对简单的并行计算。随着 GPU 可编程性的不断提高，去掉或减弱 GPU 的图形显示部分能力，全部投入通用计算的 GPGPU（通用计算处理器）也应运而生。

llya Sutskever后来成为了OpenAI的联合创始人和首席科学家，他们所设计的网络被称为AlexNet。llya Sutskever称，“我一直深信训练数据集越大越好，成立OpenAI的目的之一，也是为了探究如何利用数据的规模。”此后，随着ChatGPT的训练模型的不断增长，GPU成为大模型算力的重要供给工具。

逐浪大模型，国产GPU的机遇和挑战 | 钛媒体深度

不过，在巧合之外，英伟达的GPU之所以能够在如今的人工智能领域，实现一家独大，主要是之前选对了方向。

石浩对钛媒体App表示，人工智能最早是由谷歌的人工智能深度学习系统——Tensorflow在2015年开创的。紧接着，英伟达将CUDA的生态迁移到Tensorflow上，与其兼容建立了人工智能早期的软件生态。但是由于谷歌的TPU(张量处理单元，计算芯片的一种）不对外开放，导致英伟达的GPU和CUDA软件生态越来越被行业认可。

与此同时，2015年前后PC游戏开始进入下行态势，英伟达选择聚焦人工智能领域，旗下负责游戏开发的工程师，也纷纷转型到人工智能领域的开放工作中。

“从2015年-2022年，英伟达的工程师积累了大量的人工智能试验方案，一些方案与英伟达的GPU是天生适配的。”石浩称，这对于初入人工智能的用户是非常好的一个方式，因为他们只需要买英伟达的产品，下载CUDA软件生态中的参考方案就能复现自己想要的结果。

而对比英伟达，GPU并行计算的另一个主要玩家——AMD则出现了“战略资源错配”。

“从2015年到现在，AMD实际看重的是CPU市场，其服务器CPU的市场份额也从最初百分之十几，上升到现在的40%。”石浩表示，但是随着半导体先进制程一路从28纳米走向12纳米，再到3纳米，工艺的升级就带来了计算成本急剧的降低。而CPU内部的计算资源大概只有10%，GPU则为90%。在目前这种情况下，受益最大的是GPU，AMD压错了方向。

受益于GPU暴涨的需求，英伟达的股价也一路水涨船高，最新市值超过了一万亿美元，是AMD的5倍多。

国产GPU，机会几何

根据市场调研机构Trendforce估计，2020年GPT模型处理训练数据所需的A100数量达到了2万张左右，未来ChatGPT商业化所需的A100数量将达到3万张以上。Trendforce指出，英伟达

DGX A100是业界大数据分析和A加速的首选，随着生成式A成为趋势，英伟达将从中受益。

同时，根据摩根大通的一份最新报告显示，英伟达将在今年的人工智能产品市场中获得 60% 的份额，主要来自于其图形处理器（GPU）和网络互连产品。英特尔和 AMD 也出现在了榜单上，但他们的收入百分比可以忽略不计，低于 1%。

而当英伟达成为大模型浪潮中的主要算力提供方时，国内诸如百度、阿里、华为这样的大模型参与者，将面临一个颇为棘手的境遇。

按照美国商务部2022年关于高端GPU的出口限令，中国只能向英伟达购买算力一致但传输速率只有A100三分之二的特供版芯片A800，且此后算力更强的GPU芯片都会被限制。在此情况下，国内的GPU厂商能够实现对英伟达产品的部分替代，成为了行业共同面临的问题。

目前，国产GPU 有两条主要的发展路线：分别为传统的 2D/3D 图形渲染 GPU 和专注高性能计算的 GP GPU。生态方面，国产厂商大多兼容英伟达 CUDA，融入大生态进而实现客户端导入。

逐浪大模型，国产GPU的机遇和挑战 | 钛媒体深度

其中，寒武纪旗下的思元370系列GPU产品，单精度浮点算力和半精度浮点算力分别为24TFLOPS和96TFLPOS，均超过了英伟达A100，但显存容量只有24GB，与英伟达最新的H100也还相距甚远。同样地，海光信息的海光8100、壁仞科技的壁砺104P等国产GPU也存在着相当的差距，处于持续追赶中。

“对于算力的需求量主要与模型参数量相关，大厂现在所做的通用大模型依然只能使用英伟达的产品。但是，垂类行业的大模型（金融、医疗等）或者参数量不像GPT那样大的模型，国产GPU的算力已经非常够用了。”

逐浪大模型，国产GPU的机遇和挑战 | 钛媒体深度

电子行业分析师袁琪对钛媒体App表示，目前国内某短视频平台参数量约为1000亿的大模型，就用了寒武纪的产品，做训练和推理。同时，该模型也使用了英伟达A100。最后，按照短视频平台的标准对于两个产品进行打分。

最终结果显示，英伟达A100得分是92分，寒武纪得分为87，这意味两者之间的表现已经相差不大了。

“后续随着模型对寒武纪芯片的定向调优完成，这个得分肯定还会往上走。”袁琪称，目前行业排名中，性能最强的是寒武纪的思远590，其次则是华为的昇腾910。这两者主要对标的是英伟达A100，国内大模型的训练和推理都可以用。

不过，在刚刚结束的GTC大会上，英伟达推出了基于新一代 GPU芯片H100的服务器，H100则采用的台积电4nm的先进制程。英伟达创始人黄仁勋称，该服务器相比A100服务器的速度提升了10倍，并可将大型语言模型的处理成本降低一个数量级。以GPT-3模型为例，目前使用的A100训练时长需要5天，而H100仅需19小时。

这意味着，下一代国产GPU能否跟得上英伟达的步伐，依然是一个问题。

算力压制下，国产大模型的破局之法

“实际上，对于算力和先进制程，大家看的比较笼统。”

袁琪表示，从市场的角度来看，GPU的计算资源、储存资源和通信资源一般会要求达到一个均衡的状态，以此来实现GPU更高的利用率。更为先进的制程工艺，虽然能够提高GPU单位面积的算力，但是随着大模型完成数据训练走到推理阶段，所需的算力将不再像训练阶段那么大，限制模型成本的就不是单位面积的算力，而是单位面积的存储。

以英伟达A100为例，该产品就有2个版本。这2个版本在计算性能上没有任何差别，但一个是搭载了40GB的显存容量，另一个是80GB。其中，80GB的A100，是OpenAI提出了需求才有的。也就是说，大模型后期对于显存的需求要比计算的需求要高。

按照袁琪的说法，随着大模型继续往前推进，对于计算单元的主要考验将不是算力，也不是先进制程，而是存储。

基于上述的技术路径，存算一体（Computing in Memory）的解决方案成为了提升大模型算力的另一条可行路径。

所谓存算一体，就是在存储器中嵌入计算能力，以新的运算架构进行二维和三维矩阵乘法/加法运算。阿里达摩院在2021年发布采用混合键合（Hybrid Bonding）的3D堆叠技术——将计算芯片和存储芯片face-to-face地用特定金属材质和工艺进行互联。在实际推荐系统应用中，相比传统CPU计算系统，存算一体芯片的性能提升10倍以上，能效提升超过300倍。

另外，存算一体路线下的存内计算方案中，存储单元和计算单元完全融合，没有独立的计算单元：直接在存储器颗粒上嵌入算法，由存储器芯片内部的存储单元完成计算操作。

逐浪大模型，国产GPU的机遇和挑战 | 钛媒体深度

以国内公司亿铸科技为例，基于CIM框架、RRAM存储介质的研发“全数字存算一体”大算力芯片，通过减少数据搬运提高运算能效比，同时利用数字存算一体方法保证运算精度，适用于云端AI推理和边缘计算。

利用存内计算方案，亿铸科技单板卡算力范围在1000TOPS以上，在较低成本、低功耗、低延退下，能够借着存算一体芯片，用较小的代价实现高算以上力，突破芯片大厂的生态壁垒。

存算一体之外，通过软件调度来提升硬件处理数据的效率，也成为了解决大模型算力不足的另外一种选择。

潞晨科技的创始人尤洋告诉钛媒体App，理论上，用多个低端芯片来代替英伟达的一个高端芯片是可能的。比如，假设每一个低端芯片算力是100TFLOPS，四颗芯片简单叠加就能得到400TFLOPS的算力。但是，在实际工作中，400TFLOPS的算力无法被完全发挥出来。因为数据在四个芯片之间要不断地进行传输和交互，一颗芯片的速度过慢就会拖累整体的效率，这就需要高难度的软件优化。

尤洋曾任新加坡国立大学教授，从事分布式计算、机器学习、高性能计算相关研究。2021年，尤洋创办了潞晨科技，试图通过分布式AI开发和部署平台，帮助企业降低大模型的落地成本，提升训练、推理效率。创办的18个月里，这家公司共计拿到了3轮融资。

事实上，根据一些公开的论文显示，阿里巴巴、百度和华为已经在寻求使用 A100、老一代 Nvidia 芯片 V100 和 P100 以及华为 Ascends （昇腾）芯片的各种组合方案。

在 3 月份的一篇论文中，华为研究人员展示了他们如何结合软件技术，通过仅使用华为的 Ascend 芯片而不使用 Nvidia 芯片，来训练其最新一代大型语言模型。研究人员在论文中写道，尽管存在一些缺点，但 PanGu-Σ（盘古）的模型在一些中文任务上达到了最先进的性能，包括阅读理解和语法挑战。

“所以，在对ChatGPT的追赶上，我认为不用过度悲观。”袁琪称，面对差距，腾讯的冷静态度是对的。这是一个非常新的东西，它是有颠覆性，但也有很多弊端。“纵观这么多年的历史，我们发现现在还没有任何一项技术，在短暂的落后之后，是永远跟不上的。”（应受访者要求，文中石浩、袁琪为化名，本文首发钛媒体App，作者 | 饶翔宇，编辑 | 钟毅）

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App

2023 年 6 月
一	二	三	四	五	六	日
	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

逐浪大模型，国产GPU的机遇和挑战 | 钛媒体深度

英伟达押对了筹码

国产GPU，机会几何

算力压制下，国产大模型的破局之法

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定