随着ChatGPT火遍全球,国内科技圈也打响了“千模大战”,不同场景、语言、行业的AI大模型层出不穷,产品形态覆盖移动端与PC端。资本也久违地捕捉到了类似10年前移动互联网曾带来的变革机遇,单笔融资规模动辄破亿美元,不断刷新独角兽的诞生周期……
当前,国内生成式AI创业与产品研发热火朝天,互联网和云服务大厂、传统AI企业、高校及科研机构、大数据及算力提供商纷纷入局。几十上百家公司喊出“梦之队”的口号,誓要成为中国版的OpenAI,造出自己的ChatGPT。
据不完全统计,在已持续4个多月的大模型创业狂潮中,多达60款类GPT大模型已经或即将面世。除了拥有深厚技术积淀与资金实力的大厂以各自的产品吊足观众胃口,众多大厂高管与互联网老兵的躬身下场也让这场军备竞赛具备了更多看点:一方面,腾讯、华为、京东、蚂蚁等巨头系大模型布局继续加码;另一方面,百川智能等来自创业公司队伍的生成式AI探索也已取得初步成果。
生成式AI时代,不同技术场景中的底层技术变量将带来怎样的价值,其中蕴含着怎样的创业机会,又包含哪些成功的要素与难点?动点科技收集了来自风投与相关创业公司基于实战的洞见以飨读者。
底层基础变量启动系统创新
从Stable Diffusion的开源到ChatGPT的问世,生成式AI在各个领域的范式迭代已成为共识,AIGC可谓是想象力加生产工具的双重组合。通过多轮交互,用户与模型的交互深度已大幅度增加,新型的交互形式的引入大大降低了技术的交互成本,可谓是小样本大智能。
金沙江创投主管合伙人张予彤认为,其中底层的变化主要在于计算成本与推理成本。
正如神经网络随着算力的发展愈发深度,大模型的不断调优与迭代也依赖着算力的提升。据报道,作为一个万亿参数的模型,GPT-4是用2万张英伟达A100显卡进行8个月训练的结果。未来若达到英伟达H100芯片等更高级别的算力,其耗费的显卡数量将会明显降低。因为万卡的阶段已经给运维带来了很大压力,每小时都需要至少重启一张显卡。面对这种瓶颈,纯粹的规模化给模型带来的增益将呈现递减趋势。只有底层算力的提升才能推动数据处理能力的攀升并进而提高训练数据的规模。
效果惊艳的模型问世之后,从业者也不得不开始关注模型的推理成本。今天,ChatGPT在下游广泛的通用任务中都有较好的表现,并由此开启了大量的推理应用,未来有望从云端拓展至H端、移动端,并降低技术成本使之适配更多的商业场景。
2014年起,五源资本开始投资于深度学习类AI赛道。五源资本合伙人刘凯认为,今天的这一波AI创新与十年前的区别主要在于,十年前的创新主要是由AI教父辛顿等人带动的点状创新,推动了行业的发展并快速商业化。而今天以OpenAI为代表的创新其实是一种系统化的创新,在多个维度上发生了快速的迭代与突破。
点状创新会很快在点上收敛,对应的结果就是其他层面的同质化内卷,例如不同企业高度雷同的CV与NLP客服产品。而如今的 GPT4从底层模型机制到上层应用的prompt,借助了很多成熟的infra公司,与开源界关系密切,带来了大量的开源者,包含了大量的数据集。
也有创投人士担忧这一次的AI创新是否也会如十年前那样,先带来很高的期待而后继乏力。对此,刘凯表示,不必有此担忧,因为ChatGPT将重心放在生态建设,更多地促使用户去使用API这种难以计算用户时长的端口。并且,后者也更着眼于生态创新,从各个方面吸引与笼络开发者和用户,ChatGPT以及相关的AI大模型还远没到降温的时候。
落地前:层层壁垒与重重挑战
从生产力工具到交互形式再到交付成本,这一轮AI创新带来了不可忽视的变革,而这种影响还将随着技术的逐步落地被继续放大。而在此过程中,AI大模型的落地还存在一些壁垒与挑战。
面壁智能CEO李大海认为,训练一个小型预训练模型并没有太大难度,这也是国内会出现“千模大战”底层原因之一,真正的难度在于要真正做出一个性能达到当前GPT4甚至更高水准的模型。他分享了AI大模型在预训练阶段的一些有待突破的壁垒,主要包括算力、数据、训练难度以及对infra的要求。
训练一个GPT3.5水平的模型至少需要1000张英伟达A100或H800显卡,其背后成本十分高昂,而随着模型参数规模的上升,其试错成本也水涨船高,并需要海量的、包含多模态数据的支撑。同时,虽然行业已逐步沉淀出一些训练的方法论,但仍无法避免梯度爆炸等系统性问题的产生,这对于AI训练工程师快速排查问题的能力提出了极高的要求。如何让infra能够更好地与模型结合,更好地容错,也是一个很高的门槛。
此外,效果与成本的平衡、安全可控也是大模型落地的挑战所在。基于Transformer的大模型已实现了很大的突破,但Transformer架构的大模型是否能达到AGI的水平还是个未知数。如果没有更高效的架构出现,成本将限制我们对于大模型性能的追求。在复杂分裂的文化背景下,如何保证模型的可控性并使之在一个地区进行有效的商业化落地,已成为比技术更令人头疼的问题。
关于AI大模型在工具链层的挑战,潞晨科技创始人尤洋教授表示,下层的GPU硬件等基础设施决定了上层的处理方法,而上层的方法反之也将产生更深远的影响。当前训练大模型使用的Adam优化器本质属于非凸优化,难以找到全局最优解,现在收敛到的只是一些局部最优点。
“AI模型是不是越大越好,参数量达到5000亿、6000亿乃至7000亿、8000亿之后会不会产生瓶颈?这些都还无法从科学角度进行验证。神经网络模型也是一个非凸函数,当全球计算机理论学科最优的普林斯顿大学教授都无法证明5层神经网络的多点性,遑论比较500亿参数与5000亿参数大模型的优劣。”即便是OpenAI也只是在进行一些实验性的探索,没有人能够证明千亿级参数的大模型是否一定优于百亿级。
尤洋相信,未来随着计算范式变革,将出现比Adam优化器快成千上万倍的选择,并带来成本的大幅度下降,以至于用几十个服务器训练一两周就能达到今天GPT4的效果。
Gonex CEO温梦飞观察到,当下很多AI大模型在应用层提供的解决方面较为表面、容错率较低且不受控。例如一些聊天机器人没有对对话内容进行任何分析处理,这在行业中是不可接受的,因为在给定的流程与场景下,不能让模型无限制地生成内容。
基于Gonex进行的一些早期研究,大模型的产业应用主要有两方面的挑战,一是缺乏商业化的PMF,大多数现有的模型应用没有解决实际的问题,因此也没有付费的空间。这涉及对流程的再造以及商业场景的适配,国内尚未找到对应的完整体系与标准;二是很多的模型应用还是比较薄,体现没有整理出自己的行业know-how,仅靠模型自身进行迭代行业数据它没有整理出来,以及纯线上的交付无法体现服务的能力。
温梦飞认为大模型的行业应用需要从三个方向考虑,即抽象与提炼自己的行业know-how,增加独有的交付方式,和以自身模型的逻辑、意图识别、流程再造去解决实际问题。
工具链与商业生态演变路径
在大模型创业的成功要素中,算法、算力、数据、资本的重要性显而易见,而生态这一要素也正随着技术范式的变化发生改变。MLOps(机器学习运维)是AI掘金时代的“铲子”,从模型到生产应用全面助力着AI模型的落地生花。
刘凯发现,不同于上一代Machine Learning的模式能力,即依托强化学习去做一些预测性的应用,例如电商平台的商品推荐及短视频平台的内容推荐。这一代的生成式AI解决的是完全不一样的问题,它对数据的理解与使用环节都非常不同,具备了以前所有的软件公司都不具备的能力。他相信,这一代新的范式将孕育很多新的工具和新的公司。
除了工具链生态的变化,大模型的商业生态也发生着剧变,例如在文生图领域,Stable Diffusion和Midjourney进行着拉锯战,在语言模型领域,LLaMA等项目遍地开花,几乎人手一个大模型。
对此,张予彤认为文生图模型与大语言模型的差异不仅在于模态的区别,更重要的是文字可能是人类总结与传播知识的首选媒介,人类的通用知识与常识通常也留存在语言文字中。正如在CV领域的Killer App屈指可数,因此,大语言模型在未来仍然是不可忽略的。
未来,大模型还将向文生视频的方向发展,例如Midjourney的5.2版本也推出了一个可以无限zoom out的功能。但随着大模型模态和信息的升维,其理解人类通识的能力也将成为技术的关键点。