中国大模型经历了短暂沸腾以后,一部分人骤然冷静下来。在过去1个月,行业已悄然分化。前Google科学家、出门问问创始人兼CEO李志飞就是其中之一。
1个月前,他率先声称要做“中国OpenAI”,但现在,他却说:“中国是不是存在一个跟OpenAI一样的这种组织?我觉得大概率不存在。”
他说:“真正像OpenAI那样探索AI天花板的凤毛麟角,复制一个OpenAI未必有必要。”
他还说:“你就算做了一个AGI(通用人工智能)又怎么样,更重要的还需要make AGI accessible。”
在过去短短1个月,一部分沸腾着的大模型创业者心态经历了巨幅转变。李志飞回忆说,对大模型达到狂热顶峰期,是他刚过完年赴美国考察的时候。在硅谷,学院路有个Blue Bottle,他穿过咖啡馆走廊,耳边接连听到一大串chat、chat、GPT、chat、ChatGPT……那段时间他每天5点就醒了,感觉多睡一会儿都在浪费生命;逢人便聊大模型,“每天喉咙都是哑的”。
这次到美国,他带着三个疑惑:一,ChatGPT背后革命性的技术是怎么做出来的?二,为什么是OpenAI,而不是他的前东家Google带来这一历史性时刻?最后,大模型壁垒有多高?为了一探究竟,他约见了OpenAI、Google、DeepMind、Amazon、Meta等一系列工程师。
对于第三个问题,他在当时得出了过于乐观的结论:大模型壁垒极高。但随着他回国、ChatGPT在国内爆火,巨头、大佬和资金疯狂涌入大模型领域——很快,这个结论破灭了,大模型的壁垒和门槛被踏得粉碎。
大模型的供给比他想象得多太多。不管是互联网巨头,还是原有人工智能企业,抑或大佬带资入局,都在快速为这场大模型平台之争备战。在中国,似乎一夜之间遍地是大模型。据李志飞预估:“中国1-2年以后,你会看到50家以上公司做大模型。”这场平台之战太过于惨烈。
在此背景下,一部分大模型创业者在过去1个多月回归了平静。这波人选择了一条更现实、也能与原有业务相结合的路径。李志飞只是其中一位。
有投资人说,他们的一个顾虑是,李志飞如何妥善安排自己10年的创业公司、对原有股东负责,然后另起炉灶?“这个我先声明一下。”李志飞回应称。现在他的想法是,在出门问问基础上,一方面做大模型底层能力,另一方面做基于大模型的各种应用,且公司已有业务闭环基础。他们目前暂无融资诉求。
“我其实是希望劝一些人不要去做大模型,”他说,“与其现在就匆匆忙忙跳进去做通用大模型,不如多想想我做出了通用大模型以后又怎么样。”
“包括大佬们。他们可能走进了一个,他们不知道是什么、也不一定像他想象中擅长、最后也不一定是喜欢(的地方)。”
以下是对李志飞的访谈节选。为了方便阅读,我对文本进行了一些优化。
01
突然的转折
腾讯新闻潜望:今年2月,为什么和王慧文、真格投资人吃了那顿饭?
李志飞:吃饭是因为他们提到老王也要做AI,我挺好奇。大家对OpenAI很兴奋。但至于怎么做,什么时候中国能做出来没有清晰概念。大家聊更多是想能怎么做。
要花多少钱?入门门槛什么样?当时我说至少需要5,000万美金——2,000万美金买算力,2,000万美金招人,1,000万美金标数据。
腾讯新闻潜望:有没有互相给offer邀请对方加入公司?
李志飞:有。但大家有不同做法。
腾讯新闻潜望:接下来你准备怎么做?
李志飞:我的想法做了很多改变。当时我觉得壁垒极高,早期投入非常大,最后能做或者愿意投入的没几个。但通过过去这1-2个月去看,很多东西都变了。
首先做的人会很多。大家太快达成共识,这是未来10-20年最重要的一件事。其次,这个事难度取决于你怎么做。如果你要像OpenAI或Google做最牛的模型,探索AI天花板,非常难。但如果你跟自己的或你想做的场景结合,难度会大幅降低。包括有开源模型,算力本身英伟达发布了更厉害的计算平台——从算力、算法、数据各层面,难度会降低。
所以一方面供给多,另外一方面如果不是探索能力天花板,难度没那么大,导致做法有很大调整。你可能就没必要一开始单独做个公司,融很多钱,招最厉害的人,在与世无隔的环境憋12个月。以前我想的是那种。现在还是基于自己的投入和应用落地,快速把模型做起来,迭代使用场景。
腾讯新闻潜望:你想法转变是什么时候?
李志飞:(吃完饭)之后一个多月。
腾讯新闻:中间到底发生了什么?从雄心壮志就要做中国OpenAI、探索AGI,转变得更现实。
李志飞:兴趣和商业是两回事。这不代表我不能探索AGI。探索特别难的事有两种方式:一种从零开始,是突变式;另一种是渐进式。现在对我最好的方式是基于出门问问这种渐进式。
腾讯新闻潜望:还会做“中国OpenAI”吗?
李志飞:中国的OpenAI是个伪命题。大家都知道完全复制OpenAI非常难,甚至他们自己都不一定能重复。这里边很多不确定,所需资源体量庞大。中国是不是存在跟OpenAI一样的组织?我觉得大概率不存在。你就算做了一个AGI又怎么样,更重要的还需要make AGI accessible,把AGI变成可用的东西。我们可以在这方面做很多探索。
腾讯新闻潜望:你认可Robin(李彦宏)说中国不需要第二个大模型吗?
李志飞:中国肯定需要很多大模型,但是不是有能力做类似OpenAI这样探索人类天花板的模型,我不确定。我一直在强调,做大模型不只一条路。
能笑到最后的也不知道是谁,甚至哪怕在全世界,OpenAI也不一定笑到最后。今天我对它的商业模式还挺悲观的。
腾讯新闻潜望:我昨天见一个投资人,他说大多数创业者另起炉灶,想看看志飞怎么选。他们在等你的下一个项目。
李志飞:不。这个我先声明一下,是在出门问问基础上,一方面做大模型的能力,另一方面有各种应用。
我们从2020年8月就开始做大模型和应用,差不多做了8个月,但局限于学术研究和商业模式的探索就停了。这之后,去年9月我去了一次美国,又把大模型重启,我们当时想做文案产品,类似Jasper.AI,因为看到GPT-3最适合干的是写文案。很幸运我们已经做了好几个大家叫AIGC的产品,有AI配音和写文案的。
腾讯新闻潜望:你们大模型的参数和算力大概是什么规模?
李志飞:我们就几百亿。
它更加manageable。你做一个万亿的模型,有的时候真的只能祈求上帝,机器不要挂掉。
02
这轮AI核心是构建了大一统模型
腾讯新闻潜望:从你最早读自然语言处理的phd,到进入Google翻译实验室,再到现在,这个技术经过了哪些迭代?
李志飞:十几二十年前,我在约翰霍普金斯读博,实验室叫CLSP,创始人是语音识别之父。现在大家对语言模型了解,当时是很小的学术圈,全美做语言模型的phd同一年就几个。2010年毕业我去了谷歌翻译实验室,工作不到三年。2012年回国创业。
2005到2012年,Google用大规模数据训练语音识别和机器翻译系统,开放给普通用户。在这以前,研究是靠美国军方项目支撑。2005年后,Google把它变成消费产品,我们相当于黄金时代的phd,用大数据、统计做机器翻译和语音识别,特点叫符号主义。
到2012年,分布式计算的红利基本没了。我在Google很痛苦,随便怎么加数据,准确率都不会提升,有时反而降低。Google把大数据、分布式计算用到极致了。
2012年到现在最重要的是深度学习,它跟符号主义不一样。跟以前的模型比,它容量更大,潜在天花板更高,对数据学习能力更强。以前很多模型学习数据是表面的pattern,比如两个词同时出现、出现频繁,我认为他们之间要么是翻译关系,要么是上下文关系。但深度学习通过10年发展,它能对数据做很多抽象。规模也比以前大——以前用几千万或者几亿的token,现在可能10万亿。
总结来说,深度学习时代后,模型的表达能力、吸取数据的抽象能力、分布式训练能力,相比2012年当时到瓶颈的时候有几十倍或几百倍提升。
腾讯新闻潜望:ChatGPT在哪些技术革新了,导致和过去10年的AI不一样,同时带来了爆发?
李志飞:核心是通用。以前语音识别的系统专门一个团队做,机器翻译专门一个团队做。以前在我们学校,做机器翻译的人在计算机系,做语音识别的人在电子工程系。Google也一样,做机器翻译的人跟做语音识别的人是不同团队——他们有单独训练的数据,单独的代码系统。
大模型,当然现在还没做到,但未来它可能做语音识别、图像、机器翻译、回答你所有问题,陪你聊天,甚至做蛋白质结构预测——它可能是大一统的系统,做到以前每个需要单独训练一个系统的能力。这是为什么叫它通用人工智能。
腾讯新闻潜望:现在达到AGI了吗?还是只是逼近?
李志飞:微软前阵子写过一篇文章,GPT-4是AGI的火花,我比较同意。通用的智能无非是第一通用,第二要有高度抽象的能力,第三有规划能力。
腾讯新闻潜望:对于ChatGPT,你作为一个内行人的Aha moment是什么?
李志飞:以前AI系统,你去问它一些抽象的东西,推理或者故意骗它,它只在网上找相对应的文本形成答案。你知道它笨在什么地方。但ChatGPT你有强烈感觉:在跟有智商的人聊天,它理解你在说啥,还能跟你绕。
腾讯新闻潜望:所谓的“自监督”,我可不可以通俗一点理解,把孩子扔到海里游泳,他不需要我们看着他就能自己学会。
李志飞:不需要比喻也容易理解。就是基于前面的词,预练下个词是什么。所谓的自监督是因为互联网是序列文本,我们现在正在“聊天”,当我说“聊”,后面有个“天”。互联网上有海量文本,可以自监督预测下个词。
每次AI预测,如果输出是“天”,跟文本对上了,系统给奖励;如果输出是“话”,这个不对,系统给惩罚。所谓自监督是互联网文本每一步都给了监督的信号,但为什么又叫自监督?因为这个数据不是被标出来的。不像以前,我做机器翻译,我要提供一句中文,然后标注一句英文;或者做语音识别,提供一个音频文件,然后标注一个对应文字。现在你从互联网上就能收集数据。自监督是每预测下个词,数据都给你反馈,告诉你错了还是对了。
03
硅谷见闻实录:为什么是OpenAI而不是Google?
腾讯新闻潜望:春节后你马上动身去了硅谷,那段时间发生了什么,在那待了多久,有什么收获?
李志飞:当时对我来说,ChatGPT太神奇、太厉害了。第一,我很想知道到底怎么做出来的,原理是什么?第二,为啥是OpenAI做出来,而不是Google?第三,壁垒多高?
我带着这些问题跟很多人聊。聊完答案是,第一没人知道这怎么搞出来的,技术原理是啥,为啥它突然有这么强的能力。包括OpenAI的人也没有清晰答案。很多深度学习的问题不可解释、不可操控。
腾讯新闻潜望:为什么是OpenAI而不是Google搞出来?
李志飞:如果高度简单化这个东西,我觉得主要几点:
第一OpenAI成立就一直目标是做AGI,Google很多人不太相信——就觉得这可能是学术骗子,甚至当你说你要做AGI,我觉得你不知道你在说啥。你看在GPT-2的时候,OpenAI就说我要做通用,我不是去做那些比如pre-training,然后fine-tunning,收敛到具体任务的系统。它跟Google的信仰不一样。
第二,在GPT-3后,它是产品驱动的AI研究,这跟Google或别的组织不一样。别的要么是偏学术的研究——一帮人做出一个系统,写一篇论文,弄个PR,又去干别的了;要么是像DeepMind是项目制,AlphaGo做一做,又做AlphaZero,又做AlphaFord。它不是product-oriented的迭代。
腾讯新闻潜望:DeepMind怎么遴选项目?
李志飞:有偶然有必然。必然是他们做游戏出身,认为通过深度学习去学怎么打游戏,最终实现通用AI,这是DeepMind人的信仰。
从执行路径,先找一些限定场景,比如下棋不涉及很多人的交互。它规则、边界清晰,数据干净,但同时足够难,有代表性。
腾讯新闻潜望:嗯,第一是信念,第二是产品驱动,还有第三点吗?
李志飞:很多时候,有的人只对研究有兴趣,有的人只会做产品,有的人只愿意做工程。但能有一批人对三个都有兴趣,相互能协作,这也是重要因素。
2020年6月GPT-3开放给用户后,获得了很多用户反馈,通过反馈收集数据,通过数据又去迭代系统,然后重新给用户,效果越来越好。它已经悄悄干了两年半。Google就没有这么一个系统在线上。
腾讯新闻潜望:最后你的第三个问题,壁垒是什么?
李志飞:那一刻我是觉得大模型壁垒极高。我跟很多人聊之前,觉得Google应该很快就搞出来了;但聊完,我意识到这个模型跟以前的壁垒不一样,有比较长的订货交付时间(lead time)。
首先你要花很多算力算,管你再厉害,如果你没有那么多卡,在这么大的数据量算过,模型就出不来。第二,模型的结构,包括数据的收集和清洗,需要时间积累。第三,这个实际是实验的科学,我用很多台机器,基于这个模型、数据的格式,我去调,调完后看结果,每做一个实验都要花很多时间。
它类似于造硬件。不是说两个月后另一个人立马就可以造出同样的iPhone。
腾讯新闻潜望:预计周期是多长?
李志飞:至少比如6个月8个月以上。哪怕对Google这样的竞争对手。
腾讯新闻潜望:你当时跟Google的人聊,跟OpenAI的人也聊,OpenAI的人怎么看Google,Google怎么看OpenAI?
李志飞:这个我倒没太注意。算力、数据、人,某种程度上Google可以碾压OpenAI。Google更大的问题是内部组织形态。在跨部门,Google的研究部门和业务部门是分开的,比如跟Youtube、搜索、云业务分开,调动数据、资源,甚至把产品上线都不是容易的事。在部门内部,太多聪明人,每个人有自己的想法、自己相信的方法论。这都是OpenAI不存在的情况。
有时一个竞争对手比你强10倍,但在这种高度不确定性的事上,它不一定能打得过你。
04
在中国创业的现实和真相
腾讯新闻潜望:大模型时代到底给我们会带来什么,从今天往后看10年有什么样的预演?
李志飞:人类最引以为傲的是通过语言承载的认知。ChatGPT已经有很强的认知能力。这会导致有几个后果。
第一, 它让我们产生强烈信心,当认知问题都能解决,很多感知问题小菜一碟。
第二, 很多人讲 AI大模型是生成式,这是巨大的误导。ChatGPT这种认知模型,能力是全方位,比如它有很强的理解能力、分析能力、生成能力,甚至有不错的规划能力。它的应用远超语言。未来5-10年,我想不到什么领域不会被这个影响。
腾讯新闻潜望:现是iPhone时刻还是浏览器时刻?
李志飞:这个我跟别人争论过,我认为是后iPhone时刻。通过过去10年,人类很多东西高度数字化了,每个人有手机,手机联网,手机内存、触摸屏、通讯、GPS能力非常好。我们等的是智能时代的爆发。现在智能有巨大突破,为什么不觉得它是iPhone后时刻呢?
腾讯新闻潜望:你们属于从上一代AI创业的时代走过来,上一代AI公司的共同挑战包括哪些?
李志飞:商业模式不行,投入很高、产出很低,所有公司陷在商业化糟糕的状况里。
腾讯新闻潜望:现在呢?
李志飞:现在好的方面是AI应用场景远超上一代,需求可能是以前的十倍、百倍。
但大模型出来后,在太短的时间内所有人达成了共识。坏的地方是供给可能也是上一代的10倍,所以会让很多现在做AI的公司,还是像上一代一样比较痛苦。
对行业、社会当然是好事,但对player,共识太强,竞争会非常激烈。我曾经说过一个观点,中国1-2年后你会看到50家以上的公司做大模型。这里面做法有不同。真正像OpenAI那样探索AI天花板的凤毛麟角,复制一个OpenAI未必有必要,我们可以做中国式创新的大模型。
腾讯新闻潜望:大模型时代的killing app在哪?
李志飞:大模型empower killing app能力已经ready,更多是大家能做出什么样的应用,用户怎么去接受它。
腾讯新闻潜望:大模型这个领域,它是能诞生新的巨头,还是说它是原有巨头的叠加?
李志飞:肯定会有新公司。最后能跑出来公司可能是垂直整合的,自己找一个主应用场景,收集用户的数据,同时也训练自己的模型,不停迭代。纯粹依赖于第三方的模型,不仅壁垒很难建立,而且很难快速迭代。
腾讯新闻潜望:创业10年有什么比较难的时候?最近的困难是什么?
李志飞:没有一天不难的。最近面临着很大压力。一方面是机遇;另一方面,竞争无处不在,太多聪明人在里边琢磨,会让我有时产生一种——我会不会miss掉这一波机会,我能不能在大的浪潮里立住的感觉。好多人很焦虑,都觉得自己有可能被颠覆掉。无论是有业务的,还是没业务的。
我会越来越轻松点。焦虑也没用,还不如抱着长期主义心态。很明显,未来5年、10年、20年有太多可创新的地方,也许抓不住这个小机会,就能抓住另一个。你这一刻被更聪明、更努力的人超过了,并不代表你不能下一刻抓住,只要你觉得是长期的事。
腾讯新闻潜望:创业10年你的性格变了吗?
李志飞:肯定是性格大变。
腾讯新闻潜望:你以前接受采访经常提到狂妄,讲话也会流露强烈的表达——你以前会说:“我只是要求非常正规的融资,正规到纯洁无瑕。”还会说:“看到这个世界正在被我瞧不起的人推向我不喜欢的世界,我非常痛苦。”
李志飞:我不喜欢给自己打脸,有一些东西我说了做不到,或者是因为无知而说的,我会调整。
2012年人家问我说:“怎么跟某度竞争”?我说:“某度是什么东西?”通过10年在中国创业,你发现人家很厉害,不能欺骗自己对吧?明明知道这个东西不是这样子,还去忽略它,这是不求真。现在行为、说话方式有变化,是因为我看到了很多真相。
腾讯新闻潜望:国内竞争的真相是?
李志飞:从竞争维度,中国是美国的10倍。怎么得出来的?中国创业供给是美国的2倍,美国客单价是中国的5倍,乘起来是10倍。我是觉得超级有道理的。
腾讯新闻潜望:你今年的目标是什么?
李志飞:我希望我每天思考的问题和与大家聊的话题,超过70%内容跟这相关。
腾讯新闻潜望:对当下这波在中国做大模型创业的人,有什么想说的吗?
李志飞:我其实是希望劝一些人不要去做大模型。这跟我个人竞争没有任何关系,我跟他们没有任何冲突。
我觉得你贸然进入,难度很大,商业竞争激烈。你现在做的是一个非常通用的大模型,但你没有仔细想过,最后落地在什么场景下?商业模式怎么做?与其说现在就匆匆忙忙跳进去做通用大模型,还不如多想想做出了通用大模型以后又怎么样?
两个月以前,我就是要复制ChatGPT,但现在我觉得不想清楚商业模式到最后会很痛苦。