新智元报道
编辑:拉燕
【新智元导读】Inflection-2最新发布!性能碾压一众大厂模型,仅输一手GPT-4,还要集成到Pi?
最近,InflectionAI发布了全新的一款AI模型。
更炸裂的是InfectionAI对这款模型的评价——性能直超谷歌和Meta开发的两款模型,紧随OpenAI的GPT-4之后。
到底是什么样的表现让InflectionAI能夸下如此海口呢?
在介绍具体的模型性能以前,我们先来看看它的基本信息。
这款AI模型名叫Inflection-2,在多项标准的基准测试中,成绩碾压谷歌5月发布的PaLM Large 2模型,还在很多不同的项目中击败了Meta开发的LLaMA-2.
这么来看,InflectionAI确实可以有这个自信。
公司内部人员表示,总体而言Inflection的新模型是同类产品中性能最好的,可以说仅次于OpenAI发布的旗舰模型 GPT-4,而后者我们都知道,要大得多。
InflectionAI的首席执行官Mustafa Suleyman在接受采访时表示,「我们相信,我们只是处于下一步技术推进的起点,AI模型所展现出来的性能,以及即将出现的新功能确实令人震撼。」
集成到Pi?
除了新模型的发布,还有另外一个重磅信息。
相关人员表示,新发布的模型将很快集成到Inflection于5月份发布的聊天机器人Pi中。
CEO Suleyman也讲到,首先模型的集成还需要一些额外的工作,即「对齐」,技术人员会教它Pi的语气和回答风格,并帮助Pi在吸收最新信息时更好地发挥作用,而不会产生额外的幻觉。
「无论你想就种族、性别、政治、竞家OpenAI,或当下任何有争议的问题进行可能有那么点敏感的对话,Pi都会非常巧妙、谨慎地与你进行实事求是的交流,并实时在互联网上获取信息。Pi将很快更新出新模式。」
Suleyman表示,不会太久。但是具体发布日期却没有明说。
同时,他也不愿意提供聊天机器人Pi的最新用户数量,但表示Pi非常受欢迎,用户留存率相当高。
要知道,两周前,OpenAI曾经披露其免费的ChatGPT服务的周用户数量已达到1亿。
当然,这之后还发生了我们耳熟能详的OpenAI董事会版宫斗,突然临时解雇了首席执行官Sam Altman(当然现在他已经回来了)。
不过,预计Pi发布后,InflectionAI的用户量也会有一波大规模的上涨。毕竟Inflection发布的大型语言模型号称是 当今世界上能力第二强的LLM。
相比LLM业内也会因为Inflection-2的发布继续出现动荡的局面。
此外,CEO Suleyman表示,Inflection AI在今年早些时候刚刚获得了一轮13亿美元的融资,不过这笔大额融资也并没有提前Inflection-2的发布。
不过,舆论场中有些声音还是传了出来,InflectionAI将会在年底发布新模型。但Suleyman表示,模型的训练已经结束,还有一些后续工作需要处理,所以发布时间出现了推迟。
性能吊打一众模型,只输GPT-4
为了训练Inflection-2,Inflection AI使用了5000个英伟达H100图形处理器(GPU),要知道,训练Inflection-2的前身模型,使用的是几千个相对比较旧的A100图形处理器。
Suleyman表示,新模型的训练速度更快、成本更低,但即便如此,还是能处理大量运算(10的25次方FLOPs)。
InflectionAI还与微软、英伟达和CoreWeave在进行紧密合作,管理其庞大的计算集群。
Inflection用一些专业级任务的流行基准(MMLU)测试了新模型的性能,该基准向模型提出了从各类世界知识到问题解决和道德规范等57个主题的各种问题。
下图即为Inflection-1(新模型的前身),Inflection-2,以及谷歌的PaLM 2之间的性能对比。
我们可以看到,在HellaSwag、MMLU、TriviaQA Wiki、PIQA、GSM8K和ARC-C等六项基准上,Inflection-2都拔得了头筹。
Suleyman表示,Inflection-2的性能已经超过了最大的700亿参数版本的LLaMA 2、马斯克xAI的Grok-1、谷歌的 PaLM 2 Large和Anthropic的Claude 2,性能仅次于GPT-4。
报告显示,新模型在七项科学性回答的基准测试中,除两项外,均击败了LLaMA 2和PaLM 2模型,它还在三项问答任务基准测试中的两项测试中表现最佳,但在一项测试中输给了PaLM 2 Large。
此外,在四项数学和代码基准测试中,它的成绩依旧可圈可点,虽说这些领域和前面的测试比起来没那么是重点。
不过,在OpenAI已分享结果的两项基准测试中,它的成绩远远落后于GPT-4。
Suleyman继续介绍说,虽然除了AI研究人员和开发人员之外,这些基准测试对其他普通人来说可能并没那么重要,但微小的改进就能让笨拙的原型与生产级、可靠且高质量的模型截然不同。
总的来说,Suleyman认为Inflection-2在同类产品中可以说是规模最大的,与GPT-4非常非常接近。
从行动上,我们也可以看到InflectionAI对新模型的满意程度。公司规划显示,从现在起,Inflection就将把培训重点转移到下一个型号的模型上。
相关人士预测说,下一个型号的模型(大胆猜测是Inflection-3)将在六个月内达到刚聊完的新模型的10倍,而再过六个月,性能又将达到上一代型号的10倍。
一句话说明,就是InflectionAI的人有自信,在12个月内,让模型规模翻个一百倍。
个人助理「Pi」
对于不熟悉的朋友,咱们还是掉过头来再讲讲InflectionAI的个人助理「Pi」。
咱们可以这么说,CEO Suleyman的认知里,这一切都是很自洽的。
曾经,他还写过一本书《The Coming Wave》,全书有一个核心观点就是,未来AI能让人类彻底远离心理问题。
而Suleyman之所以有这样的论断,也许和他自己的经历有关:
1984年,他出生于伦敦北部,父亲是叙利亚人,母亲是英国人。他在贫困中长大,16岁时,父母分居,两人都移居国外,留下他和弟弟自谋生路。
后来他被牛津大学录取,学习哲学和神学,但一年后就退学了。
这种人生经历,让Suleyman格外关注人类的心理健康。当然,就少不了这一part和涌现出来的新技术的结合。
他的这番说法也绝不是空想,他创立的Inflection AI,目标就是开发出一个全能的个人助理,解决每个人在生活中可能遇到的几乎一切问题。
这个个人助理,就是「Pi」。
而这一切也是有理论基础的。
心理学还真有这个研究:聊天机器人相比人类有着更高的情感认知。
测试针对的是人类在不同场景下表现出来的同理心进行打分。测试对象被给予20种情感情境的详细描述,比如葬礼、职业成功或侮辱,并描述他们在这种情况下可能感受到的情绪。
情绪描述越详细、越容易理解,情绪意识水平量表(LEAS)得分越高。
研究人员使用与人类反应相同的标准来评估ChatGPT的反应,并将结果与先前在法国17至84岁人群(n = 750)中进行的研究进行了比较。
在进行的两次测试中,ChatGPT获得了85和98的高分,而人类的表现就完全被AI碾压。男性56,女性59分,甚至没有及格。
很多研究结果都曾指出,AI聊天机器人在心理健康方面可以为人类提供其他任何工具都没法比拟的帮助。
可以这么说,相比于其他生产效率方面的应用,大语言模型似乎天生就更适合进行感情方面的理解和沟通。毕竟,人类之间传递感情,语言是最重要的载体。
那么,Suleyman创立的Inflection AI推出的个人助理「Pi」已经上线有几个月,表现究竟如何,大家心里可能也都有定论了。
我们可以看到,Pi的登录界面还是非常简洁的。
进入到Pi的聊天页面,点击左下角的田字格,可以看到官方为用户准备的几个常用场景。
每个场景相当于一个定制化指令,选择一个之后,就会自动给聊天机器人设定一个工作环境。
聊天机器人也会针对每个场景给用户一个开头的提示,比如选择了「motive myself」之后,系统会提示我要如何开始聊天。
总而言之,「Pi」寄托了Suleyman的美好愿望。
而有了新模型Inflection-2的加持,相信「Pi」会迸发出更加不一样的火花。
说不定,真能充当心理咨询的角色呢。
参考资料:
https://www.forbes.com/sites/alexkonrad/2023/11/22/inflection-ai-releases-2nd-model-on-gpt-4-heels/?sh=410d2f366b05