1 月 16 日,在智谱 AI 技术开放日 ZHIPU DevDay 上,智谱 AI 发布新一代基座大模型 GLM-4。
GLM-4 在基础能力上实现大幅升级,性能相比上一代全面提升 60%,逼近 GPT-4。支持 128k 更长上下文、更强的多模态。GLM-4-All Tools 实现自主根据用户意图,自动理解、规划复杂指令,自由调用 WebGLM 搜索增强、Code Interpreter 代码解释器和多模态生成能力以完成复杂任务。GLMs 个性化智能体定制能力上线,对标 OpenAI 的 GPT Store,任何用户用简单的提示词指令就能创建属于自己的 GLM 智能体。文章转载自「新智元」,采访内容编译自「硅星人 GenAI」和「深网腾讯新闻」。
01
GLM-4 相比上代提升 60%,性能逼近 GPT-4
那么,这次新一代基座大模型GLM-4,究竟强在了哪?
与上一代ChatGLM3相比,GLM-4在综合能力上实现了全面跃升,性能提升了60%,已经逼近GPT-4。它能够支持更长的上下文,具备更强的多模态功能,支持更快的推理,更多并发,推理成本大大降低。同时,GLM-4也增强了智能体能力。
基础能力
从众多评测集中可以看到,GLM-4的性能提升非常明显。相比于GPT-4,GLM-4在MMLU、GSM8K、BBH、HellaSwag数据集上分布达到了94%、95%、99%和90%的水平。而在HumanEval数据集上,GLM-4则拿到了72分,明显超过了GPT-3.5和GPT-4的水平。
指令跟随
在IFEval评测集上,在Prompt提示词跟随(中文)方面,GLM-4达到了GPT-4 88%的水平。在指令跟随(中文)方面,则达到了GPT-4 90%水平,大大超过GPT-3.5。
中文对齐
在模型实际应用过程中,大家更关注的,是中文的对齐能力。在对齐能力上,基于AlignBench数据集,GLM-4超过了GPT-4在6月13日发布的版本,逼近GPT-4最新(11月6日Turbo版本)效果。在专业能力、中文理解、角色扮演方面,GLM-4甚至超过了GPT-4的精度。不过,在中文推理方面,GLM-4的能力还有待进一步提升。
128K长文本
此前的128K大海捞针测试,难倒了众多大模型,但GLM-4却顺利通过。在大海捞针测试中,128K文本长度内,GLM-4模型均可做到几乎百分百的精度召回。GLM-4带来128K的上下文窗口长度,也就意味着,在单次提示词中,可处理文本达到了300页。开发者再也不用担心文档太长,一次性处理不完了。同时,模型的效果和精度也并没有下降。智谱AI团队完美解决了长上下文全局信息因失焦而导致的精度下降的问题。
多模态能力
这一次,GLM-4的文生图和多模态理解都得到增强。全新推出的CogView3,效果明显超过开源最佳的Stable Diffusion XL,逼近最新OpenAI发布的DALL·E 3。在对齐、保真、安全、组合布局等各个评测维度上,CogView3的效果都达到DALL·E3 90%以上水平。相对之前,CogView3的语义理解能力都得到大大增强。「鱼眼镜头中,有一只乌龟坐在森林里。」模型准确地理解了什么是鱼眼镜头,以及乌龟在森林里的环境应该是怎么搭配的。「西兰花下面的斑马」,模型理解得很准确。「一只打扮的像20世纪80年代的职业摔跤手的博美犬,脸上涂着霓虹绿、霓虹橙,还有亮绿色的颜料」,这么复杂的prompt,模型也没出错,对于颜色、场景,都做到了高质量还原。「一个放大镜在一页20世纪50年代的《蝙蝠侠》漫画的上空」,模型非常准确地理解了空间位置,以及放大镜蕴含的逻辑作用。
02
GLM-4 All Tools,识别用户意图自主调用各种插件
上面,都还只是常规的单项模型基础能力提升,大会上最让人眼前一亮的,还是GLM-4-All-Tools全家桶。在以往,我们都需要魔法咒语一样的提示词或者代码,才能调用大模型的能力。无论是回答问题、画一幅画还是使用外部知识源,总觉得LLM还不够聪明。而现在,得益于GLM模型的强大Agent能力,GLM-4实现了自主根据用户意图,自动理解、规划复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力,从而完成更加复杂的任务。也就是说,GLM全家桶的能力,终于实现了ALL IN ONE!
画图
在AI画图方面,GLM-4 All Tools可以很好地结合上下文语境进行创作。比如,我们可以先画一只卡通柯基。随后只要说「它开始跑步了」,GLM-4 All Tools就能理解,我们要的还是这只柯基在往前跑。告诉GLM-4 All Tools「一只小兔子加入它一起」,它就明白柯基是主角,兔子需要跟在柯基后面,同时保持奔跑。告诉它「跑得越来越快了」,背景就会虚化。总之,GLM-4 All Tools对上下文语境的理解非常准确。
代码解释器
同样,GLM-4也内嵌了代码解释器,能够自动调用代码解释器,进行复杂的方程或者微积分求解。在以下数据集上,GLM-4 All Tools取得了和GPT-4 All Tools相当的性能。下面这道数学多项式,该怎么求解?或许可以直接训练一个数学模型,但问题更复杂的时候,LLM就容易出现幻觉。而GLM-4,则可以通过调用Python解释器,进行复杂计算,自动写出求解代码。不仅是数学问题,代码解释器还能完成文件处理、数据分析、图表绘制等复杂任务,支持处理Excel、PDF、PPT等格式的文件。可以让模型自动生成PPT大纲,还能调用代码,生成PPT文件。
网页浏览
靠着All Tools全家桶,GLM-4可以实现更高级的网页浏览。期间,模型会根据任务自行规划检索任务,自行选择信息源,自行与信息源交互。比如可以问它:我要参加2023年的CCF开源大会,当地天气是怎样的?这个问题的难点在于,我们并没有告诉它会议地点,模型自动进行了两次搜索,第一搜到了大会是10月21日在长沙举行,第二次搜到了长沙在10月21日的天气。可以看到,GLM-4 All Tools的网页浏览准确率,已经超过了GPT-4,令人印象深刻。
Function Call
All Tool还有一个通用能力:根据用户提供的function描述,自动选择所需function并生成参数,以及根据function的返回值生成回复。这方面的能力,已经跟GPT-4基本持平,在中文理解上,GLM-4 All Tools比GPT-4略强。
多工具自动调用现场实测
在大会现场,GLM-4 All Tools进行了一番怼脸实测。比如,让GLM-4 All Tools联网搜索「智谱2024 DevDay的宣传语」,然后就此主题画一幅画。可以看到,大模型自动搜索找到了相关发布页面。同时,生成的图片也很好地还原了GLM-4的意境。这幅图描绘了智谱2024 DevDay宣传语中的场景。图中展现了勇敢的⼈站在汹涌的潮头,⾯对远处的⻛暴毫不畏惧。GLM-4可以识别语义并联网,搜索多个数据源。它还可以生成一段代码,把生成的数据可视化出来,生成简单的图表。一句简单的输入,联网搜索、提取、代码解释器、绘图等多项原生能力就随之启动,根本无需手动控制。模型强大的理解、解释能力,也就随之而来。我们可以让GLM-4搭建一个多项式回归预测模型,预测未来5年的全球GDP发展态势。这样,就能更直观地看到过去十年和未来五年的发展趋势。根据从MacroTrends获取的数据,我绘制了2007年⾄2022年全球GDP的折线图。在图表中,我已经将下降的数据点标记为红⾊,以便于识别。您可以查看这张图表,以直观地看到全球GDP的变化情况。值得一提的是,GLM-4升级后,API调用价格维持0.1元/千tokens不变,继续保持较低水平。
03
GLMs 智能体:智谱的 GPT Store上线
可以看到,智谱AI针对OpenAI的这种对标,不仅仅是「我有」产品,而是在诸多方面都达到了可比程度。最令开发者期待的是,国产「GPTs」也来了!DevDay上,智谱AI上线了定制化个人GLM大模型——GLMs。现在,无需代码基础,任何用户均可用简单的prompt指令,创建属于自己的GLM模型智能体,从而实现对大模型的便捷开发。比如,智谱AI这次就给自己的DevDay做了一个GLMs。只要打开智谱清言,进入智谱DevDay的智能体,就可以提问今天大会的事宜。甚至能直接要到现场PPT的下载地址。并且,GLMs模型应用商店,也有开发者分成计划。看得出,智谱AI可定制Agent——GLMs的发布,以及上线的GLM Store,在走和OpenAI一样的路线。继首届开发者大会上发布定制GPTs之后,OpenAI上周正式推出人们期待已久的GPT Store。短短2个月的时间,全世界已经诞生了300万个自定义的ChatGPT。网友纷纷表示,这就是AI时代的「APP Store」时刻。简单来说,GLMs降低了大模型的使用门槛,可以让更多的人参与进来,为AI广泛落地铺平了道路。相较于调用单纯的大模型,GLMs就像一个Agent,可以通过上传文件,比如私有数据等,让其获得额外的知识。这样,定制化的GLMs就能提升对特定问题回答的准确性,以极高的精度执行任务。苹果在2008年推出APP Store的最大价值在于,创造了一个新的生态,为第三方开发者带去数百万亿美元的收入。在AI新时代下,不论是GPT Store,还是GLM Store,都将带领世界开发者走向一条新的LLM商业化道路。好消息是,GLMs和GLM Store今天就已正式上线!
04
专访张鹏:大模型应用要找到技术和需求的结合点
以下内容节选自硅星GenAI、深网腾讯新闻对智谱AI CEO 张鹏的访谈。
切入垂直领域是为了寻找最佳实践
硅星GenAI:智谱AI在垂直领域的商业化很早,给外界的感觉一直是比较 to B,GLM 模型智能体会是一个跟 GPTs 很像的东西吗,还是不一样?
张鹏:商业化落地这件事还是围绕着我们模型价值本身。我们早期的模型能力不太够,那可能就需要去为了填补模型本身的能力和最终业务需求之间的 gap,而去垂直领域多做一点事情。
你不去做,你不知道客户在想什么,也就不知道你的技术最终帮助客户提升的用户价值到底有多少。
这实际上是我们去寻找 Best Practice(最佳实践)的一个过程。我们希望把这个路径蹚通,回过头来把这些东西沉淀下来之后赋能给生态。
硅星GenAI:所以可以这么理解,我们做很多垂直领域的事,其实是为了反哺通用模型的基础能力提升。做的目的是为了以后不做。
张鹏:对。GLM 模型智能体就是在探索一种更通用的路径。
大模型应用:现在需要复合产品力
张鹏:如果我们现在真的进入到了大模型的应用半场的话,产品能力是大家都很关注的一件事。
智谱 AI 之前也有自己的一些产品化的东西,其实用户量都还不错,我觉得产品能力应该来说还不算差,当然我们会持续的在这方面去加强。
但是反过头来讲,你看 ChatGPT,作为一个产品本身没有什么特别复杂的东西。所以——我个人感觉,因为我不是做产品出身——所谓产品力这个东西,在这个时代它变成了一种对需求的敏锐感知能力和对于新技术的领悟能力的兼顾,在这个基础上,考验的是如何揉合这两种能力,去产生一种新的产品表达形态的这样一种复合的能力。
硅星GenAI:这跟移动互联网时期的小步快跑、快速迭代和敏捷开发这些东西可能是不一样了。
张鹏:这一套沉淀下来的产品开发逻辑还在,尤其是 ToC。但为什么现在大家说要找一款所谓的 Killer App 这么难,好像所有的产品经理都没有头绪。
我个人觉得其实矛盾在于,原来传统的互联网爆款的产品经理,他对于现在最新的技术没办法理解。真正懂技术的这些人,对于所谓的用户需求和产品需求又没法理解。
好像现在只能开发者自己去尝试,但在这之外,其实有一些本质的东西做产品的人可以在间隙思考一下。
回到第一性原理,大模型本质上解决了什么样的问题,找到这个点,然后你把你所有需求写出来,然后你去找到这两者间的连线。
比如我反问你,ChatGPT 解决的是什么问题?你第一天用上,它就直接告诉你这是个不一样的东西,从来没有人想过这个问题——虽然他帮你解决了很多问题。
硅星GenAI:所以 ChatGPT 解决了什么问题?
张鹏:我个人认为它最本质上解决的还是人机交互的问题。机器终于有一天能够比较像样的能听懂人说什么,然后说出来的话也让人能听懂。这个是个本质的问题,它弥合了人和机器之间的距离,这是他第一性要解决的问题。
顺着这个思路,哪些场景可以被这件事情解决掉,很容易判断出自动客服这类的需求。
这是大模型解决的第一件事。第二是大模型在经过大量语料数据训练之后,具备超越一般人积累的知识和数据量,能很好的去解答人们日常生活当中的问题。这件事本质上解决的是我们人类社会当中人与人之间的信息和知识传递的成本和范围问题。
和 OpenAI 的差距主要是对这件事的认知不同
深网:从技术上看,国内的大模型能赶超 GPT 吗?
张鹏:现在还是一个追赶的态势,我们也一直在缩小之间的差距,毕竟后发有后发的优势,也省去了前面的一些探索,把精力集中在相对正确的路径上。但说实话,光靠这样的东西不太可能实现超越的,因为大家的路径是一样的,因此最后你可能最多做到和 tGPT 一样。
这正是智谱选择自研 GLM 预训练框架的原因。我们尝试用局部的或者整个链条中的一些创新突破,来提升我们追赶的速度。
OpenAI 起步比较早,发展的速度体现为曲线的斜率,国产大模型起步比它晚,只有用一点一点的积累去调整发展速度,调整曲线的斜率,才有可能预期会越来越近,会有一个交叉的点。
因此,算法、系统工程、数据、应用到落地等等这一个链条上,所有的创新累加起来,才有可能去超越它。
深网:在您看来,国内大模型目前和硅谷的差距主要在什么维度?
张鹏:差距从各个方面都能列举一些出来,我觉得本质还是大家对这个事情的认知。以 OpenAI 和谷歌这些世界顶尖级团队为代表,他们对大模型的认知一定是非常高的。
深网:为什么存在这种差异?
张鹏:去年参加一些论坛和圆桌,大家讨论认为,中国人不太擅长 0 到 1,但很擅长 1 到 100。我在思考为什么?大家去总结过去的一些事情,以移动互联网和互联网举例,中国都不是技术的起源,但从应用的角度来说,中国的公司跑的都很猛,超过了美国公司。
当然这些过去不足以去贴一个标签,限制自己去想 0 到 1 的事情,我一直在想,我们应该能够把这个标签彻底扔掉,不要用它来限制自己创新和进步的脚步。
如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。
更多阅读
Bill Gates 对谈 Sam Altman:AGI 五年内的发展预测,以及将如何改变人类社会?
CES上的惊喜AI硬件!199美元、真正的AI助手rabbit r1,可以帮用户操作任意app
苹果官宣 Vision Pro 2 月 2 日上市!它为什么能值 3499 美元?
专访 VideoPoet 作者:视频模型技术会收敛,LLM 将取代diffusion带来真正的视觉智能
转载原创文章请添加微信:geekparker