我们正在经历一场声势浩大的AI新基建大潮。
半年之内,大模型从小范围共识迅速扩散。中信所发布的报告显示,目前已发布的参数模型超过10亿的大模型数量已经接近80个,一半来自企业,一半来自科研机构。
国内大模型生态逐渐形成的过程中,也开始剥离对OpenAI的追随逐渐寻找适合自己的道路。衡量大模型成功与否的标准,也从硬桥硬马的参数竞赛,来到了真刀真枪的解决问题上。
商汤科技在今年4月首次公布了“日日新SenseNova”的大模型体系,发布了包括自研中文大语言模型“商量SenseChat”在内的多个AI大模型及应用。近日在世界人工智能大会上,商汤科技宣布了“日日新SenseNova大模型”体系的第一次重大迭代。大语言模型“商量”升级到2.0版本。
它更强了。在整个商汤科技大模型布局体系中,它的作用也愈发明显。
更强的“商量2.0”
怎么直观体现“商量2.0”的能力提升? 商汤科技董事长兼CEO徐立在现场演示了老子与孔子之间的一场并不存在的对话。
“商量2.0”的回答围绕“道”来进行。孔子向老子问道,老子虽然已经悟道,但无法与孔子言说,只是拂袖而去。这一场演绎出的对话行云流水。“商量2.0”甚至在文中加了一个玩笑:
孔子曰:“吾闻夫子大名,今日得一见,实乃三生有幸!”
老子笑道:“非也,吾与汝同道而行,何来‘三生’?”
并且依据问题,整个对话以文言形式出现。并且为了避免混淆,“商量2.0”也在回答的第一句话写明了“这只是虚构之作,不应被视为历史的真实记录”这样的前提。
“商量1.0”首次推出时,现场的演示已经展现了它优秀的多轮对话以及人机共创能力。三个月后,“商量2.0”在知识信息准确性、逻辑判断能力、上下文理解能力、创作性等方面都有了更多提升。
比如用“商量2.0”来做旅行规划,并且吩咐它做成表格:
或者来考验考验关于“女朋友说的都对”的事:
甚至不只是能读懂女朋友,“商量2.0”还能读出点反讽或者阴阳怪气的语气了:
这三个月“商量2.0”到底经历了什么,其实看看几场考试结果就知道了。在全球范围内的三个权威大语言模型评测基准(MMLU、AGIEval、C-Eval)的测评结果中,“商量2.0”的表现都超过了ChatGPT。
除此之外,可能有一些人在前面老子与孔子对话的演示照片中注意到了“商量2.0”出现了XL和S两个版本的分屏演示,这是“商量2.0”在升级后增加了更多不同参数尺寸的大模型以供客户选择,其中最小参数的模型版本甚至可以跑在手机终端上。
在语言上“商量2.0”新增了阿拉伯语和粤语等新语种。支持简体中文、繁体中文以及英语等多语言之间的交互。并且“商量2.0”对超长文本的支持,也从2k提升到 32k,能够更加充分理解上下文。
对于商汤科技这样核心面向ToB的大模型厂商来说,大模型本身的素质只是起点,企业客户如何以自己的需求给大模型定义出具体轮廓,后者如何实现稳定的迭代流程并一步步逼近真实的痛点,是最终分胜负的地方。
开放知识库融合能力
商汤科技训练出一个具备超强的理解、对话、推理等能力的“商量2.0”后,企业客户还可以用自己沉淀下来的企业知识让大模型变成能够服务好自己企业的“专业人才”。
如何高效解决这些工程问题非常重要。
商汤科技此次推出的“商量2.0”新增了知识库融合接口,让企业可以无需等待基础大模型的迭代升级,快速拥有专业知识和能力。融合了知识库后,可以增强模型对知识更新理解的能力,加强知识的快速理解和获取,同时客户训练模型的成本会大幅降低。
商汤科技联合创始人、首席科学家王晓刚表示:“有了知识库,不需要进入到我们的模型本身,就可以比较简单、方便地将这个领域的相应知识总结在一起”,并且因为信息更加准确,也解决了幻觉的问题。
作为效率工具的数字人
“商量2.0”的全面升级的同时,“日日新SenseNova大模型”体系内AIGC平台能力也在不断突破,并且在融合语言大模型能力后,实现了跨越式提升。
比如前面提到的文生图创作平台“秒画”此次升级到了3.0版本,模型参数提升到了70亿量级,生成图片的细节刻画达到专业摄影级别。而在提示词这个头疼问题上,“商量2.0”为“秒画3.0”提供了提示词的自动扩展能力。这意味着用户只需要少量简单的提示词就可以达到一张细节丰富的图像结果。
而在数字人领域,此次商汤科技的数字人视频生成平台“如影”也升级到了2.0版本,“如影2.0”的语音和口型流畅度的提升超过30%,并且可以实现4K视频效果。发布会上,经济学家任泽平、延参法师以及徐立本人的数字人形象现身,效果足以乱真。
在大模型的落地场景中,数字人是一个非常重要的承载方式,近日十分火热的数字人直播带货就是一个典型场景。而直播带货包括短视频也是“如影2.0”在3个月内测和公测中间,客户最聚焦的场景之一。
商汤科技数字文娱事业部总经理栾青表示,在AIGC这个大框架内,“商量2.0”可以承担短视频直播的文案和剧本创作。而“如影2.0”如何在交流上能够紧跟潮流,也要依靠“商量2.0”的语言大模型能力去学习时新的短视频语料。
短视频和直播场景之外,“如影2.0”正在加速进入各行各业。
比如保险行业,每一个保险专员都有为客户宣传新产品或是其他个性化的服务型内容输出需求,“如影2.0”可以在客户的生日或某个理财产品发布的节点去代替保险专员做个性化的内容和服务;在教育行业,“如影2.0”已经开始协助国内头部职业教育平台的教师制作教育素材,解决内部对视频制作的需求。
“数字人是一个很典型的企业内部的效率工具。”栾青表示。
如影作为一个AIGC创作平台未来会继续在视频生成领域做深,栾青认为这是由于内容创作正在经历一个从文字、图片到视频的维度变化。
迈向多模态
由于图片与视频信息在真实世界中的占比极大,远超语言信息,对于真实世界的理解需求让基础大模型的未来一定会走向多模态,这一点透过“商量2.0”已经初见端倪。
除了文字,“商量2.0”拥有了对图片和视频内容的分析能力。
比如,如上图展示,“商量2.0”可以在一张杂乱的办公桌照片中识别出具体物件之后,结合每个物品的特性来回答“当你感觉热时,你会做什么”这样接近流程设计的开放问题;或者在看到一张菜单照片后,帮助用户在一个限定价格区间内给出点菜方案。
最初从计算机视觉的研究切入AI领域,已经跨过一次AI浪潮的商汤科技更确信这一次大模型拉起的浪潮会是一次真正的机会。
现在的大模型研究都是基于transformer网络架构。“商汤从2019年开始从事大模型研究,那时候做视觉走的就是这条路线”,在商汤科技联合创始人、首席科学家王晓刚看来,今天一些视觉标准和自然语言标准正在逐渐趋向融合,“我们往多模态方向发展的时候,语言、视觉开始有更加深度的融合,就体现出比较强的这方面的积累和能力。”
我们现实生活当中遇到的很多应用场景,如在自动驾驶、机器人等等一系列领域,都要运用到多模态。“但是多模态的数据和一些任务,往往不容易获取,需要有很深的行业积累,这方面也是商汤的优势所在。” 王晓刚介绍到。
在今年世界人工智能大会,首次公开亮相三个月后,商汤“日日新SenseNova大模型”体系以全面升级的姿态对企业级用户开放。同时许多人没有注意到,商汤还联合上海人工智能实验室一起发布了书生多模态大模型。未来,商汤是否能率先找到决胜多模态之路的钥匙,很值得期待。