我,花3天时间做了这件事 | 普通人视角下的WAIC

598次阅读
没有评论

有幸作为蚂蚁观察团角色参加2023年WAIC大会(上海-世界人工智能大会),“走马观花”式的看到了人工智能领域的最新趋势和创新成果。虽然有些技术和场景应用都是“老生常谈”了,但整体参观下来,还是有些非常触动的点。周六日抽空将参展经历以及个人想法简单梳理了下,分享给大家。

我,花3天时间做了这件事 | 普通人视角下的WAIC

作为一个普通人,我花了3天时间参看了WAIC大会。

WAIC大会从6号持续到8号,主题是“智联世界,生成未来”。

大会展馆是在世博展览馆搭台展示,论坛演讲在世博中心,不同大厅有不同的分享主题,还有很多其他地方的分论坛。所以如果想针对性看展或听讲,需要提前规划好行程。

不过,即使是自由行,到处逛逛也会很有收获。

回到正题,这篇文章主要讲四个事情:

  1. 核心厂商“展示”了什么
  2. 不同领域的“黑科技”
  3. 大模型时代的个人思考
  4. 一些有意思的天马行空

一、核心厂商“展示”了什么

整个展馆很大,分为两个展览区(一个通铺走廊将展区一分为二),一边是以机器人+硬件为主,一边是以AI大模型+应用为主,参考下图:

我,花3天时间做了这件事 | 普通人视角下的WAIC

先说下我个人的感受:因为这一年AIGC技术突破带来的高预期,所以整场看下来就是——已有的能力和模型卷的可以,但是更多创新性的产品商业模式反响平平,大家依然都在摸石头过河,探索式前进。

  • 各个大厂均是AI大模型,以及主流的AIGC场景应用,除去大模型本身标榜都是自研外,应用场景无一例外,基本上都是直接利用AIGC的产出做场景封装
  • 小厂扎根垂类系分赛道,百花齐放,这块还是有些亮点的,毕竟小厂资源吃紧,所以大部分都是在做非常细分的赛道里的AIGC模式
  • 传统厂商不甘落后,诸如中国电信、移动等也都在AI大模型领域做出自己的模型和场景产出
  • 硬件厂商努力跟进,在大模型急需的算力层面,锻炼Show肌肉

热,我说的是天气太热;多,参会的人多,可见参展商和参会嘉宾用户还都是挺重视的。

1. 出门问问展示了什么

我,花3天时间做了这件事 | 普通人视角下的WAIC

出门问问本次算是全家桶上线了,展示了内测的序列猴子、AIGC艺术展览、AIGC配音助理、AIGC绘画助理以及数字人互动大屏等解决方案产品。

  • 序列猴子:这个是大语言模型,能够支持知识、对话、数学、推理等能力,并且还能做文字、图片甚至3D生成,可以理解为相当于市面上多引擎集成模式。目前计划将该模型走MaaS部署模式,推向教育、医疗、汽车甚至金融等领域,方向前景我觉得还是很看好的。
  • AIGC艺术展览:这个是出门问问给大家展示的各种AIGC艺术产品,最核心的一个是“交响”,展板介绍是“艺术与科学交融之处,蒙德里安和莫奈相逢在时空的交叠。混沌与秩序共舞,揭示宇宙中隐藏的奥秘。”这介绍…确实很艺术,读不懂,不过听说读不懂的就是艺术。
  • AI绘画:另外有很多精美的画作展示,全部由他们的绘画产品制作的,看着都很精致。值得一提的是,问问家的绘画模型听说可以做GIF、短视频,最高可以到2k画质,有点意思。
  • 动捕体验区:算小惊喜,也算是热门区域,简单理解就是,先在大屏幕上选择一个卡通形象,然后带上动捕服,通过实时驱动展示数字人搭配负责、人机互动、场景更换等功能,整个虚拟数字人在大屏幕里可以算是惟妙惟肖了。
  • AI数字人:没有惊喜,常规功能都有,支持给企业定制等等,不赘述了。
  • AIGC其他能力:都是基于自家大模型做了很多场景Prompt封装、身份Prompt封装,对C展示,可以现场体验。

2. 蜜度展示了什么

首先也是自诩发布了3款自研垂直领域大语言模型,在我一再探讨模型细节后,就比较模糊了。

其次,我觉得蜜度在现场的沉浸感做的不错,用场景让用户来沉浸式体验。

  • 蜜度大模型:大模型能力基本上和市面上一致,但主攻场景是TOB和TOG领域,面向政府和企业内部做定制化内容生产。我觉得作为中小公司,这个赛道切入的是有竞争力和先行优势的,毕竟单纯卷大模型性能意义不大,或者单纯做TOC应用,也需要突出差异化竞争。
  • 蜜度文修模型:主要解决较对问题,比如拼写错误、语法错误等,使用场景面向政府公文、媒体文稿这些,不过我总觉得这个模型可以和第一个模型做结合。
  • 蜜度舆情分析模型:这个能够自动写舆情分析报告,据称是通过十几年的分析报告作为训练数据搞出来的,期待效果吧,我对舆情这块也不专业,没细琢磨。

蜜度体验区:有很多,比如AI明信片生成(你写一个词,给你打印出来一个纸质版的明信片,上面AI生产一首诗外加一幅图),AI中国游(你拍个自拍照,上传到小程序,AI把你的形象卡通化,同时背景换成中国的旅游胜地),给你做诗(就是帮你写诗,放在古代,应该可以给李白李贺杜甫提效),这些TOC体验区的场景搭建让用户很有沉浸感。

值得一提的是,在另一个论坛里,发现蜜度还和科大讯飞达成了合作,有个合作仪式,讯飞也是主攻TOB和TOG赛道的,所以你看,蜜度对自己本次参会的目的还是很清楚的,不单纯是来Show肌肉。

3. 华为展示了什么

我,花3天时间做了这件事 | 普通人视角下的WAIC

华为一直是国人之光,在我印象中华为一直在做正确的事情。这次展览,也感受到了。

首先,华为并没有急躁躁的展示说我也有大模型,我也有很多应用场景,华为的昇腾(念:sheng,读书少,我百度了下…)推出了大模型一体化解决方案。

硬件我是外行,结合现场的学习以及会后简单查询了下,华为的这个事情主要是解决企业在进行大模型开发过程中的几个核心问题:切换硬件集群、适配底层硬件以及模型微调优化等全都是复杂的问题。

所以我理解,华为是给企业做大模型开发这事制作了一个SOP化的企业级方案,可以让很多中小企业想做、想下海的时候能够“开箱即用”。

所以这应该是一个企业级的提效和降低企业应用大模型门槛的事情,这事做的利他,当然最后也会利己。

这个事不是华为自己搞定的,联合了科大讯飞、云从科技还有面壁智能以及智谱一块做的,打出的标语是“昇腾持续开放,与伙伴们共同繁荣产业生态”。

你看看这格局,一下子上升到生态层面了,其他还在做AIGC场景应用的厂商有点汗颜吧…

4. 商汤展示了什么

我,花3天时间做了这件事 | 普通人视角下的WAIC

作为AI行业的佼佼者,商汤直接展示了他们的大模型的性能、效果、参数等等,我理解其实就是表达了“你无我有,你有我优”的卷。

商汤的大模型推出了适配多终端的需求,这个算是小突破,可以做不同端的部署了,另外参数提升到70亿级别,宣称是可以实现专业摄像级别的绘画画质要求。

另外还有商汤的数字人,可以做语音、口型的匹配甚至唱歌等,对外宣称是4k电影这种级别的清晰度。

落地这块,商汤目前在积极的与银行、保险、券商探索和合作,比如做智能客服、智能营销、研报分析、智能合规等,这些功能不新鲜,不过有个细节点我发现还不错,支持挂载知识库的模式,基于知识库做内容理解和问答,这个模式有点意思。

另外一块是商汤在医疗的探索,因为我之前做过智慧医疗,所以商汤基于大模型的医疗产品矩阵,更多的是换汤不换药,把之前算法那一套换做大模型,来支撑智能导诊、智能问诊、健康咨询、智能辅诊等功能。

未来他们想做的多模态病种分析是个不错的方向,期待+1。

5. 高通展示了什么

我,花3天时间做了这件事 | 普通人视角下的WAIC

人工智能的发展依赖几个要素:数据、算法、算力,在这三个协同发展的情况下,人工智能才有可能形成基于算法框架、场景应用以及底层硬件等组合一体的产业体系。

高通本次就在展示算力+计算架构的肌肉。

WAIC上,已经可以看到搭载了高通骁龙8芯片的手机,直接在移动端这个手机上运行StableDiffusion,什么概念啊?!

现在再玩AI绘画的各位,相信大部分都是在Discord里玩Midjourney(手机QQ里的Midjourney频道是接口集成形式),或者在网页端玩国内大厂的应用,或者在手机端玩一些野路子开发公司做的小程序绘画,进阶一些的会部署SD自己跑模型玩,毕竟mac都带不动SD。

所以一个普通手机上可以玩SD是什么概念,相当于你上大学的时候在XP系统上玩鬼泣…

如果你觉得很厉害,那么高通又展示了,ControlNet也在手机端本地运行成功了……厉害+1(ControlNet最初是应用在SD里,解决AI绘画可控性的问题的,比如AI绘画的人手指的问题就可以通过CN来处理),补一句,ControlNet大概15亿参数左右…

技术细节在现场没有很详细的阐述,不过整体思路肯定是“云端+终端”模式,我觉得高通展示的不只是算力+架构的突破,而是大家都在努力互卷大模型的时候以及寻找场景应用的时候。

高通提前布局从底层芯片到软件架构再到上面的生态模式,毕竟在“现在所有的应用都值得重做一遍”的市场情况下,未来一定变成“所有的终端以及智能硬件赛道也都值得重做一遍”。

高通要做的是:未来,让你我,人手一个大模型。

6. 燧原科技展示了什么

我,花3天时间做了这件事 | 普通人视角下的WAIC

燧原的展台也很大,我逛了好久,总结下来就是,燧原对外展示了一整套MaaS的产品服务矩阵,并且搭载自己的底座算力,好像再说:我自己做的是全套的!

最核心的文生图产品,基础的功能都有,不过燧原的这个产品是基于自家的算力的,所以从算力使用到算法训练,再到企业部署,再到TOC使用甚至Prompt构建都是一整套的流程。

结果就是对于企业来说,如果想使用,可以直接基于燧原的这套整合进自己的业务链或工作流程,然后在这个基础上做升级和迭代,你想想,是不是很香!

并且支持很多场景绘图的生产,效果很细致,媲美相机了,现场拍的不清晰,从燧原官网找到一个他们的图,可以感受下,是不是有点感觉像自己拍的了:

我,花3天时间做了这件事 | 普通人视角下的WAIC

MaaS模式在大模型时代大家都知道是主流方式,我简单查了下,燧原之前就是做算力的,所以他们这算是从算力起家,然后做到了MaaS平台模式,然后推出了自己的AIGC全家桶上层应用,未来肉眼可见的会往生态模式发展,可见还是有一定的护城河和竞争力的。

另外燧原还展示了很多硬件以及智算中心,名称叫“智算中心2.0下的AIGC MaaS模式”,参数一大堆,硬件不太懂,反正就是不明觉厉吧!

7. 科大讯飞展示了什么

我,花3天时间做了这件事 | 普通人视角下的WAIC

讯飞分为两块,展馆产品展示+高峰论坛,另外还有一个就是讯飞听见同传给整个大会开幕式以及主论坛提供的技术支持。

先说高峰论坛:讯飞在论坛上联合国家卫健委、中国信通院等机构,成立了医疗健康领域大模型标准研究。

这就有很有意思,你想想,这事仿佛再说,不管你怎么卷,我在和国家一起定标准,标准落定后,大家都要按标准来玩,最重要的是,我不仅是运动员,我还是裁判员,然后大家一起赛跑,DDDD了吧。

讯飞强大的TOB和TOG基因在这个时候就越发显示出了优势,当然这个前瞻性的战略决策也很重要。我记得最开始四五月份讯飞发布会上刘庆峰就提到讯飞的“1+N”大模型战略体系,其中医疗就是其中一个。

再来看展馆:讯飞在展馆展示的“医疗康复管理”平台一直都是人头攒动,传统的患者管理一般是通过外呼、短信等将患者的情况收集到结构化到医生后台系统进行医患链接,目前看讯飞的新版的诊后康复管理,在大模型的加持下,大部分的诊后康复管理内容都由大模型支撑。

我看了下讯飞官网,大模型的内容85%都是审核一次性通过,另外90%的康复管理动作也都由AI自动执行,可以说全新赋能了诊后链路。

另外据讯飞医疗陶晓东陶总表示,在下半年的1024开发者节中,讯飞医疗还将公布医疗大模型的标准化要求,以及讯飞星火大模型在医疗应用的成果,可以说很前瞻和扎实了。

另外一个亮点就是讯飞做的数字人新闻官,一方面可以实时交互,另外主要就是找她询问关于大会的各种内容,所以应该是提前基于大会内容和资讯知识库来做的,唯一美中不足的可能就是3D感、沉浸感还有待加强。

8. 政府展示了什么

到了这个重要环节了,先点赞。整体政府表态支持,扶持,要健康可持续发展,在政府的良好引导下,期望国内做出AI突破性进展,做可信赖的AI,做有利于民有利于政有利于国的AI,所以你好我好大家好,做有助于人民发展的AI,人人有责!

并且整个论坛的各个分论坛,以政府牵头形成的各个人工智能标准化、大模型标准政策、可信AI研究等等都在稳步推进。

政府在忙着攒一个局,定一套标准,选几位优秀者,让大家对标优秀者在这个台子上按照既定的规则一起玩AIGC。

二、不同领域的一些“黑科技”

我,花3天时间做了这件事 | 普通人视角下的WAIC

1. 物流领域,美团/第四代无人机

在用户对于目前“线上购物”已经很熟悉的同时,美团推出了无人机外卖概念。

现场展示的硬件参数是不明觉厉的:双目立体相机、4D雷达、防水性能、桨叶材料等等。在主打“两点之间直线最短”的概念下,主打3公里半径内15分钟即可送达。

2. 工业领域,特斯拉/仿真机器人

现场特斯拉展示的Optimus机器人可以说是爆款了,基本上排队才能到跟前观看。

和真人大小差不多,据展牌介绍,机器人全身有28个自由度的零件,手部更是有11个自由度的零件,可以说很灵活了,不过现场只是静态展示,没有动起来。

3. 算力领域,燧原/液冷集群

燧原推出了针对AIGC大模型训练专用的液冷集群,很吸睛,我对硬件产品不太熟悉,但液冷的核心优势主要是节能、提效且稳定,最重要的是“绿色”。

要知道“绿色”是最近几年衡量企业效能的新标杆,所以这个液冷集群是很厉害的。插个彩蛋,流浪地球2影片里也曾出现过全浸式“缸式”液冷计算机

4. 可信AI领域,蚂蚁/“蚁鉴2.0”

蚂蚁金服咱们的这个也算是黑科技之一,听说还获选了本次大会的“镇馆之宝”,主要是利用AIGC技术应用在AIGC模型的多维度检测上,结合逻辑推理以及因果推断等技术,最终对AIGC系统给出全方位的量化分析结果,包括数据安全、内容安全、伦理道德等多方面的风险。

5. 医疗领域,京东/健康机器人

京东推出了一款智能健康筛查机器人,现场排队很多人。通过放上双手手掌,然后综合检查和判断你的心率、血氧等等状况,给出身体的多维度健康指数及营养建议,还能给出中医体质和风险提醒。从医疗视角来看,非常惊叹。

另外补充一个,会展期间,还有一家小公司也做了类似的产品,产品名称叫健康拍,模式上比京东的这个更先进一步,只需要拍一张脸部照片上传到小程序即可分析出心率、呼吸、血氧、血压等等状况,并给出指导建议,至于效果两家哪个更优秀,还需要单独评估。

三、大模型时代的6点个人思考

1. MaaS模式的生态已经到来

大模型作为目前AI的基础设施(起码短中期内),在这个基础上能够快速的提取出各种垂类、定制化、私有化的小模型,这些小模型可以直接作为工具、服务来支持场景(当然封装、调整不可避免)。

那么可以看到模型即服务的形式就形成了,最后在这个基础上搭配移动端、Pad等多端适配,云端+终端结合,那么面向个人用户的“P-MaaS”模式(这个名称是我自己随便想的,Personal-MaaS)也将越来越可实现。

2. 垂类模型是未来竞争高地

从22年年中接触到AIGC技术后,我一直觉得这个领域“场景为王”,谁能最快最好的切入最佳场景,那么谁就能快速的构建最佳的商业模式。经过这大半年的摸索,开始觉得利用AIGC技术构建起来的场景切入。

目前市面上依然没有非常成熟的商业模式凸显出来,并且护城河较低,用户的迁移成本也较低。

那么未来对于个人或企业难道场景就失效了吗?

答案是:否。

场景固然重要,但壁垒存在于该场景里的垂类大模型以及通过该大模型逐渐积累起来的用户数据,在垂类场景里的大模型,就像当年的Android或IOS系统一样,是一个底层应用,通过生成式AI来不断挖掘海量数据以及利用垂类场景数据为企业带来比决策式AI时代更精准的商业指导。

所以,最终的场景、数据的体现是在垂类模型里。

3. 大模型+数字人的概念会重新再起

数字人概念不新鲜,前几年已经火了,火到各个大厂也是快速推出自己的数字人,但是没有场景和商业模式,也仅仅停留在大家各自比拼“我也能做出来”的地步。

现在生成式AI时代所独有的强内容性、强交互性、强“恐怖谷”性都让数字人开始整体迈入一个新时代,更加自然、流畅,并且其意义还远不至于此。

随着AIGC的到来,多模态交互的门槛越来越低,所以未来数字人存在的形式、和真人的交互的形式都远不止于目前看到的这些样式。

4. “超级个体”概念

玩过红警的伙伴都知道,小兵是最弱的兵种,但是一旦摁下D键,“坐下”之后,就变成了超级兵,甚至可以一个人硬钢一个坦克。

AIGC时代也如此,传统的作业流程,哪怕是最新的自媒体运营,可能都需要一个编辑、一个UI来协作分工,AIGC时代,文本生成、图像生成、视频生成、3D全息投影生成等等全部涌现,这些工具囊括了从创意思考、信息收集、信息整理、智能推荐、规则改进等等。

所以新一代的人机协同,会彻底改变个人的能力矩阵以及影响力覆盖面,将人机模式推向另一个高潮。

5. “Prompt模式”未来可能不会存在

现在的大模型以及大模型工具,都很依赖Prompt的输入进行调教,所以优质的Prompt基本上就可以约束大模型做优质的输出,本质上目前的Prompt充当了人机交互的媒介,也就是俗称的计算机语言。

提到计算机语言,学习弱电专业的肯定第一反应会想到汇编语言,没错,当时的人机交互语言,晦涩难懂。

再往前看,当年的搜索引擎刚出来的时候,搜索词也是人与搜索引擎的交互语言,所以冒出来了一堆所谓的“搜索词结构”、“搜索词大全”、“常用搜索词”,现在看来其实大部分形如鸡肋。

所以Prompt在未来一定会被更人性化的交互替代掉,目前有个新的概念,叫NUI,从当年的CUI、GUI,再到目前的NUI,但是具体NUI最终的承载形式是什么,期待着吧。

6. AI版权、伦理、可信等基础

整个论坛最有意思是,遇到了一家创业公司专门在做大模型、AIGC标准制定(当然,很多大厂也在做),我想说的是,他们的初心和方向点赞!

目前AIGC可以说已经裸奔快一年了,技术突破和产品应用跑得很快,产业变革和政策法律稍显滞后,这种现状本身无可厚非,毕竟政策、变更都需要考虑方方面面,所以制定周期会长一些。

那么在这个空白期内,作为企业或个人可以做什么呢?

我个人也在AIGC商业化上折腾小半年了,体感最强的就是,每个企业或个人都需要具备最起码的底线思维、自我思维,灰色地带里是允许你快跑,快跑期望的是带来更多的创意和方向,不是允许你乱跑。

所以期待大模型时代的标准以及更多的关于可信AI、版权AI、伦理AI的明亮!

毕竟,商业模式决定你能否赚钱,商业道德决定你是否能持久赚钱。

四、一些有意思的想法

1. 关于数据模式

MaaS已经呼之欲出了,未来“模型即数据”怎么看待,会不会存在“MaaD”概念?

核心数据训练出来的垂类模型本身就代表了某种形式的数据,所以层级的“数据中台”是否还有存在的意义?或者在大模型时代数据平台、数据中台如何应对?

从目前来看,是否是一个需要提前考虑的问题。

2. 关于AI虚拟人

“流浪地球”里的丫丫(即虚拟人在虚拟空间里可以和真人交流,但虚拟人不知道自己是虚拟人,思维和认知完全真实)是否会在不久的未来真实出现?

当全真的一个“AI的你”出现的时候,就是一个真人,并且存在于你的生活中,你睡觉的时候,ta替你上班,你吃饭的时候,ta给你写作业,你度假的时候,ta在给老家帮你陪伴父母,这种情况下,你怎么证明你还是你?

或者你和ta比,你的优势是什么(非常推荐花3分钟看下视频号「TeachFuture蔚」里的“2023年被AI取代的老师出现了!”这集)。

3. 关于数据训练

大模型的核心就是数据,所以未来大概率变成数据竞争,据说人类的所有数据内容在不久会被AI训练完,那么接下来AI是否会开始训练AI自身产出的数据?

这种情况下AI最终是否会完成数据-训练-学习-产出-数据自己的闭环?

这样最终学习出来的就是完全智能了,而不是人工智能了,AI思维是否会基于此产生。

4. 关于创新认知

以“GPT”为代表的技术突破,从国外开始从无到有的被创新出来,国内在给定了既定目标的前提(已有这样一个东西)才可以快速跟进,百花齐放,这两种现象的出现,是否反应了国内外对“创新”“创业”概念的思维认知不同?

国内的这个大环境,是从我们的基础教育模式上出的问题,还是什么环节导致的思维差异?

5. 关于AI安全

大模型对于普通人的冲击已经如此明显了,那么在军事领域,大模型是否能够有更突出的助力,构建出等同于“核弹”时代一样有威慑力的“武器”。

这种“大模型AI武器”是否也需要多方制衡才能构造“和平”的稳态,或者对于这样的AI智能体,是全世界只有一个智能体最佳,还是多个超级智能体共同制衡才是权衡下的全局最优。

6. 关于认真生活

太多人都在卷焦虑感了,大模型时代可能是一场小革命,不过最终都会收益于普通人,不过so what,who cares?

快乐生活最重要,找到适合自己和这个时代的“交互方式”显然更重要,“你觉得”才是最重要的。

以上就是参展世界人工智能大会的感想,分享给大家。

期望AIGC时代一起思考、沉淀和成长。

作者:楠神,公众号:音波楠神,不制造焦虑感,不生产垃圾文的公共号,欢迎你来唠唠

本文由 @楠神 原创发布于人人都是产品经理,未经作者许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy