多模态AI技术被认为是AI发展的下一个重要里程碑,具有无限潜力。本文将探讨多模态AI在需求定位、技术路径和产品设计方面的关键问题,并提出相关思考和建议。
最近《后GPT时代,多模态是最大的机会》一文中,行业前辈王老师提到,多模态AI的上下游任务与技术路线之间,会有排列组合游戏,处于爆发的早期……是大模型科研与工程领域最好的弯道超车机会。
关于多模态,我个人应该是业内最早关注到的从业者之一(至少6年前)。本文,将从需求定位、技术路径、产品设计三方面、来分享一些AI产品经理视角的反思。
引子:六年前的“多模态”还相对模糊(PPT+专利+demo)
在2017年4月的200页PPT《人工智能产品经理的新起点》中,我提及过“多模态”,如下面2张图:
在2017年10月的120页PPT《产品视角下,现阶段的AI如何落地》中,也分享过Andrei Cheremskoy提出的“组合矩阵”方法,能系统性研究深度学习的应用机会。
同样在2017年,我写了专利“多模态虚拟机器人的内容生成的方法和系统”。
甚至在2016年4月,我还在儿童机器人上,做过“中英文混合对话”+“多模态交互”的最初级demo。(可能是当年技术条件下的最佳demo效果了,最近在星球里分享了当时的演示视频,对于多模态,我个人是认可这个大方向的;下面,仅是想从产品视角,分享些不同的认知,供大家综合参考。
一、需求定位:如何规避“拿着锤子找钉子”的风险?
正面看,很容易觉得排列组合的机会点太多了,容易有过于“理所应当”的风险。此时,可能更需要从产品/需求视角出发,看看咱们到底有哪些非共识的行业know-how。
最近,我分享的《大模型时代,产品经理的什么能力会成为稀缺(1)》一文中提到:
这一波AI 2.0,一定不是简单的ChatGPT化、CUI化。而是需要先把业务吃透,再看可以如何借用AI、对话式交互的能力来解决问题。
就像移动互联网时代,不是把web内容简单搬到手机app上。
现在,也不是智能汽车那种简单的“所见即可说”,全部用语音操控的方式实现一遍。
作为产品经理,一开口,一定不要仅仅是what层面的“可以做什么”。
作为产品经理,一开口,就要说场景、用户、需求、细节、你有什么特别的洞察等等这些。
没有why和how支撑的what,没有意义。
这背后,更实战的干货认知,是我在《AI创业公司的妄念:招个AI产品经理来想idea》中分享的这几段话:
老板/部门负责人们,以为自己需要能提供好点子(idea)的产品经理,但其实真正需要补齐的,是“垂直领域内的需求认知”。
为什么呢?因为假设“碰巧”想到了好的点子(方向和需求定位),但如果没有深度的行业认知,老板(和其他人)也根本不知道如何认知评估这个idea是否靠谱、以及为什么。
即使公司愿意投入一定资源去做MVP,仍然95%的概率会因为搞不清楚事情的关键点、最核心的指标是啥,而错过机会——浅尝辄止的把项目砍掉,直到1、2年后再后悔没有持续投入。
大家可以回顾下自己所在公司/项目,是否经历过这种事?
所以,产品经理是需要有行业know-how(垂直领域内的需求认知),在“某个需求点是真实存在还是伪需求”这种问题上,直接给团队答案的,让大家少走弯路,以及在关键决策场合,还能够扛住老板的压力、坚持自己的判断。
前面《后GPT时代,多模态是最大的机会》原文中提到,“普通用户的想象力是无穷无尽的。只要有更好的表达方式和更简单的工具,用户就一定能再次创造数字内容的新风潮。……根本矛盾在于,目前的技术工具无法满足用户旺盛的创造需求……普通用户很难效法。”
从产品认知看,我个人对此是存疑的。因为对于大多数普通用户,可能并没有那么大的“创意/想象力”能力,也没有那么强的需求迫切度去“发挥创意”。
结果视角,也许会存在“涌现出想象力效果”的情况,但是,原因不一定是“工具”,还可能是因为“用户+AI工具+社区”,类似Midjourney那样。
真正有更大、更明确需求的,是“有私域知识库的个人IP”。
在《我看到的AIGC落地机会(3)_IP知识库+ChatGPT》中,我有提到:
从产品角度看,似乎大家都容易想到这个点;从技术角度看,有技术同行说,技术不是门槛,数据才是。
我想说的是,数据是核心壁垒之一,但这事成败因素,更在于“对IP内容生意的know-how”。
我做AI产品经理社群马上6年了,直到最近大半年,我才开始明白,IP能力和专业(内容)能力,其实是2个不同维度的东西。这个世界里,专业牛人非常多,但能基于内容赚到钱的专业牛人并不多;很多粉丝量很大的IP/自媒体,其实并没有那么赚钱。
原文中,结合自身6年IP社群运营经验教训,我最终想到了3个貌似讲得通的产品/商业定位。
想做这个方向的技术或产品同行估计不少,但如果没有这方面的亲身体验,可能会走一些弯路。
二、技术路径:需要继续把模型(和数据)变大?
原文提到:“将这种智能范式扩展到三维、四维的时空范围,复杂度的增长是指数级别的。因此,在视频、3D、动画序列等较文、图更复杂的多模态领域,技术迭代并收敛到一个大一统方法的时间周期可能会相当长,三至五年只是我的保守估计。”
对这点,好像也有点存疑。不仅因为
1. 现在已经是大炼钢铁的状况了,资源耗损巨大,再加码的话,不对劲。
2. 本来很多从业者就认为,“小样本”学习,才是真正智能的属性之一。
3. 本来很多人认为“多模态”是必须的,但OpenAI的工作和认知告诉我们,在文本层面“预测下一个字符”,“压缩效率”就约等于/等效于“泛化效率”。甚至可以说,在“心”的层面,文本/图像/视频本身就是“全息/等效”的。
而且,公开报道中有过相关的细节:
1、OpenAI首席科学家Ilya Sutskever:训练模型一定会在某个时刻,用完所有 tokens,到那时,就需要其他方法来训练模型,而不是更多数据……我(Ilya)对多模态性的必要性的看法:它并非必须,但绝对有用。这是一个值得追求的好方向,我只是不认为应该将它们分得如此明确。
2、OpenA联合创始人Greg Brockman:一般以为问题在于训练数据太少,但我们有时突然意识到,原来问题出在基本假设上(从第一性原理出发)。
当然,原文中作者也提到,“也许必须采用新算法设计来解决复杂度爆炸的问题。或者,因为模态间知识迁移的可能性,让AI更加深入理解训练数据丰富的低维度文、图信息,一定可以帮助AI更快地从高维度信息中学习知识。”
三、产品设计:有没有新的认知或方法论?
AI 2.0时代,一定会有新的产品设计思路或想法,比如《AI产品方法论之“由用户来完成AI产品设计的最后一公里”》。
对于多模态,目前业内还没有沉淀可供参考。
我也只是曾经有个相关的灵感点:在特殊场景下,任何单一模态disable了,整体还可以继续交互——类比4个引擎的飞机,坏了一个,还可以继续飞!
专栏作家
hanniman,微信公众号:hanniman,人人都是产品经理专栏作家,前图灵机器人-人才战略官/AI产品经理,前腾讯产品经理,10年AI经验,13年互联网背景;作品有《AI产品经理的实操手册》(AI产品经理大本营的4年1000篇干货合辑)、200页PPT《人工智能产品经理的新起点》。
本文原创发布于人人都是产品经理,未经许可,不得转载。
题图来自Unsplash,基于CC0协议。