2024 年开端,Sora 引发的关注不亚于 2023 年 GPT-4 的发布。
虽然目前还未开放测试,但根据官方的技术报告以及 Sora 生成的部分视频,行业人士仍能一窥 Sora 的技术路径。
Founder Park 旗下的全球化闭门社区 Global Ready,在 2 月份的闭门分享里,邀请到了 150 余位国内外科技公司创始人与科研学者,从技术和产品的角度,深度探讨了 Sora、Gemini 1.5 Pro 代表的技术新方向,以及 2024 年 AI 创业公司的新机会等。
圆桌嘉宾:
张鹏:极客公园创始人&总裁Demi Guo:Pika Labs Co-founder & CEO胡渊鸣:Meshy.ai Co-Founder & CEO
杨植麟:Moonshot AI Founder & CEO
文章内容节选自闭门讨论内容,由 Founder Park 进行整理。
01
Sora 可复刻吗?已知 DiT 的信息是否足够?视频生成的技术路径会收敛吗?
观点一:
跟一些一线搞过 video diffusion 的同学聊过,我们总结下来,首先是它参数量大了 10 倍,这可以部分地解释它效果为什么这么好。
但如果只是 10 倍,可能也很难解释它为什么有这么大的改变,所以可能还有另外一个 10 倍。这个 10 倍我感觉还是它的数据方面,或者工程实践方面有一些其他人不知道的 know-how。其实 Sam Altman 也经常在一些场合提到,为什么他们的 GPT 就会比其他人的 large model 要好,因为他们堆了 1 million tricks。当你把 1 million tricks 都叠加在一起的时候,它可能会让你的东西有一个本质的提升。
观点二:
取决于技术空间,我们觉得技术空间挺大的,差距可能会持续存在,这(复刻)应该是个大概率的事件。
一个模型的效果取决于两个因素。一个是你的算力;第二个是算力的乘数,也就是 compute 的 multiplier。然后最终的效果差距都是这两个东西乘起来差多少。
当然 compute 相对来说是一个门槛更低的东西。因为世界上有很多公司有非常多的 compute,但是没有做出来非常领先的模型。这里面的核心差异点还是在 compute 的 multiplier,里面有巨大的创新空间。
比如说数据,可能已经不像原来那样只要去找一个对的数据就可以了,这里面有一些非常复杂的处理方式。而且他们之间可能有数量级上的差距,这些数量级上的差距很大程度上可能会比 compute 的倍数还更大。因为 compute 还是有一定的上限的,比如说你堆了 5 万张 H 卡,你可能继续 scale compute 还需要 1、2 年的时间,所以你的 compute multiplier 反而可能 scale 得更快。
还有就是模型的 architecture,虽然大家都是 Transformer,但是不同的 Transfomer 也会有区别。比如说你用一个 naive 的 Transformer 去做 long context,可能就不是那么好,甚至可能做不了。但是如果你没有 long context,你的 multiplier 又会降低。所以这里整体的空间还是很大。
包括像现在有 GPT,有 Sora,但可能还没有 max out 它的价值。因为它是两个单独的脑子,或者说 Sora 的脑子还不够好,所以它需要一个更好的脑子。这里面可能又会有一些新的技术空间出来。
所以我觉得核心还是在于 multiplier。
观点三:
关于 DiT,至少目前看起来 OpenAI 是这样做,但是不是 DiT 就是最终的架构,很可能大概率不是。因为它不是 AGI,还是缺少 generality,我觉得它还是一个中间的过渡态。
最终需要的一个通用架构,是你硬盘上的所有数据都能被这个模型进行压缩,你的 AI 上限可能就是所有的能被数字化的东西上限,我觉得今天这个架构还做不到这一点。
它只是证明了,在单纯视频这个模态上用这种架构它可能是 scalable 的,但是它还不够通用,我觉得这个倒没有完全收敛。
观点四:
我觉得在今年收敛到能开始商用的视频模型,还是比较大概率的。
但是说能够做到「物理引擎」,预测出两个人撞上要摔跤了,更加复杂的物理引擎预测事件,今年可能不一定。
其实你说,一个电影里面有多少片段是超过 10 秒的,其实很少。很有可能今年不用做到那个程度,已经可以有一些商用价值。
02
Sora 能够成为「物理模拟器」吗?它是否真的理解物理世界?
观点一:
从我的角度看,Sora 完全不是一个好的物理模拟器。因为它现在的模拟能力,与我们十年前使用有限元和有限差分/有限体积做流体的和刚体模拟相比,相差甚远。
如果是一个物理模拟器,那它就能发挥物理模拟器的价值。以前进行物理仿真,如缸体仿真和流体仿真,都具有显著的预测价值。例如,设计一辆汽车时,我们可以预测其在撞击墙壁时的反弹效果和形变情况。同样,发射一颗导弹时,通过了解每时每刻的空气动力学特性、初始速度和控制系统,我们能够预测它是否能够准确击中目标。这些仿真都展现了强大的预测能力。
目前看来,像 Sora 这样的 AI 系统确实能对物理世界有一定的理解,但它无法发挥实际的物理模拟器作用。所以,我认为它可以被模糊地称为物理模拟器,但更多是一种营销包装手段,可能与 Sam Altman 追求 AGI 的目标更吻合。但如果说到实用的物理模拟价值,我认为是没有的。
举个例子,一个西瓜,用一刀把它切开,西瓜就会变成两半。要通过物理仿真进行这种切割模拟出来需要的解析精度非常高,因为这属于切割仿真。但如果你让 Sora 预测一把刀切向西瓜时会发生什么,Sora 可能很容易就能生成西瓜被切成两半的结果。使用这种黑箱方法,有时候甚至可以获得比传统物理仿真更准确、更有价值的结果。所以,从这个角度看,它或许可以被视为一种全新的、黑箱式的物理模拟器。
如果考虑 AI 未来可能解决一些传统物理模拟器无法解决的问题,尽管我们可能无法完全解释工作原理,这仍然表明它具有一定的价值。但具体应用场景在哪里,可能还需要一些时间来探索。
观点二:
对于视频生成,理论上它能模拟物理现象,因为如果视频生成要做到真实,尤其是在视频较长的情况下,它必须要理解物理原理才能显得真实。从这个角度看,虽然现有模型效果不错,但根据我们的了解和看的一些视频,它对物理的理解还是有限的。它能进行一些基本的物理理解,比如一个球掉在地上会反弹,但 Sora 这样的模型可能还不足以进行复杂的物理预测,例如预测一个杯子的具体行为就显得力不从心。
如果是长视频的情况,它可能无法准确预测更复杂的情况,比如两个即将碰撞的人可能会互相穿过而不是真的碰撞并摔倒。尽管理论上它能进行物理预测和模拟,但当模型本身足够强大,随着时间推进和技术进步,它的预测准确率和能力可能会逐渐增强,从而越来越接近真正的物理引擎预测。
观点三:
我的想法是,物理模拟或对物理世界规律的理解,实际上可能是视频模型的一个子集。
以语言模型为例,它分为两种模式。一种是事实模式。在这种模式下,你期望模型能描绘世界知识而不产生幻觉,确保提供的信息是事实上准确的,具有真实性和可信度。另一种模式是你可能想要它构造一个虚构世界,比如编写一个故事或一本小说。这时,幻觉作为一种特征实际上是可接受的「本质上并没有问题」。
视频模型也是一样的,有些非常贴近客观世界,比如苹果掉落或水流向低处这样的自然物理现象,包括切西瓜等,这些视频反映了真实世界。还有一种可能是虚构的,比如电影特效或完全奇幻的电影情节,很多视频是人为生成的,可以加入很多编辑元素。因此,视频模型可能有两种模式。当模型的规模 scaling 到一定程度后,这两种模式可以随时切换,就像现在的语言模型一样,它可以根据用户的需求/prompt/use case 来切换不同的模式。
所以我认为从模型的角度看,它的 scope 甚至可能超过物理模拟本身,其中物理模拟是强调真实性的一部分。我也赞同之前的观点:在当前状态下,Sora 可能还不是对物理世界非常精准的模拟器。但我相信 scaling law——你只要足够的 scale,这个问题应该是能够被解决的。
03
如果你是 Sam Altman,你会把 Sora 产品化吗?
观点一:
第一,这个模型离商用非常近,只要解决 inference efficiency,一般来讲就不会非常难。
第二是要不要做产品。因为 Sora 只是 OpenAI 一个 team 做的,大部分 team 还是 LLM team,外界看来他们把这个包装成 AGI World,但其实内部肯定也不是计划好的,只是这个 team 出成果了。他们有一个产品策略,叫 1P 和 3P 策略。就是他们只做跟模型最相关的产品,不做更加 vertical 的产品。像 ChatGPT,他们把这个语言模型包装一样,可能花几个 engineer 的事,可能加一个比较 shallow layer 的事,做一下。但你说做个搜索引擎,可能就不做了,要做出 legal tag,可能就不做了,这叫 3P 产品,让第三方去做。
我觉得视频也是一样,会有类似 DALL・E 3 这样一个简单的包装,能够让大家使用,但不会去做非常垂直的,非常 specific 的产品化尝试。
能不能做产品和 OpenAI 选不选择做产品是两件事情。对他们来讲,这些东西更多是为了达到 AGI 上的 milestone。
观点二:
技术的演进会非常快,至少两三年内是不会收敛的,在这种情况下做太多产品上的雕花可能会面临被颠覆的风险,接下来更加成立的很多产品可能还是会在模型能力的演进过程中,做比较轻度的产品化,可能更多是 models as an application 这种产品化,直接用模型定义了产品,本身需要的 effort 没有那么多。
这同时还有一个作用,开发 AGI 的过程需要跟很多用户一起去共创,让用户真的去用你的产品,在这里面找到很多问题和反馈,可能会对模型怎么演进和优化,能提供非常多的输入。同时趁这个机会先把 community 建起来,比如 GPT-3.5 level 的产品现在在世界上它的用户量仍然是最大的,先发优势也会充分地去利用。
这里面我觉得有一个核心的考量,是产品可能会发生巨大的变化。基于今天的模型能力做的产品,可能也许到明后年就不一定成立,或者完全可能被推翻。如果你是一个更长期的 investment,要去提升通用能力。
04
Sora 出来后,创业公司接下来有什么新机会?
观点一:
从 3D 角度讲一讲,如果是考虑 3D 生成,硬要先生成一个视频,再拿视频做 3D reconstruction,那我认为其实是走弯路了。
但 Sora 依然对 3D 生成有很大的启发。它搞了一个「Patch」这样一个抽象,把各种 modality 的东西都塞进去,图片、视频都喂进去,这对做 3D 也很有帮助。
3D 现在比较大的一个问题还是数据很少,我估算,世界上能够找到的、说得过去的 3D 模型,可能也就一亿个(类似量级),它和图像、视频都差了至少一两个数量级的规模。
现在大家生成高质量 3D 主流的做法,还是用大量的 3D images,去做一种类似于 3D reconstruction 的方法。也有方法是直接在 3D space 里做的,但效果相对来说,可能跟用户想要的会有一些距离。
其实现在很多 3D 生成的技术,其中很多 idea 是来自 video generation,3D 的 consistency 和 video 的 consistency 很多地方是一致的。所以做随机生成的公司,看到 Sora 这样的效果都会思考,一方面,自己怎么跑得更快一些,不要某天被 OpenAI 一步抢先拉开差距。现在 OpenAI 可能看不上这个事情,如果未来某天它看上这件事,不要被它一下拉开特别大的差距。你可以早点看到它用的一些技术,能否借鉴。
另一方面,其实它还可以给 3D 生成带来更多的信心,因为以前大家觉得 3D 做到一定程度就会卡住,但如果现在 video 能做到这么好的话,那么大家可能会再去在自己的方向上展望一下未来——更有信心。
观点二:
从应用的角度,目前确定性比较高的,就是直接作为一个生产力工具,已有的视频生产的环节肯定会被颠覆。
它可能会先从 prompt to a video clip 开始,慢慢地逐渐期待 Adobe 的全套产品和上面的 100 万个按钮。我觉得这个可能是一个大概率的事情,今天的技术我认为做到这也就差不多。
但是如果我们再看接下来一两年的发展,如果它有更强的大脑,这里的空间还会更大。在生产力工具之外,可能会有新的品类。比如说,以前从来没有出现过的产品形态,跟游戏和直播都不一样的东西。我觉得这些是可以预期的,因为在现在的基础上可能会有非常大的变量,使得原来完全不可能的产品形态变得可能。
观点三:
对视频生成领域来讲,Sora 的诞生还是很 exciting,Sora 的出现让很多人感觉距离更进一步。
第一天,我还觉得,哇,生成的效果的确挺好的,但是在逐渐了解的过程中,我们也知道了,这件事对我们来讲也不一定是非常难的事情,它给我们指引了一个方向。
在此之外,本次的闭门分享还讨论了更多问题:
- Sora 是世界模型吗?
- 「理解物理」是「直觉」还是「科学」?
- Scaling Law 继续发挥作用的话会怎样?
- 为什么 Google 做不出 Sora?
- Sora 对当下大模型创业有怎样的启发?
-
端侧模型有怎样的想象空间?
……
全部内容仅对社区会员解锁,欢迎加入 Global Ready 社区获取。
更多阅读
GPT、DALL·E、Sora,为什么 OpenAI 可以跑通所有 AGI 技术栈?
Scaling 能通往 AGI 吗?万字科普 Scaling Law 的业内争议与讨论
Stable Diffusion 3 发布:模型与 Sora 同架构、解决文字乱码、更好理解物理世界
如何看待谷歌开源大模型 Gemma:被迫入局、开源力度不够、2024 会有小模型黑马出现
比 GPT-4 快 18 倍、自研芯片比英伟达 GPU 快 10 倍的 Groq,能否撼动英伟达?
转载原创文章请添加微信:geekparker