OpenAI Sora 团队专访:技术细节、后续功能开发排期全解密!

1,301次阅读
没有评论

OpenAI Sora 团队专访:技术细节、后续功能开发排期全解密!

3 月 8 日,OpenAI 的 Sora 团队接受了油管知名博主 Marques Brownlee (简称 MKBHD) 的采访,透露了很多之前从未公开的信息,比如正式上线时间、什么时候加入音频生成以及详细的技术路线等。

文章转载自「赛博禅心」,Founder Park 略有增删。

OpenAI Sora 团队专访:技术细节、后续功能开发排期全解密!

01

Sora 的原理和技术缺陷

MKBHD:能邀请各位百忙之中抽空来参加这次对话,真是十分荣幸~在对话开始之前,要不先做个自我介绍?比如怎么称呼,负责哪些事情?

Bill Peebles:Bill Peedles,在 OpenAI 负责 Sora 项目。

Tim Brooks:Tim Brooks,负责 Sora 项目的研究。

Aditya Ramesh:Aditya,一样的,也是负责人。

MKBHD:我对 Sora 了解一些,主要还是看了你们发布的那些宣传资料、网站, 还有一些演示视频,真挺牛的。能简单说说 Sora 究竟是咋实现的吗?我们之前有讨论过 DALL-E 和 Diffusion,但说实话,我对 Sora 的原理确实摸不透。

Bill Peebles:简单来说,Sora 是个生成模型。最近几年,出现了很多很酷的生成模型,从 GPT 系列的语言模型到 DALL-E 这样的图像生成模型。

Sora 是专门生成视频的模型。它通过分析海量视频数据,掌握了生成各种现实和虚拟场景的视频内容的能力。

具体来说,它借鉴了 DALL-E 那样基于扩散模型的思路,同时也用到了 GPT 系列语言模型的架构。可以说,Sora 在训练方式上和 DALL-E 比较相似,但架构更接近 GPT 系列。

MKBHD:听起来,Sora 像其他大语言模型一样,是基于训练数据来创造内容等。那么,Sora 的训练数据是什么呢?

Tim Brooks:这个不方便说太细😊 但大体上,包括公开数据及 OpenAI 的被授权数据。

不过有个事儿值得分享:以前,不论图像还是视频模型,大家通常只在一个固定尺寸上进行训练。而我们使用了不同时长、比例和清晰度的视频,来训练 Sora。

至于做法,我们把各种各样的图片和视频,不管是宽屏的、长条的、小片的、高清的还是低清的,我们都把它们分割成了一小块一小块的。

接着,我们可以根据输入视频的大小,训练模型认识不同数量的小块。

通过这种方式,我们的模型就能够更加灵活地学习各种数据,同时也能生成不同分辨率和尺寸的内容。

MKBHD:你们已经开始使用、构建和发展它一段时间了,可否解答我一个疑惑?我本身是做视频的,能想到这里要处理的东西有很多,比如光线啊、反光啊,还有各种物理动作和移动的物体等等。

所以我就有个问题:就目前而言,你觉得 Sora 擅长做什么?哪些方面还有所欠缺?比如我看到有个视频里一只手竟然长了六个手指。

Tim Brooks:Sora 特别擅长于写实类的视频,并且可以很长,1 分钟那么长,遥遥领先。

但在一些方面它仍然存在不足。正如你所提到的,Sora 还不能很好的处理手部细节,物理效果的呈现也有所欠缺。比如,在之前发布的一个 3D 打印机视频中,其表现并不理想。特定场景下,比如随时间变化的摄像机轨迹,它也可能处理不佳。因此,对于一些物理现象和随时间发生的运动或轨迹,Sora 还有待改进。

MKBHD:看到 Sora 在一些特定方面做得这么好,实在是挺有趣的。

像你提到的,有的视频在光影、反射,乃至特写和纹理处理上都非常细腻。这让我想到 DALL-E,因为你同样可以让 Sora 模仿 35mm 胶片拍摄的风格,或者是背景虚化的单反相机效果。

但是,目前这些视频还缺少了声音。我就在想,为 AI 生成的视频加上 AI 生成的声音,这个过程是不是特别有挑战性?是不是比我原先想象的要复杂很多?你们认为要实现这样的功能,我们还需要多久呢?

Bill Peebles:这种事情很难具体说需要多久,并非技术难度,而是优先级排期。

我们现在的当务之急是要先把视频生成模型搞得更强一些。毕竟,以前那些 AI 生成的视频,最长也就四秒,而且画质和帧率都不太行。所以,我们目前的主要精力都在提升这块。

当然了,我们也觉得视频如果能加上声音,那效果肯定是更棒的。但现在,Sora 主要还是专注于视频生成。


02

Sora 暂时未定发布时间,生成视频会加入水印

MKBHD:你们在 Sora 身上做了大量工作,它的进步有目共睹。我很好奇,你们是怎么判断它已经达到了可以向世界展示的水平的?

就像 DALL-E 一样,它在发布之初就惊艳全场,这一定是一个值得铭记的时刻。另外,在 Sora 已经表现出色的方面,你们是如何决定下一步的改进方向的呢?有什么标准或者参考吗?

Tim Brooks:你可能会注意到,我们目前并没有正式的发布 Sora,而是通过比如博客、Twitter、Tiktok 等渠道发布一些视频。这里的主要原因是,我们希望在真正准备好之前,更多的获得一些来自用户的反馈,了解这项技术如何能为人们带来价值,同时也需要了解在安全方面还有哪些工作要做,这将为我们未来的研究指明方向。

现在的 Sora 还不成熟,也还没有整合到 ChatGPT() 或其他任何平台中。我们会基于收集到的意见进行不断改进,但具体内容还有待探讨。

我们希望通过公开展示来获取更多反馈,比如从安全专家那里听取安全意见,从艺术家那里了解创作思路等等,这将是我们未来工作的重点。

MKBHD:有哪些反馈,分享一下?

Tim Brooks:有一个:用户希望对生成的视频有更精细、直接的控制,并非只有简单的提示词。

这个挺有趣的,也这无疑是我们未来要重点考虑的一个方向。

MKBHD:确实,有些用户可能只是想确保视频是宽屏或竖屏,或者光线充足之类的,而不想花太多精力去设计复杂的提示词。这个想法很有意思。

下一个话题,未来 Sora 是否有可能生成出与真实视频毫无二致的作品呢?我猜是可以的。就像 DALL-E 那样,随着时间发展,越来越强。

Aditya Ramesh:我也相信,因此我们会变得变得更为谨慎。

人们应该知道他所看到的视频,是真实的,还是 AI 生成的。我们希望 AI 的能力不会被用到造谣上。

MKBHD:在 Sora 生成的视频中,在右下角都有水印,这确实很明显。但是,像这样的水印可以被裁剪掉。

我很好奇,有没有其他方法可以识别 AI 生成的视频?

Aditya Ramesh:对于 DALL·E 3,我们训练了一种溯源分类器,可以识别图像是否由模型生成。

我们也在尝试将此应用于视频,虽然不完美,但这是第一步。

MKBHD:懂了。就像是加上一些元数据或者某种嵌入的标志,这样如果你操作那个文件,你就知道它是 AI 生成的。

Aditya Ramesh:C2PA 就是这样做的,但我们训练的分类器可以直接应用于任何图像或视频,它会告诉你这个媒体是否是由我们的某个模型生成的。

MKBHD:明白了。我还想知道你的个人感受。显然,你们必须等到觉得 Sora 准备好了,可以向世界展示它的能力。看到其他人对 Sora 的反应,你有什么感觉呢?

有很多人说「太酷了,太神奇了」,但也有人担心「哦不,我的工作岌岌可危」。你是怎么看待人们各种各样的反应的?

Aditya Ramesh:我能感受到人们对未来的焦虑。作为使命,我们会以安全负责的方式推出这项技术,全面考虑可能带来的各种影响。

但与此同时,我也看到了许多机遇:现在如果有人想拍一部电影,由于预算高昂,要获得资金支持可能非常困难-制片公司需要仔细权衡投资风险。而这里,AI 就可以大幅降低从创意到成片的成本,创造不同。

MKBHD:Sora 和 DALL·E 确实有很多相似之处,尤其是在使用场景上。

我自己就经常用 DALL·E 来设计各种概念图,帮助很大。我相信对于 Sora 来说, 类似的创意应用场景也会有无限可能。

我知道,Sora 现在还没具体的开放时间,但你觉会很快吗?

Aditya Ramesh:我觉得不会那么快,我觉得😊


03

Sora 的目标是模拟自然,再超越自然

MKBHD:最后一个问题是:在将来,当 Sora 能制作出带声音的、极度逼真的、5 分钟的 YouTube 视频的时候,会出现哪些新的、要应对的问题?

更进一步说,相较于图片,视频制作的复杂的要高得多。但视频则涉及到时间、物理等多个维度,还有反射、声音等诸多新的难题。

说实话,你们进入视频生成领域的速度远超我的预期。那么在 AI 生成媒体这个大方向上,下一步会是什么呢?

Tim Brooks:我期待看到人们用 AI 来创造全新的东西。

去复刻已有对东西,不算难事儿;但使用新工具,去创造未曾出现的东西,着实令人心动!

对我来说,一直激励我的,正是让那些真正有创意的人,将一切不可能的事情变成可能,不断推进创造力的边界,这太令人兴奋了!

MKBHD:确实有趣啊!

我觉得,由于它们是基于已有内容训练的,因此生成的东西也只能建立在现有内容之上。要让它们发挥创造力,唯一的办法可能就是通过你给它的 prompt 了。

你需要在如何巧妙地提出要求上下功夫, 琢磨该如何引导它。这么理解对吗?

Bill Peebles:除了 prompt,Sora 还可以通过其他方式引导视频生成。

比如在我们之前发布的报告里,演示了如何将两个的混合输入:左边视频一开始是无人机飞过斗兽场,然后逐渐过渡到右边 – 蝴蝶在水下游动。中间有一个镜头,斗兽场渐渐毁坏,然后被看起来像被珊瑚覆盖,沉入水中。

像这一类的视频生成,无论是技术还是体验,都是完全与以往不同的。

Aditya Ramesh:从某种意义上来说,我们做的事情,就是先模拟自然,再超越自然!

MKBHD:哇,这确实挺酷的,很有意思啊!

Sora 能够越精准地模拟现实,我们就能在它的基础上越快地进行创新和创作。理想情况下,它甚至能成为一种工具,开辟新的创意可能性,激发更多的创造性思维。

真的超级赞!

如果有什么话想对大家说,现在正是个好时机。毕竟,你们是最早开始这个项目的人,比任何人都更早地看到了它的潜力。关于 Sora 和OpenAI,还有什么是你们想让大家知道的吗?

Tim Brooks:我们还特别兴奋的一点是,AI 通过从视频数据中学习,将不仅仅在视频创作方面发挥作用。毕竟,我们生活在一个充满视觉信息的世界,很多关于这个世界的信息是无法仅通过文本来传达的。

虽然像 GPT 这样的模型已经非常聪明,对世界有着深刻的理解,但如果它们无法像我们一样「看到」这个世界,那么它们就会缺失一些信息。

因此,我们对 Sora 及未来可能在 Sora 基础上开发的其他 AI 模型充满期待。通过学习世界的视觉信息,它们将能更好地理解我们所生活的世界,因为有了更深刻的理解,未来它们能够更好地帮助我们。

MKBHD:确实非常酷!我猜背后肯定有大量的计算工作和一群技术大神!

说实话,我一直盼着某天能用上 Sora,有进度来请立即敲我~

Bill Peebles:没问题

MKBHD:谢啦

OpenAI Team:感谢

1000 thousand years later…

MKBHD:对了,我还忘了问他们一个挺有意思的问题。虽然录的时候没问到,但大家都想知道,用一个提示让 Sora 生成一个视频需要多长时间?

我私信问了他们,答案是:得看具体情况,但你可以去买杯咖啡回来,它可能还在忙着生成视频。

所以,答案是「需要挺长一段时间」。

如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。
OpenAI Sora 团队专访:技术细节、后续功能开发排期全解密!
更多阅读

2024 年,中国的投资人们如何投 AI?

兼职创业,一个人如何在半年内把 AI+Excel 的项目做到 31 万美金 ARR?

Notion CEO:RAG是知识管理的未来,AI将SaaS带入新一轮Bundling

AI 应用之路:质疑汤姆猫,成为汤姆猫,超越汤姆猫

世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了

转载原创文章请添加微信:geekparker

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 3 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...