直播回顾
《追AI的人》系列直播第36期邀请了阿里巴巴安全部媒体安全技术研究团队刘佳睿分享《解密全网爆火的Sora:如何区分真实与AI生成内容?》
以下为直播的文字回放,共计22013字。
📺《追AI的人》往期直播视频回放观看👉B站关注:AAIG课代表
直播简介回顾:以假乱真!文字直接生成视频,Sora如何做到的?《追AI的人》第36期分享生成内容检测技术,让你拥有辨识Sora的“火眼金睛”!
刘 佳 睿
阿里巴巴媒体安全部技术研究团队安全工程师,负责图像截图篡改检测与定位、视频人脸篡改检测与定位、明水印检测与定位等多个算法的应用与落地。曾在IJIS、JVCI等期刊发表多篇视频人脸篡改检测领域论文。
分享大纲
🎈Sora是谁?凭什么爆火?🎈Sora是如何炼成的?🎈Sora真的是潘多拉魔盒吗?🎈生成内容检测技术,让你拥有辨识Sora的“火眼金睛”🎈Sora面前,未来的路要怎么走?
关于Sora——这是一个备受关注的话题。众所周知,Sora是由OpenAI推出的一个先进的内容生成大模型,它的主要功能是生成视频,同时也支持一些图像相关的下游任务。
Sora与市面上其他视频生成产品相比具有三个显著的特性。
1、它能够生成长达60秒的视频,这在视频生成领域堪称超长。
2、Sora的视频呈现了多角度的镜头变换,增加了视频的丰富性和观赏性。
3、Sora引入了所谓的“世界模型”,这一特点在业界引发了广泛的讨论。让我们逐一对这些特点进行详细解读。
让我们先聚焦于60秒这一时长。那么60秒在视频生成中算是超长吗?为了给大家一个清晰的概念,我们不妨与其他产品和模型作一番对比。比如谷歌在今年1月发布的Lumiere模型,根据他们的研究论文,该模型能够生成5秒钟且帧数达80的视频。
当我们调研市场上现有的一些视频生成产品时,我们发现Gen-2经过技术更新后,可以生成长达18秒的视频。而另一个名为Pika的产品,能生成的视频时长仅为3秒。包括刚才提到的Lumiere,其生成视频的时长也是5秒。通过这样的比较,我们可以清楚地看出,60秒在视频生成领域的确是一个非常显著的超长时间跨度。
接下来,让我们探讨Sora的第二个特点——多角度镜头视频。这里,我们以两个视频为例进行比较分析。左侧展示的两个视频分别是由Gen-2和Lumiere生成模型制作而成。如大家所见,这些视频确实呈现出了一定程度的镜头位移,然而可能由于视频时长的限制,它们并没有实现我们所说的镜头分解——即一个场景中不同角度镜头的切换。
相比之下,观察右侧由Sora生成的机器人视频,我们明显可以看到多次的镜头切换,这不仅给观众带来了更为丰富和动态的视觉体验,更难能可贵的是,尽管镜头在不断变换中,视频中的机器人角色却能够保持内容上的连贯性和一致性。这一点充分展现了Sora在视频生成技术上的先进性和创新性。
关于Sora的第三个特点,它被称为世界模型,有时也称之为世界模拟器。首先,我们需要明确地理解什么是世界模型。在我的看法,一个世界模型应当能够真实并客观地呈现物体间的相互作用,甚至能够反映出某些物理规律。因此,这样的模型可以视作我们真实世界的数码映射,即所谓的世界模型。
通过观察我们前面展示的这两个视频,可以发现Sora生成的视频正开始展现出这些特性。左侧视频中,画笔接触纸张时能够生成绘画痕迹;而右侧视频展示了当嘴唇咬向汉堡时,汉堡上留下了牙印。这些例子显示Sora能够模拟物体间的交互行为,乃至于呈现出一些符合物理定律的现象。正是这些能力,是Sora被称为世界模型,或者大家常说的世界模拟器的基础。
接下来聊聊Sora到底是如何炼成的。
这里我借用了周文猛老师在魔搭社区上分享的解读和框架图,我们认为Sora它的总体框架大概包含三个部分,第一是编码器Visual Encoder,第二个部分是Diffusion Transformer,第三个是Transformer Decoder,这里可以看到首先Visual Encoder的部分就是将看它这里框架它其实是从视频变到了一个灰色的,我们说是一个patch。
而第二个部分通过我们的输入的Text condition的这个部分,也就是我们用户输入的文本,可以将输入的或者说原视频的patch进行编辑,得到目标视频。而第三部分通过decoder,可以将输出的patch生成最终的输出视频。
在讨论Sora模型的技术细节时,我们首先关注的是编码器部分。根据提供的技术文档,文档给出了编码器的核心功能。第一步,编码器的工作是压缩视频,如同技术文献中标红部分所示,包括将视频内容压缩到一个隐空间——这个过程可以理解为把视频压缩到一个编码后的表示中,即 “隐空间”。
紧接着,第二步是将这个压缩后的内容重构为时空域中的“patch”。关于“patch”这一概念,我们可以从图像的角度来阐释这个概念:假设我们将一张图像划分为3×3的网格,形成了九个小格子,那么每一个小格子都可以被称作一个“patch”。
当我们回顾sora模型的官方技术报告时,所提供的图示中清晰地展示了所谓的“patch”,即每一个小方块。从这些图像中,我们可以看出“patch”并非简单地是二维的正方形,而更像是一个立方体。这一点揭示了什么呢?正如技术报告中所述,它代表了一个“space-time patch”,意味着每个“patch”实际上包含了时间这一维度。
我个人认为,将时间维度融入“patch”的做法,可能会显著提高视频在时间上的连续性,尤其是在短时间跨度内的表现。这是因为在生成过程中,模型以时空“patch”的形式来处理和构建视频内容,从而在时间轴上实现更加流畅的过渡和表现。
第二个部分的核心是Diffusion Transformer,它的核心功能其实是将patch进行编辑,按照我们用户的文本输入生成到目标的视频,或者说叫目标的patch,具体如何呢🤔
Sora的主要作者之一是Peebles William,他在ICCV上发表过一篇Dit[2-4]的工作,我个人认为他主要的贡献是他提出了将Diffusion model和Transformer(将SD中的U-net结构替换成Transformer ),从而达到可以通过scale up model的形式来提升图像生成质量的效果。可以相信,Sora中使用了相似的技术。
通过这种scale up model的方式,画面的生成质量是有了非常显著的提升的。Dit的结构也如图所示,感兴趣的同学可以去细读一下论文,包括一些网上的解读,非常详细深入。我个人认为Sora肯定是使用了和Dit相似的结构,但是是不是完全一致的结构,我们现在不得而知。
还值得一提的是技术报告中提出他使用了一个GPT来进行转译,就像技术报告中我标红的部分一样,他用GPT把短的用户输入去变成更长的、更具体的标题。
我们可以一起先看一下DALL·E 2模型结构的示意图。例如DALL·E 2,在普遍的文生图模型——即从文本到图像的生成模型中,它的训练过程可以被理解为一个让文本描述与生成图像相匹配的过程。例如,如果我提出了一个需求,比如“我想要一只狗”,那么输入这个描述之后,模型可能会生成一只狗的图像。这是普通的文生图模型训练所完成的工作。
然而,在DALL·E 3的过程中,开发者们采用了GPT转译技术,使得模型能够将简短的文本输入转化为更长、更详细的文本描述,就像我们在图中看到的那样。
以左侧示例为例:“一个白色的现代浴缸放在木地板上”,这样的用户输入本身就是简短的描述。然后,GPT能够将其扩展为更长的文本,其中包含了丰富的细节和对图像整体的描述。这样的转换可以更充分地发挥模型在图像生成方面的性能。
我们认为,这种使用GPT进行转译的方法,借鉴了DALL·E 3的经验,可能会使得Sora在实际的图像生成效果上得到提升,能够更充分地发挥模型的生成能力。
最后,让我们讨论一下Transformer Decoder部分。在我的理解中decoder的工作与编码器执行的任务可能是完全相反的。也就是说,在我们之前提到的编码过程中,一旦目标“patch”被生成,解码器则通过解码过程将这些时空“patch”最终转换为视频。
这里有一个值得一提的观点,来源于社区中的一个分享,他们提到了现在许多主流的视频生成方法。这些方法在生成了若干关键帧后,常常会通过插帧技术,在这些关键帧之间插入参考帧,或者添加其他帧,以形成完整的视频。
然而,从目前Sora技术结构图所展示的信息来看,我们推测它可能采用了类似自回归的结构来进行计算。不过,由于尚未披露具体的操作细节,我们目前只能基于现有的信息进行推断。我们推断,Sora的 “Transformer Decoder”可能会比单纯的插帧技术产生更好的效果。这种方法在生成视频时可能更能保证内容的连贯性和流畅性。
总结来看,Sora的整体技术方案我们认为主要由三个核心部分组成:一是Visual Encoder,二是Diffusion Transformer——即视频生成的核心模块,以及Transformer Decoder。在这三者之中,Visual encoder和Transformer Decoder的主要功能,依我的看法,是负责视频内容与时空“patch”之间的相互转换。这个过程不仅涉及视频的压缩,还包括提升视频最终的质量。
Diffusion Transformer,它可能相当于一种像Dit的结构,负责根据文本输入生成目标视频。Transformer结构在视频生成过程中发挥着至关重要的作用,可能就是Sora能够创造出高质量视频内容的关键所在。
此外,我个人还有一些猜想,大家可以观察下面展示的这个视频。这是官方提供的篮球投篮视频,我们可以注意到,在第二个篮球投篮时,视频中出现了一些穿模的情况。对于那些对游戏引擎或相关领域有所了解的朋友来说,他们可能知道使用游戏引擎(例如虚幻引擎)生成的画面中,穿模是一个常见现象,类似于我们在游戏中经常遇到的情况。
因此,当我看到Sora也出现类似穿模的情况时,我的第一反应是它可能采用了游戏引擎来辅助视频生成。这一点实际上也得到了一些学者的支持,他们同样认为Sora可能利用了虚幻引擎5来进行视频生成。当然,具体是否使用了游戏引擎,我们可能无从得知。
另一个值得提及的是关于Sora的核心瓶颈。我个人认为,可能需要更多的训练数据和训练技巧。当然,由于我并非专门研究Sora生成领域,但是通过观察它提出的结构,包括类似于Dit的结构和“patch”的划分方式,目前看来似乎并没有带给我们跨时代的震撼感。然而,Sora本身的性能与市面上的一些其他产品,如Pika或真图相比,确实展现了一种代差感。因此,我推测OpenAI可能在训练数据和训练技巧方面掌握了一些我们所不知道的秘诀。
最后谈谈物理规律或世界模型的部分,我个人认为,要想在短期内完整地学习到物理规律,Sora可能还需要进一步的完善。物理规律的复杂性和多样性意味着在这一领域达到完全的精确模拟仍然是一个挑战。
第三章我们来聊聊Sora真的是潘多拉魔盒吗?因为Sora惊人的表现,甚至表现出世界模拟器的一个雏形,包括马斯克也发出了gg humans的言论。
首先,我想探讨的一个问题是:Sora的出现是否是必然的?它究竟是技术发展到达某一阶段或水平的必然产物,还是仅仅源于一群技术天才的奇思妙想,或者说是一次创新性的实验?
在此,我先简要介绍目前人工智能内容生成(AIGC)领域从图片生成演变至视频生成后,现在较为常见的两种框架。第一种是基于生成对抗网络(GAN)的框架,第二种是基于扩散模型的框架。
针对基于GAN的框架,它主要由两部分网络组成:生成网络和判别网络。生成网络的职责是根据输入的文本生成相应的图像,而判别网络则旨在鉴别所生成图像的真实性。通过这两个网络间的对抗性训练,最终能够产出高质量的图像。
而基于扩散模型的框架目前颇受关注。扩散模型的核心理念在于模拟物理中的扩散过程,即将结构化数据(如图像)逐步转化为无结构的噪声数据,然后再逆向这一过程以生成全新的数据。
在此我之所以要提到这两种框架,并且在讨论Sora之前先行介绍这部分内容,是因为我个人认为Sora根据自身描述,显然是建立在扩散模型框架之上的。如前所述,Sora自称为扩散模型框架下的产物。而我们后续还会涉及到内容检测的话题,因此在这里,有必要为大家稍微介绍一下这方面的知识。
首先我们来看一些生成对抗网络框架,包括DragGan,它是我们说是一个图像编辑的工具,可以通过拖动图像的方式对图像中的内容进行编辑。
包括像StyleGan它其实指的是图像中的一些属性,而不是指图像的风格。比如说以人脸为例的话,他可能眼睛、鼻子、嘴巴这些可以称为style,
包括像StyleSV,这是一个视频生成的工具。
在当前市场上出现的多种工具中,基于扩散模型的生成框架似乎已成为AIGC领域,尤其是在图像和视频生成方面的一个主流选择。Sora,作为一个同样建立在扩散模型之上的产品,我们是否可以说它标志着扩散模型框架下的一个里程碑式的发展呢?
换言之,Sora实际上并未脱离扩散模型的范畴。甚至我们可以进一步地,基于当前对扩散模型的理解来认识Sora。这意味着,在我们进行Sora的检测和评估时,也许可以依托现有的扩散模型经验来执行。
我认为,思考Sora作为扩散模型框架下的发展是否具有里程碑意义,以及如何利用我们对扩散模型的认知来更好地理解和检测Sora,都是值得深思和讨论的点。
Sora确实建立在扩散模型的框架之上。从检测的视角分析,尽管Sora被认为是扩散模型框架下的一个里程碑式发展,但它并没有超越基于扩散模型的框架本身。
由于Sora没有开源,我个人认为它可能还未达到像其他一些已成熟技术,如ChatGPT或其他产品那样的技术状态。同时,正如我们在第一部分中提到的,与现有的一些视频生成工具相比,Sora似乎呈现出某种代差,显得更为先进。
我相信,在未来的一段时间内,Sora或许会成为生成式模型的一个标杆,甚至是一个学习的典范。未来无论是图像生成模型还是视频生成模型,都可能会融入Sora的某些特质。Sora的影响力可能会以这种方式持续扩展,在人工智能内容生成领域留下深刻的痕迹。
其次我认为,Sora在短期之内不太可能带来过分颠覆性的影响。我将Sora与ChatGPT进行对比说明。回顾ChatGPT刚推出时,众人皆对其新奇与强大的能力表示惊叹。然而,随着时间的推移,尽管ChatGPT及其国内的一些大型语言模型在特定领域内可能带来了革命性的冲击——例如在知识检索等方面,但至少对于大多数人的日常生活来说,它并未产生最初人们担忧的那种颠覆性影响。
同样地,我认为Sora在短时间内也不会达到让我们能够在模拟中完全重现整个世界,或者说因为有了Sora而让现实世界变得不可信的程度。
在此,我还参考了一些业界大牛或学者的观点:
例如,埃隆·马斯克曾预测,人类可能会在Sora的帮助下创造出近年来最伟大的作品。
学者Jim Fan则认为,Sora可能有助于我们模拟现实世界。
纽约大学的教授盖瑞指出,Sora对于物理规律的模拟尚不够成熟。360创始人认为Sora会极大加速AGI发展。
同时,还有观点认为,Sora可能与大型语言模型(如ChatGPT等)结合,形成一个更大的系统,比如被称作GPT-5或更大的世界模拟器。其中GPT负责对世界的解释,而Sora则根据这些解释进行世界的模拟。
此外,还有看法认为Sora将会经历一系列快速迭代与发展。我认为这些观点都是合理且值得关注的。尽管Sora的长期影响可能是深远的,但在短期内它可能更多地体现为一个有着潜力的工具,而不是立即重塑我们对世界的认识和理解的革命性力量。
尽管我们已经探讨了Sora诸多闪亮的特点,例如它作为技术里程碑的地位、作为人工智能发展的希望,以及对于生成模型未来的重要性,我认为我们必须认识到任何事物都具有双面性。因此,我们有必要审视Sora背后可能带来的风险。
当然,这些风险并非Sora独有,而是所有AI生成内容都可能引发的问题,包括网络诈骗、虚假宣传、对各行各业的冲击,以及引起的版权纠纷等等。今天我们接下来将详细探讨这些潜在的风险,以便全面了解Sora及类似技术可能对我们社会造成的影响。
首先来谈谈网络诈骗的问题。以今年1月份发生的一起案例为例,在香港,一家跨国公司遭受了网络诈骗的攻击。犯罪分子利用AI生成模型模拟了公司高管的形象,并召集公司员工开会,声称有紧急的秘密转账需要处理,并指示员工将资金转移到犯罪分子指定的账户。这起网络诈骗案件最终使不法分子非法获利达2亿港元。
该事件的重要性在于,它提醒我们需要对AIGC技术在网络诈骗中的应用保持警觉。这种犯罪手法在本质上并不新颖,我们在学校期间就可能见过各种反诈骗宣传。例如,如果有人打电话声称自己是你的辅导员或学校领导,并请求你应急转账,这种情况下的反诈骗标语或宣传大家都应该有所了解。在这种情况下,我们大都能意识到这是一起诈骗行为,并会本能地保持警戒。
但是,如果诈骗手法从“耳听为虚”转变为“眼见为实”,很多人可能还没有形成相应的防范意识,或者对这种诈骗手段的防范措施做得不够充分。正如这些被诈骗员工一样,他们可能在收到视频时的第一反应是:“我的高管找我有什么事?”而不是质疑视频中的人是否真的是他们的高管。毕竟,我们通常会下意识地认为所见即为事实,尤其当诈骗者利用视频这种形式来实施诈骗时。这也正是利用AIGC技术实施的高仿真网络诈骗容易得手的原因之一。
第二个风险是虚假新闻和虚假宣传。央视财经曾提出,像Sora这类可以生成深度伪造视频的工具,可能会加剧错误和虚假信息的传播。这种技术可以让公众人物、名人政治家说出他们从未说过的话,做出他们从未做过的事,这种操纵相对来说易于理解。通过AIGC模型,我们甚至可以制作出像美国总统拜登打电话给我们的场景,或者更夸张点,制作出秦始皇打电话的视频。
例如,今年1月份,有人利用女歌手泰勒·斯威夫特公开的数据制作了她的不雅照并加以传播。还有犯罪分子伪造了泰勒·斯威夫特的数字化形象,冒充她在直播中带货,从而诈骗粉丝的金钱。
去年11月份,在印度,有政治人物被使用AIGC技术编造的视频支持了他的敌对力量,造成了较大的社会影响。甚至再往前看,美国白宫在AIGC合成视频中“炸毁”的新闻也不是首次出现。
这些基于AIGC的虚假新闻,包括基于Sora生成的虚假信息,都构成了我们面临的风险。由于这样的虚假新闻具有强烈的迷惑性,它们能在短时间内迅速传播并具备巨大破坏力,对社会秩序构成了严峻的挑战。
第三个我们不可忽视的风险是行业冲击,这也是我刚才提及的,同时也有同学指出的问题。我们认为,随着Sora的出现,所有与图像与视频相关的行业都将遭受冲击。
举图像行业为例,插画师和画家们拥有一些独特而珍贵的特征,即他们的画风。但在AI模型的面前,特别是像Stable Diffusion这些以及Sora这类工具的面前,画风其实是很容易被模仿的。这些模型只需收集一些画家的作品,放入模型中进行训练优化,就能够大量生成类似画家风格的作品。例如CycleGAN只需要几张图片就能够完成最初的模型迭代,实现对画家作品风格的模仿。
甚至在提到的例子中,一位游戏设计师仅仅利用AI工具快速生成了太空歌剧院的作品,而其他画家还在辛苦地一笔一笔绘画。他通过AI生成基础图像,并利用Photoshop进行后期润色,结果轻松超越了其他传统画法的画家。实际上,对于传统的绘画行业,乃至整个图像视频制作领域而言,Sora的出现都可能带来非常大的变革和冲击。
最后,我们需要讨论的是版权纠纷问题。通常情况下,我们认为AI模型生成的作品不享有版权。例如,如果我使用AI绘制一个月亮,一般来说,我们认为我不拥有月亮的版权。但这不意味着训练模型所用的数据没有版权问题。
换句话说,在当前许多大型模型的训练过程中,它们往往是通过网络爬虫直接从互联网上获取大量基础数据,有时候这些数据未经过详尽的清洗,甚至仅进行简单的清洗便直接用于模型训练。
在进行数据清洗时,人们考虑的往往不是数据是否侵犯了版权,而更多的是这些数据是否有助于模型的训练。从版权保护的角度出发,这对于原作品的创作者来说实际上是一种严重的侵权行为。因此,随着AI内容生成技术的发展,版权问题变得越来越复杂,需要我们给予足够的重视和解决。
正如我们在图中所见,左侧是一位艺术家的画作,而右侧展示的则是由Stable Diffusion生成的图像。尽管右侧的图像可能本身不具备版权,但我们认为它可能构成了对左侧画作版权的侵犯,因为两者在相似度上确实非常高。
此外,之前微博上的一个热门话题提到,B站的一则广告可能涉嫌使用AI“洗稿”网易游戏。在这个案例中,广告制作者将网易游戏的素材输入模型中,然后利用该模型生成了一些风格高度一致的图像,这在当时也引起了公众对于AI可能导致的版权侵犯问题的思考。
在前面的部分中,我们想强调一个事实:对Sora生成的内容进行检测是非常必要的。既然我们已经解释了为什么这样做是有必要的,接下来我们将进入我们的核心环节——生成式内容的检测技术。
我们这一节将会从三个点来展开去讲,Sora的检测。首先分享一下它现在有的缺陷,当然这个缺陷也不只是Sora,可能是现在大多数的AI生成模型都会有的一个缺陷。第二和大家分享生成式内容检测技术现有的研究,最后介绍我们团队生成内容检测技术的一些应用和未来的应用情况。
首先,我们来探讨Sora在技术实现上的一些缺陷。从Sora官方发布的视频中,我们可以观察到该技术在模拟物体交互和物理过程上,目前仍未达到完美的水平。
举例来说,在左边的视频中,展示的是杯子倒水和液体流到桌子上的场景。在这个模拟过程中,我们可以看到杯子倾倒动作和液体流动表现并未形成一个统一的,连贯的状态。同样,在右侧视频中,当笔掉落到纸上时,笔落的位置和随后产生的绘画痕迹并没有完全吻合,显示出了细节交互上的不足。因此,可以说Sora在一些细节和交互方面的处理可能仍不够完美。
接下来,我们讨论的是关于局部合理性与整体异常性的问题。举个例子,观察左侧跑步机上男子跑步的视频,我们可以看到他跑步的姿势、与跑步机的接触乃至跑步机的整体形态,在任何一个细节上看似乎都没有太大问题。
然而,当我们从整体上审视这段视频时,便会发现一些奇怪之处——这名男子跑步的方向是相反的。正常情况下,谁会反着跑步机的方向跑步呢?此外,在右侧的视频中,类似于魔术般的场景,考古人员仿佛从沙子中变出了一把又一把的椅子。
这些例子凸显了Sora在处理画面总体语义层面时可能会遇到的问题。虽然在技术原文中也提到了这一点,我个人认为可能是因为在生成过程中缺乏了一些全局约束。导致这种情况的原因可能有两个:
一是前面提到的,生成模型如GPT,它在将用户的输入转化为生成内容时,可能没有充分考虑和翻译整体的语境和方向性。例如,对于左侧视频,如果在生成过程中规定人物跑步的方向应与跑步机的运动方向一致,那么这个问题可能就不会出现。
另一方面,我猜测使用的生成模型结构,如Dit,也可能缺乏全局的、宏观的约束。当然,这些都仅仅是我个人的猜测。
接着讨论内容理解层面的问题。谷歌的Gemini项目对Sora进行了一定的评价,指出了一些潜在的矛盾点。以左侧下雪的视频为例,Gemini指出了几处不符合常理的地方:首先,虽然视频中下着大雪,但樱花却盛开,这在自然条件下是相互矛盾的。其次,雪的下落过于规律,缺乏自然界中的随机性。最后,人们在大雪中的着装显得过于单薄。基于这些观察,Gemini认为这个视频在内容理解的层面存在问题。
同样地,对于下方的小猫视频,Gemini认为猫的眼睛异常放大,而猫的毛皮过于完美,这些都是可能的缺陷。这些问题与之前提到的相似,说明Sora当前生成的视频,实际上并不仅限于Sora,包括其他一些生成模型制造的视频,在宏观语义层面可能并不能完全地符合逻辑。
这一点对我们来说是一个提醒,当我们观看某些视频时,应该仔细推敲它们的真实性。可能我们看到的并不是一个真实拍摄的、逆天离谱的情景,而是可能由于模型在生成过程中并不完美,导致视频出现了一些不合逻辑的内容。
我个人认为,当前的生成模型,尽管它们能够死记硬背并基于已有数据进行猜想,但这种方式和我们人类基于规律总结的认知过程可能不完全一致。让我们先对这个观点达成共识,并统一后续的表述。
我们将“高维空间”定义为在数据维度上较高的概念。以比萨斜塔的铁球实验为例,这里所说的“高维”是指包含了时间、地点以及湿度、温度等一系列复杂因素的现象。正因为涉及的数据维度较高,我在这里将其称为高维的现象。然后我们人类在观察到这种复杂的现象——比如简单来说,两个铁球同时落地——之后,我们会进行思考,这是我们人类试图理解世界的方式。
科学家们在观察了高维现象后,会进行深入的思考和总结,最终得出了什么呢?那就是自由落体定律。我们从复杂多变的现象中,得出了一个简单的规律:速度(v)等于重力加速度(g)乘以时间(t)。
在我看来,这实际上是一个低维空间的理论,因为如果将其图像化,它仅仅是二维坐标系上的一条直线。我们能够将高维的现象映射到低维空间,形成如此简洁的理论,并且更为难得的是,这个低维理论又能反过来约束高维现象。
例如,一旦我们了解了自由落体定律,我们在设想各种下落的现象时,比如纸飞机和铅球,甚至其他物体,我们都会本能地假设它们符合自由落体定律。除非故意,我们的正常想象和联想都会遵守这些定律。实际上,人类总结出的规律,包括物理规律、常识、法律等,构成了一套极其复杂的体系。
我个人认为,以当前的深度学习模型来说,要完全拟合这些规律可能是比较困难的。我们通常认为深度学习更多地拟合的是数据在空间上的分布,但这种拟合很难形成一个绝对的强边界。即使想通过拟合形式,在低维度上形成强约束,再去约束未来生成的画面,短期内对于模型来说也可能是一项挑战。
正如这里所展示的Dit的结构图,可以看到输入的文本在持续约束模型的生成过程,但目前来看可能还是缺乏像人类那样,基于我们所有已知规律去综合约束生成现象的能力。
现在,让我们来讨论关于AIGC的检测问题。首先,AIGC生成的内容大致可以分为两个主要类别:局部替换和全局生成。如果我们以人脸为例,局部替换指的是只更换人脸部分,而全局生成则意味着不仅是脸部,身体和背后的背景都被全部替换,这就构成了整体的生成。目前比较常见的AIGC生成内容载体主要是图像和视频,当然也包括音频。
Sora的检测一般分为两个比较大的类别,一种是基于单帧或者说基于单张图像的一个检测,而一种是基于多帧或者说视频级的一个检测。
在我们后续介绍论文时,将主要以阐述论文的出发点和核心思路为主。首先要介绍的是基于图像单帧的检测思路,这一思路利用图像与文本匹配关系的方式进行检测。所涉及的这篇论文使用了一种名叫BLIP的技术,该技术能够生成图像本身的文本描述以及检测过程中会评估图像和文本之间的重合度。
一般来说,无论是我们的方案还是其他生成模型,它们都是基于文本描述来生成图像的。因此,通常认为生成的图像与自然图像存在区别——它们可能与生成的文本描述更加吻合,而不像自然中的图片那样,不能简单用几句话概括。
第二个检测思路是结合了SRM手工特征和RGB颜色深度特征,来实现Cross-Attention的双流检测机制。关于SRM特征,大家可以将其简单理解为一种边缘或纹理提取器,它的主要作用是强调图像中的纹理和边缘。而RGB特征指的是我们平时所说的颜色空间,即图像的像素特征。
该方法实际上是通过双流机制,其中一个流处理图像的边缘信息,另一个流处理图像的像素信息。通过这种专业的注意力机制来检测图像是否为AI生成。这种双流检测方式充分利用了专业分析的手段,以提高检测AI生成图像的准确性。
第三篇论文介绍的是DIRE方法,这是一种非常经典的检测方法。关于其核心原理,我们可以参考左侧部分的图解说明。最左侧标记为”real”的图可能显示得不太大,我将进一步解释。图中的每张图片都展示了卧室场景,即床和卧室。
最左侧的这张图片,我们可以看到最上面标记为”Source”的是原图。在经过重建(或者说重构)后,通过扩散模型进行重构,其结果与原图存在较大的误差。我们可以看到最下面一行,最左面“real”列的黑色底的图像与右侧其他图片有显著的不同,它在经过重建后与原图产生了很多不一致的地方。而右侧这些由模型生成的图片,在经过一次重建后,并没有与原图产生如此大的差异。
DIRE方法正是基于这个原理,它认为在重构过程中会引入一些独特的DIRE特征。通过这种重构的方式,DIRE能够判断一张图片是否是由模型生成的。
第四种方法是基于图像中纹理的复杂区域与简单区域之间的差异性来进行比对的。这种方法的依据是论文所指出的一个观点:图像中复杂纹理区域与简单纹理区域之间的相关性存在明显差异。因此,对于当前的生成模型来说,纹理复杂的区域是一个较大的挑战。
在这种方法中,对于待检测的图像,研究者会同时提取其纹理复杂区域和纹理简单区域的特征。如同大家可以看到的,它采用了类似于双流形式进行特征对比。通过这种对比,研究者能够进一步判断一张图像是否为AI生成的。这种方法利用了图像纹理差异性的分析,为检测AI生成的图像提供了又一种有效手段。
在介绍了各种多样化的图像检测思路之后,我们转而关注基于视频的一些检测方法。首先,第一个方法是基于时间序列的不一致性进行检测。正如我们之前提到的,有些视频生成方法可能是通过生成关键帧后,再通过插帧技术生成最终的视频。当然,也存在直接通过计算逐帧生成的方法,以及其他各种生成技术。
然而,我们通常认为,这些生成方法产出的视频,无论如何都与用相机实际拍摄的视频存在一定的差异。因此,这篇论文采用了一个完全时间卷积模块,在空间维度上使用1×1的卷积核(这意味着几乎不提取空间特征),以此来提取时间维度上的特征,从而判断一个视频是否为生成视频。
接下来的三种方法有一个相对一致的出发点,因为许多生成视频的目的一般是为了“搞事情”。我们说的这种不怀好意的视频,通常会涉及到人物,人物往往会发言。这些视频可能会让某些人发表一些令人震惊的言论。因此,一些视频检测方法实际上是针对人物进行的检测,主要是为了识别那些带有操纵意图的视频内容。
核心思路在于,视频在生成过程中,其音频与视觉内容通常不是同步生成的。在某些情况下,视频的生成可能是由音频驱动的,而在其他情况下,音频和视频可能是分别独立生成的。正是这种不同步或独立生成的特点,为检测提供了可能的突破口。
这篇论文通过分别提取视频画面(视觉内容)和音频的特征,然后分别对这两种特征进行提取。提取完成后,研究者将计算视觉特征和音频特征之间的相关性或关联度,以此判断视频内容是否为AI生成。通过分析音频和视觉内容之间的同步性或一致性,可以有效识别出生成视频,这是因为生成过程中可能难以精确匹配音频与视觉内容的自然同步性。
通俗地讲,这种检测方法类似于判断说话内容和嘴唇的动作是否一致,有点像是唇语识别的过程。当然,它并不是唇语识别,但在原理上有所类似。可以理解为,首先通过听来获取语音信息,然后观察说话者嘴唇的动作是否与听到的语音相匹配。简单来说,就是检测声音和嘴唇动作之间的同步性,从而推断视频内容是否为人工生成。
这一篇论文的思路与我们宏观的思路是相似的,只不过具体的做法稍微有一点区别。他是提出了一种名为预测视听对其自监督的一个检测方法,它是首先是利用真实视频去训练这种音频和视频的这种对应关系,或者音频和人的画面的对应关系,这个对画面可能大家不要把它局限于嘴,因为你说话的时候不只是嘴在动,你的脸就是包括表情,包括整个人的一些动作,它其实都是有一些变化的。
那么它通过真实视频去训练音频和你画面的对应关系,然后再去指导我们对检测视频或者说对于篡改视频生成视频进行检测的时候去提取这种对应关系,以此来判定一个视频是否会生成的。
这篇论文所采用的检测方法,在宏观上与前述方法相似,但在具体实现上有所区别。该方法首先使用时间-空间编码器嵌入时间空间信息,然后设计了一个多模态联合解码器来融合多模态特征并共同学习内在关系。最后,开发了一个跨模态分类器,用于检测模态间和模态内的不和谐,从而识别操作行为。
接下来,我将给大家介绍一下我们AIGC检测技术的实际应用情况。第一个落地场景是AI商品图的检测问题,简而言之,这就是对买家秀和卖家秀的检测,亦或是我们希望实现买家秀与卖家秀之间的一致性。
在现在AI模型生成图像、视频的时候,在某些场景下,对于细节和一些客观事实的模拟并没有做得十分到位。哪怕是现在,我们已经知道了Sora这一模型,即使在真实世界模拟方面做得非常出色,也仍然有一些不足之处。
因此,我们可以预见,目前现有的一些模型,在细节方面至少不会超越Sora。这话可能听起来有些绝对,但我认为它从一定程度上说明了,在生成过程中会有许多失真现象的发生。
具体来说,传统上我们是如何拍摄模特图的?假设现在我有一件衣服,于是我花钱请一个模特,让他穿上衣服,然后我给他拍照,再将照片上传到我们的平台或店铺,作为商品图,这是常规的做法。
但现在,我们可以怎么做呢?我手持这件衣服的照片,直接使用AI合成技术,让这件衣服仿佛被AI穿在一个模特身上。在这个过程中,必然会存在一些不真实的地方。但如果我是商家,我的目的并不是追求真实,而是追求美观,因为只有商品图看起来足够吸引人,消费者才可能购买我的商品。
因此,有些用户或商家在生成商品图时可能会过度修饰,创造出非常夸张的卖家秀,就像我们图中可以看到的,左边和右边的对比中,一边是公主,一边是村民。我们希望对抗的就是这种极度夸张的买家秀与卖家秀。
因此,我们通过生成内容检测模型,及时给消费者或顾客一个预警,告诉他们正在浏览的商品图可能是AI生成的,请他们注意鉴别。这样一来,当消费者在浏览商品时,如果看到一张可能是AI生成的图片,他们在选择时就不会完全信任所看到的图片,而是能够更有辨识度地看待这些商品图。这就是我们开展这个方向工作的出发点。
第二点,我们要讨论的是关于AI生成的引流内容检测。首先,我来简单介绍一下什么是引流。举个例子,假设我现在想在淘宝上购买某件商品,然后卖家建议我通过添加支付宝好友,并在支付宝上直接转账,以私下交易的方式购买商品,并表示可以便宜我5块钱,这样的做法就可以称之为引流。
传统的引流方式有哪些呢?可能是卖家直接告诉买家通过支付宝转账,或者卖家提供一个二维码让买家扫描添加,一般都是通过这样的直接或间接方式来引流。而这种传统的引流方式,对于我们现在的检测技术来说,相对来说是比较容易被识别的。
但是,随着AI技术的普及,我们可以看到在我们所提供的示例图像中,有些引流的二维码被设计得非常可爱,甚至图片中的云朵都被变造成加微信的样式。这实际上是较为新式的引流手段。在这种情况下,传统的引流检测模型可能就比较难以识别了。
因此,我们基于现有的AIGC检测模型或生成内容的检测模型,针对性地开发了这样的一个模型,我们可以称之为专精模型或定制化模型,用来检测这些AI生成的引流图像,并判定这张图像是否涉及AI引流活动。
这里也和大家分享一下我们现有的AIGC检测模型在检测Sora的表现。大家可以看到,包括那张人脸的图像,还有海龟的视频,我们都以高置信度检测出了它们是AI合成的,这些实例都证明了我们现有方法对于检测Sora是有效的。我们从检测的角度来看,只要生成内容依然是基于扩散模型的框架,我们对其检测就存在可行性,它并不会独立于现有的所有检测方法之外,形成一个全新的类别。
也就是说,因为我们现在的检测模型能够对Sora实施部分召回,我们可以有理由认为,我们目前的AIGC检测框架能够迁移到所有的检测任务上。换言之,一旦Sora模型公开,我们相信只需用部分Sora数据对我们的检测模型进行训练和调优,我们的模型便能够像对其他扩散模型那样,有效地对Sora进行检测。
这意味着,尽管Sora可能带来了新的挑战,但我们的方法并不会因此变得过时,而是可以通过不断的更新和适应,继续保持检测的有效性。
在这里,我想与大家分享一些未来即将应用的场景,这些都还在研究阶段。首先要讨论的是反诈问题。正如前面所提到的,当利用Sora等人工智能生成的视频进行诈骗时,我们可能很难做出防备。
设想一下,如果我们突然接到父母打来的视频电话,告诉我们急需5000块钱,可能因为在外面有急事需要处理。特别是当父母在视频里显得特别急迫,甚至是通过父母的微信号直接打过来的电话,我们很可能在这种情况下失去辨别能力,或者因为事情太紧急而没有时间细致地观察画面中的人是否真的是我们的父母。
这种情形是相对常见的,因为犯罪分子可能会通过压缩时间,采用各种手段来减少我们进行二次验证的可能性。在这种时候,如果我们的防范意识稍弱,或者没有往这方面想,就很可能遭受网络诈骗。
那么,生成内容检测或AIGC检测的意义在哪里呢?在你接到这样一个视频电话,我们的系统能够在屏幕下方弹出一行提示文字,警告你说:“您正在通话的这个人可能是AI生成的,请您注意鉴别。”这样一来,我们的防范意识是否会立即增强,就像在当前发生电信诈骗时的劝阻电话、短信情况一样。这种即时的警示可能会在关键时刻提升我们的警惕性,帮助我们避免成为诈骗的受害者。
在我国,当反诈中心监测到可能发生的网络诈骗时,会立即通过短信或电话提醒公众注意防范,其实这与我们想采用的检测技术的原理是类似的。我们希望通过这种检测技术,在用户可能遭遇网络诈骗,或者在与数字化人物对话时,他们试图欺骗你的情况下,能够给用户一个及时的提醒。
比如说,提醒用户:“你可能正与数字人通话,对面声称是你父母的可能并非你的真实父母。”我们希望实现的是这样一种效果,即在类似情况下能够减少网络诈骗的发生。虽然说完全杜绝网络诈骗可能有所夸张,但我们希望能让绝大多数人在可能遇到诈骗时,能够尽可能辨别出犯罪分子的伎俩。
正如我们提到的,如果在跨国公司的在线会议中,员工如果收到提示:“您正在与视频中的高管通话,该高管可能是数字人,可能是AI模型生成的”,那么他们肯定会暂停当前的工作,首先去核实对方的真实身份。我们的目的是利用Sora的检测能力,以及AIGC检测技术,来防范网络诈骗。
我们坚信,这项技术在网络诈骗的应用场景下,一定能够发挥出色的效果,不仅对平台,对社会整体而言,我们都相信它将是一个有益的应用。
下一个我们即将着手的应用场景是实人认证。此处所说的实人认证可能比较广义,并不仅限于狭义的实人认证场景,而是指对真实人类的认证。举例来说,如今我们使用手机时常常需要刷脸,无论是付款还是进入小区等安防系统,都可能会涉及到人脸识别。甚至在观看直播时,我们通常会下意识地认为屏幕中的主播是真实存在的人。
然而,现在许多实名认证系统其实是在对抗的不是生成的数字人,而是屏幕。换言之,如果我想使用朋友的脸来通过他的手机付款,而我没有他在场的情况下,我可能会用他的视频对准摄像头进行识别。我们之前的防护措施很多都是在对抗这类问题。但对于Sora,用老的检测是否是屏幕那一套来检测它可能就不会有特别好的效果,因为它们的出发点是不一样的。
如果我们的人脸识别系统或者其他直播等场景的安全措施不针对数字人或AI生成的内容进行更新,我们可能会面对AI生成的数字人被网络上当作真实人物的风险。例如,在直播平台上,观众可能会看到一个美丽的女主播,认为她很可爱,但如果我们能在屏幕下方提醒观众她可能是AI生成的,那么至少观众会认识到他们所见的并非真人。
这在观看直播为娱乐时可能没太大问题。但如果涉及到金钱交易,比如带货直播,情况就很严重了。夸张地说,如果有人使用AI生成了像李佳琦等知名主播的脸,并在一些平台上带货,声称这是VIP私密场次,会带来极大的欺骗性。
因此,我们希望能够将数字人检测等技术应用到直播的画面中,以此来确保主播的真实性,无论是对于人脸识别的系统,还是直播平台的安全,我们都希望引入这些检测技术来提高识别真实与虚拟的能力。
实际上,AI生成的内容并不仅限于人物,它甚至有可能是手中的商品都是AI生成的。我们也能够通过AI的方式将一些不寻常的元素插入到直播流中。我们希望通过这种方式,帮助大家判断他们所看到的这个物品或人物是否真实。
此外,就像之前提到的虚假新闻问题,很多新闻中的人物我们并不熟悉,我们无法像联系父母那样简单地进行二次验证。你可能会怀疑特朗普的某条新闻是否真实,但大多数人无法直接拨打电话给特朗普来核实。
那么,当我们看到一些看似荒谬的言论时,如果我们无法鉴别其真伪,我们可能会半信半疑,甚至有些人出于“吃瓜”心态,可能会转发和传播,从而可能引发严重的后果。在这种情况下,如果像微博这样的平台,在我们浏览新闻时,在下方提示一条信息:“您所浏览的这条新闻可能是由AI生成的,请您注意鉴别”,那么大多数假视频的破坏力和传播性都会大大降低。至少,大家都会对这条新闻保持一丝怀疑。这种怀疑一旦埋下,就很难消除。
虚假新闻之所以能够起到破坏作用,正是因为人们难以在第一时间进行验证,以及由于人们的好奇心,传播性和破坏性极强。所以,我们希望也能通过生成内容检测技术,来减少虚假新闻带给大家的困扰,甚至减少它对社会秩序的破坏,以及对个人财产的损失。通过这种技术的应用,我们能够为真实信息的辨识提供更多支持,增强社会的信息鉴别力。
最后,我们要讨论的是版权保护问题。在之前回答问题时提到的关于迪迦奥特曼的情况,可以扩展到包括普通人的人脸在内的各种图片版权问题。我们不希望自己的面孔被某些模型,尤其是商业模型所利用,一下子生成出来,这无疑对我们个人是一种侵权行为。
同理,对于画家而言,他们可能经过长时间的努力创作出一些代表性作品,如果这些作品被直接用于训练模型,从而生成出非常相似的图像,这也构成对版权的侵犯,甚至是隐私的侵犯。
在这种情况下,我们希望能开发出一种新的模型,当我们需要验证某个模型时,这个新模型可以接受两个输入。以迪迦奥特曼为例,假设第一个输入是迪迦奥特曼的图像,第二个输入是灰太狼版奥特曼的图像,我们的模型将能够告诉我们,灰太狼奥特曼是否是基于迪迦奥特曼生成的,或者生成灰太狼奥特曼的模型是否使用了迪迦奥特曼的图像。这是我们在版权保护方面想要实现的目标。
如果我们能够做到这一点,那么无论是在模型生成的过程中,人们的版权意识都将显著提升。此外,在我们发现一些疑似侵权的情况时,我们也可以通过这种方式进行验证,看看是否真的存在侵权行为。毕竟,有时候可能只是巧合,但有时候我们很清楚是侵权行为,只是缺乏有效的手段来证明。
因此,在版权保护方面,我们期望能够通过一个专门的模型来判定某个模型的训练数据是否使用了我们的版权图像,为版权所有者提供一种保护自己作品的有效途径。
从非Sora生成的工作者的角度来去聊一下,未来的路要怎么走,它会给我们带来什么?
在我看来,Sora等工具的出现可能意味着我们能够以低成本高质量地生成图像和视频。举个例子,如果我现在突然需要一幅蓝天白云的画面,通过Sora我就可以非常快速、几乎零成本地生成它。更进一步来说,我认为这是一个将创意快速转化为画面的能力。
以一个实际的案例来说明:之前我在B站看到一个博主讲述了Midjourney对他们创作影响的视频。他提到,在没有生成式模型的时代,他们在视频创作的最初阶段,无论是编剧还是策划,都需要完成最初的文案,然后与导演和其他工作人员交流,达成一致之后才能开始最终的拍摄。
但现在,有了包括Midjourney等工具之后,编剧可以直接通过这些工具,将文案中关键的画面快速具体化出来。还是以蓝天白云为例,编剧可以详细描述天空的蓝色、白云的样式和形状,而不是仅仅用“蓝蓝的天、白白的云、大团的白云”这样模糊的描述。因为简单的几个词汇可能会让不同的人想象出各自不同的画面,但是有了这种工具,编剧的创意可以迅速、准确地变为具体的视觉图像。
在传统的视频创作过程中,不论是沟通的难度还是团队成员之间的理解一致性(同步率),实际上都很难得到保证。现在,他们可以通过Midjourney等工具快速完成一个画面,这个画面符合策划初期或编剧的设想。有了这个具体化的画面,他们就可以与其他同事,包括导演进行沟通,从而极大地提高工作效率。
当时,他们的分享对我产生了很大的冲击和启发。我认为,Sora的出现不应该仅被视为对于图片和视频工作人员的威胁,好像是在“砸他们的饭碗”。实际上,这项技术的提出,无论对他们还是对其他人来说,特别是那些不具备绘画和创作能力,或者不擅长将创意变为实际画面的人,都提供了巨大的便利。
现在,只要有了一个简单的想法,我们都可以通过Sora或通过其他一些工具,将我们的创意变为一个具体的画面或草稿。随着Sora以及越来越多的AIGC技术的出现,我们实际上可以加速创作者从构思到草稿的过程。正如我们之前讨论过的行业冲击的例子,游戏设计师并不是仅凭一个想法或创意就能直接生成图像并赢得冠军。
实际上,正如我们刚才所说,设计师在使用Sora生成图像之后,还需要运用Photoshop等工具,根据自己对作品的理解和审美,进行修改和完善,最终才能形成一个足够优秀的作品。
因此,从积极的角度看,Sora实际上是市场上图像和视频创作领域的一种生产力解放。它可以帮助我们快速形成草稿,如果我们对草稿满意,我们可以在其基础上继续修改;如果不满意,我们也可以轻易地放弃它。我们意识到这个idea可能与我们内心最初的设想有所不同。我认为,我们应当更加关注人类独有的创造力。人的创意是无价的,而且充满无限的可能性。
AI生成的内容可能千篇一律,但是人的创意是无穷无尽的,百花齐放。因此,我认为人的创意是短期内Sora,甚至结合了ChatGPT这样的技术都很难超越的一个领域。
在刚才的提问中,我们还触及到了“知识”这一主题。我个人认为,在短期内,有些领域可能难以被Sora等技术所掌握。这包括对物理规律的全面模拟,以及更深层次的,不同地区的法律法规和习俗等。
每个人都有自己的常识体系,如果我现在想要Sora帮我绘制一张包含阿里巴巴logo的图像,虽然我知道那个logo长什么样,Sora却可能并不清楚。这种常识性的知识,我认为在短期内Sora无法掌握;如果Sora学会了这些知识,可能还会涉嫌侵权问题。
至于细节方面,假设我想用Sora画一张全家福,虽然乍一听似乎没有问题,但是Sora无法精确还原我和我的父母的长相,即使我提供了一张照片作为参考。举个具体的例子,比如我有双下巴,但Sora可能会在生成的图像中忽略这一细节。我认为创意、知识和细节,在短期内是Sora暂时无法完全给予我们的。
因此,我觉得我们应该充分发挥人类在这些方面的潜力。与此同时,那些可以视为相对“低质量”的工作,例如将我们脑海中的初步创意转化为具体草稿,这类工作现在看来可以被认为是较为基础的任务,可以交给Sora来完成。
这也是埃隆·马斯克所说的,在Sora的帮助下,我们可以创造出近年来最棒的作品的原因。我认为这个观点是没有问题的,并且这正是Sora带给我们的一些价值,以及我们应该如何看待Sora的角度。
以图像检测为例,我们目前对Sora生成的图像的召回率还是比较满意的,但是对视频召回率却没有图像来得高。这一点揭示了Sora生成的视频相较于图像包含了更多的后期处理。当然,这些后期处理的具体内容我们目前尚未了解,就如同我们不知道其解码器的结构一样。但是,至少对于常见的视频后处理,如压缩、转码、人为模糊、添加噪声等,我们都希望能逐步克服。
目前,我们在图像后处理上,如JPEG压缩等,已经取得了不错的效果。我们期望在未来能够在视频方面取得更多的突破。至于后期处理,我们的设想是,无论内容是否由Sora或其他AIGC技术生成,不论它在微信上被转发了多少次,甚至无论这张图片被如何裁剪和重组,我们都希望能够将其准确召回。
此外,关于溯源技术,我们刚刚提到了一些主流的生成技术。我们希望能够实现AI检测的溯源能力,特别是随着越来越多的模型的出现,包括那些大家熟知的,像Sora、Midjourney、以及一些像Pika等名声较大的产品,还有很多个人用户训练的模型。在必要时,例如需要追溯某个模型生成的图像的源头,我们希望能够具备这样的溯源能力。
具体来说,我们想要直接判定一张图像究竟是来自哪些公开模型,比如是否来自Sora,或者是来自某个个人的私有模型。当然,这需要我们提前获取到模型生成的一些特征。我们希望能够实现生成技术的溯源,甚至包括在时空域的内容定位,这也是我们未来想要达成的目标。
正如我们之前所提到的,当前的内容生成可以大致分为两类:局部替换和整体生成。对于局部替换而言,这种局部可能是指空间上的局部,例如,观众看到的画面可能只是将某个人的脸替换成了另一个人的脸。
此外,还可能涉及到时间上的局部替换,比如一个10秒钟的视频中,可能只有两秒钟是由Sora生成的。我们希望在未来能够对这种空间上的局部以及时间上的局部进行精确的定位。
此外,我们还考虑到了对抗技术的问题。正如之前有同学提到的,目前大多数生成模型的核心目标并不在于让我们的检测模型检测不出来,而是在于追求更逼真、视觉效果更佳的状态。但是,随着生成效果逐渐达到瓶颈,我相信未来一定会有人致力于开发模型来欺骗我们的检测模型,以达到他们自己的目的。因此,随着对抗手段的增强,我们希望我们的检测模型仍然能够高效、高质量地完成检测任务。
最后,我们讨论到了特定场景下的专精模型。所谓专精模型,是指那些专门针对特定应用场景进行优化的模型。我们已经介绍了一个专精模型,即AI引流内容的检测,这在某种程度上与最通用的检测模型有所不同。在当前情境下,我们希望首先建立一个专门针对人物的专精模型。
人物是许多场景中的关键要素,包括虚假新闻、网络诈骗等,而这些领域往往是AIGC生成内容的重灾区。有时,人脸以及人的肢体动作等并不容易进行修改,因此我们希望能够建立一个对人类进行高精度专业性检测的模型。
我们还计划做一个复杂场景下的定位模型。例如,在复杂内容中,如一张拍摄了数百条鱼的海洋图片,可能其中只有一两条是生成的。我能想到的一个案例是,早年间东北有政策奖励拍摄到野生东北虎的照片。曾有人通过将一张挂历摆放在适当的角度拍摄,误导他人认为拍到了真正的东北虎。
现在,如果有类似的场景,有人在海底照片中插入一条生成的特定样式的鱼,那么尽管画面整体是真实的,但那条鱼却是假的。我们希望能够在这种复杂的内容中,仍然保证对局部内容生成的高精度定位。
此外,我们还希望对动画制作一个专精模型。动画与摄影作品有所不同,因为许多动画实际上是通过Photoshop和其他电子工具绘制的。从像素分布等特性上,它们与照片拍摄的图像确有区别。我们希望能够为动画制作专精模型,这也可能与版权保护有更紧密的联系。
最后,关于商品图的问题也在之前的讨论中提及。我们希望能继续优化我们的商品图模型。如果未来其他业务有新的需求,我们也愿意针对特定的业务需求去训练一个专业模型。检测任务与生成任务有所不同,我们的唯一目标是帮助用户在实际应用场景中识别出一张图片是否由Sora生成。
因此,专精模型非常有其意义,在很多特定的场景下,它能够极大地提高模型的精度和准确度。专精模型针对性强,可以针对特定类型的图像进行深度优化,从而在特定领域内发挥出更好的检测效果。
在此,我想为我们的团队做一番宣传。我们的团队历来积极组织业界顶尖的比赛,并在伪造图像数据方案和场景方面积累了丰富的经验。诸如天池的比赛,以及我们主办的真实场景篡改检测图像挑战赛等,都展示了我们在该领域的专业性。
此外,关于水印技术,它也是我们团队的专长之一。之前有同学提到了如何保护个人隐私数据的问题,实际上通过在数据中主动嵌入水印的方法,也是一种有效的个人数据保护手段。我们团队在这些技术领域的专业知识和技术能力是值得信赖的。
我们团队的视频水印技术已经通过了好莱坞的权威认证,可用于深度伪造视频追溯,现在招聘伪造篡改检测的研究实习生,有兴趣的同学欢迎砸简历过来。
❤️妇女节福利
在三八妇女节来临之际,AAIG将送出贴心好礼,发送关键词“妇女节快乐”到本公众号即可参与抽奖!
📌往期推荐
📖2023生成式人工智能治理系列丛书生成式人工智能的发展以及担忧|生成式人工智能的治理愿景和框架...👉点击查收全文链接
🌟2022人工智能治理系列丛书 精华大图集锦版 | 如何维护电商平台信息真实和竞争公平…👉点击查收白皮书全书连载
🔥《追AI的人》系列直播解读AI背景下的数字水印!|当”巨兽”成为”宠物”!|如何避免ChatGPT被滥用…👉点击查收过往36期直播的全部文字回放
🎈《算法治理制度》系列丛书内容和电商领域推荐算法的应用与治理差异|“大数据杀熟” 的背后…👉点击阅读更多算法治理干货
📺 AI治理科普短视频流量为王的时代,教你如何“破圈”创作 | AI生成图与电影画面傻傻分不清?| 信息茧房和马太效应是什么…👉点击观看往期25期精彩视频
👇AAIG课代表,获取最新动态就找她
关注公众号发现更多干货❤️