AI 视频生成距「GPT时刻」还有多远？

1,165次阅读

作者 | 元帅
编辑 | 高佳
AI 视频生成有多卷？‍‍‍‍‍‍‍‍当前的 AI 赛道，AI 生文、生图应用层出不穷，而AI生成视频领域仍处于相对早期发展阶段，尽管有一些初步尝试和突破，但难以与其他AI生成内容相媲美，它们仍然存在许多问题，抖动、闪现，以及频繁出现的画面跳变，这种“鬼畜”现象很难保证稳定的生成效果。然而最近 Pika 的火热，重新带动了人们对 AI 视频生成的关注，甚至带动创始人父亲的上市公司接连涨停。科技媒体们争相报道，都把 Pika 视作“AI 视频鼻祖”Runway 强有力的竞争者。Runway 是市场公认更为成熟的 AI 视频生成工具，去年热门影片《瞬息全宇宙》在制作中就用到了后者的技术。 AI 视频生成距「GPT时刻」还有多远？

一众看好伴随而来的是炒作质疑，有人担心 Pika 1.0 存在过度宣传或夸大技术能力，导致公众对 AI 视频产生不切实际的期望。显然，Pika 官方注意到了这些不同的声音，在上周紧急放出一波用户的内测视频，效果跟宣发同样惊艳，击碎外界的指责，口碑瞬间反转！事实上，AI 文生视频领域的竞争最近正变得日益活跃，背后参与者不仅包括高校和科研团队，还涵盖了多家科技巨头和风头正劲的AI初创公司。在海外，Runway、Pika Labs、Meta（Emu Video）、李飞飞团队的 AI 文生视频战争正打得火热，比拼谁生成的效果更稳定、更惊艳；在国内，字节、美图秀秀等互联网企业也在暗暗较劲，纷纷布局 AI 文生视频工具成果。那么，Pika 的发布，是否意味着最强 AI 文生视频工具即将易主？AI 视频为何突然爆发，竞争力在哪里，给圈内带来哪些启发？之前被制约发展的关键因素有哪些，又是如何破局的？是否标志着这一领域的杀手级应用已经诞生，“GPT 时刻”已经到来？未来又会朝着什么方向演进？

01. 干掉 Runway？

为何成立刚过半年的 Pika，突然这么被追捧？短短 7 个月，Pika 已累计完成 3 轮、成功拿到 5500 万美元的融资，估值已超 2.5 亿美元。投资人中不乏 OpenAI 科学家、“政变”之后仅存的董事会成员，难道其真的掌握了“科技与狠活”？今年 4 月份，创始人郭文景才和同学从斯坦福博士辍学创办 Pika，他们希望打造更容易使用的 AI 视频生成器，让每个人都能成为自己故事的导演。

AI 视频生成距「GPT时刻」还有多远？

此前产品的效果跟 Runway 比不了，只是在搞视频的圈子里小有名气。要不是凭借免费模式圈了一波忠诚用户，不会有这么多人使用它。目前社区用户达到 50 万，每周制作数百万个视频，其 Discord 服务器人数超过 16 万。为此，Pika 已经租用了数百个量级的 GPU。从 11 月 29 日开始，关于 Pika 的创业报道突然铺天盖地。官方宣布推出其首款视频生成产品——Pika 1.0，极大地降低了使用门槛，官方甚至宣称只需要简单的打字就可以开始使用，即“Start just by typing（只要打字就能开始）”，其对语义理解的准确度和画面的精细效果超出业界预期。据悉 Pika 计划在明年实现商用，可以帮助用户生成可用性较高的素材和视频片段，预计视频时长将比目前长几倍，但仍然会控制在 1 分钟以内。就在许多人猜测 Pika 获得融资后，为扩大影响力而主动对外进行宣传之际，拿到评测资格的创作者透露，Pika 1.0 支持 3 种方式生成视频：文生视频、图生视频、视频转视频，感觉完全重新做了一个模型，最擅长 2D、3D 动画。 AI 视频生成距「GPT时刻」还有多远？除了视频转视频以外，文生图、文生视频、图生视频等效果都非常强。他通过文字下指令，只花了 1 分钟就生成一个完全匹配上皮克斯水平的动画，神情、稳定性爆杀市面上所有的 AI 视频。看来，Runway 的劲敌真的来了！然而，郭文景在福布斯专访中却表现得很谦虚，她并不打算与这个领域的强大竞争对手（比如 Adobe、Runaway）为敌。“我们跟他们不同，不是要为电影制作打造产品。”“我们试图为日常消费者做更多的事情 —— 像我和 Meng 这样的人，他们本质上是创作者但又不那么专业。”与 Runway 同时服务 C 端消费者和企业的做法不同，Pika 希望专注于为C端普通消费者打造产品，以此做出差异化，拉开与其他竞品的距离。目前 Runway 可免费试用、定价 12 美元/月，而 Pika 为免费产品，不过后续也会考虑订阅收费模式。

02. 实力玩家激战正酣

随着短视频、社交媒体营销中的视频内容以及创作者经济的崛起，越来越多的新兴剪辑产品开始出现并且展现出势能。
目前，视频编辑的需求会更强于生成。像字节跳动的 CapCut （剪映）在海外市场同样受到欢迎，已突破亿级用户。AI 在后期制作和剪辑环节中的高效率已经表现得非常显著，使得视频创作在这个环节发生了明显的变化。普通用户不需要在下载传统剪辑软件、花时间学习课程，就可以通过浏览器或移动端 App 使用轻量化 AI 剪辑功能。

AI 视频生成距「GPT时刻」还有多远？

从风险投资公司 a16z 此前的统计，也能得出这样的结论，即视频编辑功能在这类应用中仍占据了相当重要的地位。a16z 统计的六个视频 AIGC 应用中，只有两个应用是专注于视频生成的，分别是 Runway 和 Kaiber。而剩下的应用则都包含了一定的视频编辑功能，这些功能包括但不限于利用现有素材进行再创作（如 D-ID 和 Fliki），以及进行视频剪辑（如 Kapwing 和 Veed）。不过，随着拍摄成本的不断上升，使用生成的内容作为替代方案变得越来越有吸引力，也就是说视频生产环节也在发生变化。据公众号“海外独角兽”总结，推动这一趋势的产品主要分为两类：1）HeyGen、Sythesia 等数字人产品（有固定模版，只改变局部画面）；2）Runway、Pika Labs 等视频生成产品（依照文字、图片等生成全新视频）。AI 生成视频领域在最近呈现出前所未有的活跃态势，各种模型纷纷扎堆进行更新。尤其上个月开始，AI 文生视频竞争变得非常激烈，是一个巨大飞跃。

10 月，初创企业 Moonvalley 由 AI 图/文生成转向 AI 视频生成，推出号称“史上最强大的视频生成 AI”，一句提示词就能生成 16:9 电影画质的高清视频。
11月3日，Runway宣布其AI视频生成工具Gen-2更新，分辨率提升至4K，大幅提高保真度和一致性；一周后，又紧急推出运动画笔功能，强化视频局部编辑能力。
11 月 16 日，Meta 宣布推出两款 AI 驱动的生成模型—— Emu Video 和 Emu Edit，其中 Emu Video 利用 Meta 之前的 Emu 模型，能够基于文本和图像输入生成视频剪辑；而 Emu Edit 则专注于图像处理，承诺在图像编辑方面提供更高的精确度。
11 月 22 日，AI 绘画走红的 Stability AI 发布了其最新 AI 模型 Stable Video Diffusion，能够通过现有图片生成视频，是基于之前发布的 Stable Diffusion 文本转图片模型的延伸，也是目前为止市面上少数能够生成视频的 AI 模型之一。
11 月 28 日，AI 视频工具 Pika 1.0 发布，具有文生视频、用文字完成视频局部编辑等功能，效果媲美 Runway 的 Gen-2。
12月12日，李飞飞及其学生团队与谷歌合作，推出了AI视频生成模型W.A.L.T（窗口注意力潜在Transformer ，Window Attention Latent Transformer），可以通过自然语言提示生成3秒长的每秒8帧、分辨率达512×896的逼真视频；可以让一张静图变为生动活泼的动图；还能生成3D摄像机运动的视觉效果。

AI 视频生成距「GPT时刻」还有多远？

可以说，AI 技术的发展和应用正在推动视频创作的各个环节发生变革，为创作者带来更多的可能性。过去，AI视频应用主要局限于企业（B端）市场和专业创作者，这在一定程度上限制了其在商业领域的广泛发展和应用。Pika类应用的爆发意味着，传统内容创作者可以利用 AI 工具提高工作效率，同时非专业人士也有了更多的机会尝试内容创作，进一步打开C端市场，扩大了AI 视频的商业化空间。据中信建投总结，“AI+视频”不仅是一种 AI 应用，更是 LLM 后 AI 新基建能力：1）To C，降低 UGC 门槛，有望出现“AI 时代的抖音”或视频版妙鸭产品。2）To B，在电商、教育等场景降本增效；长期在影视、游戏制作空间大。

03.

AI 视频“GPT 时刻”仍未到来

得益于过去大模型技术的持续改进，文本生成、图像生成、语言翻译和音频生成等已经被广泛应用于多个领域，这些已经逐渐进入了成熟期。比如前段时间有几个 AI 配音的生成音频就刷爆了网络，赵本山说英文、霉霉讲中文。背后使用到的 AI 生成工具是 AI 数字人 HeyGen。

尤其在图像生成领域比 ChatGPT 等文本生成的大模型成熟期还要早，如 Midjourney、DALL·E 3 和 Stable Diffusion 等模型，它们能够根据文本描述生成高质量的图像。相对而言，视频生成普及程度并不高。在视频生成方面，尽管有一些模型如 DALL·E 3 和 Midjourney 提供了动画制作的工具，但整体上文生视频的技术发展相比于图像生成要慢一些。反过来看，这也意味着 AI 视频仍处于爆发前夕，充满了巨大的潜力和机会。在大模型技术的加持下，视频生成的成熟度和用户规模也开始追赶上来了。视频生成能在短时间内追上来，说明技术的门槛在降低。 AI 视频生成距「GPT时刻」还有多远？要知道，成立短短半年多的 Pika 一夜爆红，已拿到 3 轮融资；而鼻祖 Runway 早在 2015 年就是一家 AI 初创公司了，其融资也才到 D 轮，估值达 15 亿美元。那么，AI 视频的“iPhone 时刻”或者杀手级应用到来了么？Pika 很自信，认为“GPT 时刻”很快就会到来，明年就能看到了！“我希望明年就可以实现。给用户的感受就像 ChatGPT、Midjourney v5 那样，有一个显著提升。”Pika 创始人郭文景接受采访时表示。实事求是地说，目前的 AI 文生视频赛道的难度仍很大，尤其难以解决画面变得稳定的抖动问题。这跟早期的手绘动画很相似，都是先绘制很多帧静止的图像，之后将这些图像连接起来，并通过一帧帧图像的渐变，实现画面的运动。由于目前的 AI 文生视频技术，还无法准确地确定关键帧，这导致了画面抖动和不稳定的生成效果。再加上当前人们依然会为 Adobe 等传统软件支付费用，但视频生成类的用户付费比例还很低，盈利模式的可持续性受到挑战。显然，我们也要清楚大模型的边界在哪儿。不要高估大模型的能力，它有很多事情还做不了。当下，生成式 AI 视频工具将大批量产生短剧系列，但困于技术短板，时长、清晰度、流畅度还都很有限，对于长视频的影视剧影响还较小。 AI 视频生成距「GPT时刻」还有多远？如爱奇艺创始人、CEO 龚宇最近谈及 AIGC 对内容行业的挑战：明显开始对我们这个行业产生了影响，虽然在工作流程中只参与其中一两个环节，它创意的作品套路、商业价值很低，现在的水平和我们这个产业的要求相距甚远，但是未来 3-5 年很可能发展成为主流工作方式。因此，虽然 Pika 的出现让人们对 AI 文生视频充满了期待，但是 AI 文生视频技术距离人们期望中的理想效果，还有很长的路要走。由此可见，眼下 AI 视频的 iPhone 时刻、GPT 时刻，或者说 All- in-one 杀手级应用尚未到来。
结语Pika 文生视频 AI 应用的出现，给 AI 生成式视频添了一把旺火，再次燃起了人们对 AI 文生视频赛道的关注。这背后源于 GPT-4V 等多模态大模型的推出，基于扩散模型的 Dalle-3、Midjourney 和 Stable Diffusion 等技术的功能不断增强，势必对对影视、娱乐和广告营销创意等行业产生了巨大的影响，甚至可以说是颠覆。那么，这距离人们期望中的AI 视频理想效果还有多远呢？无论是企业级还是消费级，AI 视频的前景都面临着巨大不确定性。同时还存在不少现实挑战，如版权问题、原创性保护以及如何确保 AI 生成内容的质量和合规性等。尤其是投资者更关心 AI 能否带来实际的经济效益，运行高级 AI 模型的 AI 算力成本可能是一个障碍，这些模型需要大量的计算资源，用户量不断增长，算力成本也会相应地增加。

AI 视频生成距「GPT时刻」还有多远？

不过，有了一众投资人支持，尤其还有 OpenAI 闹剧之后唯一留任的董事会成员以及前科学家的靠山，Pika 毫无疑问是一只潜力股，其有望成为“AI 时代的抖音”。因为它提供了类似抖音的短视频创作平台的功能，但更加智能化和自动化。对于普通用户来说，这种 AI 视频生成工具使得制作短视频变得简单，不再需要专业的视频制作知识和技能。总之，视频 AI 的崛起确实标志着人工智能竞争进入了下一阶段。在这个阶段，各大公司和研究机构都在积极布局视频 AI，以争夺在这一领域的竞争优势。随着技术的不断发展，我们可以期待在未来看到更多创新性的产品和应用。我们期望那一天的到来，即未来Transformer或其他某种算法能够精准地预测下一帧内容，那么我们将迎来全新的视频模型，这样的技术突破有可能催生出下一个如抖音般炙手可热的内容平台。

AI 视频生成距「GPT时刻」还有多远？

我是朋克又极客的AI算法小姐姐rumor北航本硕，NLP算法工程师，谷歌开发者专家欢迎关注我，带你学习带你肝一起在人工智能时代旋转跳跃眨巴眼

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

AI 视频生成距「GPT时刻」还有多远？

01.

干掉 Runway？

02.

实力玩家激战正酣

03.

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定