“文生视频”新玩法：时长能超5分钟｜大模型周报

1,230次阅读

本周值得关注的大模型 / AIGC 前沿研究

“文生视频”新玩法：时长能超 5 分钟
克服数据限制，构建高质量视频扩散模型
苹果新研究：大型自回归图像模型的可扩展预训练
InstantID：秒级零样本保真生成
T2VScore：为文生视频制定更好的衡量标准
快速、多样的文本到 3D 生成
当智能体遇见 6G 网络
小模型是弱工具学习者：多语言模型智能体
MultiPLY：多感官具身大模型
综述：幻觉检测与幻觉减轻
微软新研究：RAG 和微调的利与弊
RoTBench：评估大模型在工具学习中的鲁棒性
基于大模型的教育系统：基础能力、潜力和挑战
ChatQA：与 GPT-4 水平相当的对话式 QA 模型
DiffusionGPT：语言大模型驱动的文生图像系统
自我奖励语言模型

1.“文生视频”新玩法：时长能超 5 分钟

与几秒钟的短视频不同，vlog 通常包含一个复杂的剧情和多样化的场景，这对大多数现有的视频生成方法来说是一个挑战。为此，该研究提出了一个通用的 AI 系统 Vlogger，用于生成用户描述的分钟级 vlog。

“文生视频”新玩法：时长能超5分钟｜大模型周报

据介绍，Vlogger 可以智能地利用大型语言模型（LLMs）作为导演，并将 vlog 的长视频生成任务分解为四个关键阶段，调用各种基础模型来扮演 vlog 专业人员的角色，包括剧本、演员、视频制作师和配音师。通过模拟人类的行为，Vlogger 可以通过自上而下的规划和自下而上的拍摄来生成 vlog。

此外，研究者们提出了一个视频扩散模型—— ShowMaker。它在 Vlogger 中担任摄像师，用于生成每个拍摄场景的视频片段。通过将剧本和演员作为文本和视觉提示融入其中，它可以有效地增强片段中的空间-时间连贯性。此外，研究者们为 ShowMaker 设计了简洁的混合训练范式，以提升其在 T2V 生成和预测方面的能力。

大量的实验表明，这一方法在零样本 T2V 生成和预测任务上实现了最先进的性能。更重要的是，Vlogger 可以从开放世界的描述中生成超过 5 分钟的 vlogs，且在剧本和演员方面没有损失视频连贯性。

论文链接：

https://arxiv.org/abs/2401.09414

2.克服数据限制，构建高质量视频扩散模型

文生视频模型根据给定的提示制作视频。一些商业视频模型已经能够生成具有最小噪声、出色细节和较高审美分数的可信视频。这些模型依赖于大规模、经过良好过滤的高质量视频，但这些视频却并不面向大众。现有的许多研究使用低质量的 WebVid-10M 数据集训练模型，也很难生成高质量的视频。

腾讯 AI Lab 团队探索了从 Stable Diffusion 扩展而来的视频模型的训练方案，研究了利用低质量视频和合成高质量图像获得高质量视频模型的可行性。

研究者们分析了视频模型的空间和时间模块与低质量视频的分布转移之间的联系。与只训练时间模块相比，全面训练所有模块可以导致空间模块和时间模块之间更强的耦合。基于此，使用高质量图像对空间模块进行微调，将分布转移到更高质量且无运动降级的视频上，从而形成通用的高质量视频模型。

论文链接：
https://arxiv.org/abs/2401.09047

3.苹果新研究：大型自回归图像模型的可扩展预训练

苹果研究团队介绍了一种名为 AIM（Autoregressive Image Models）的视觉模型集，它通过无监督的自回归预训练学习视觉特征，可以轻松扩展到数十亿参数规模。该研究有两个关键发现：（1）模型性能随着模型容量和数据量的增加而提升；（2）目标函数的值与模型在下游任务上的性能相关。

研究人员通过在 20 亿张图片上预训练一个 70 亿参数的 AIM 模型来验证这些发现的实际意义，该模型在 ImageNet-1k 上达到了 84.0% 的准确率，且在此过程中模型的主干部分是固定的。

值得注意的是，即使在这个规模上，研究人员也未观察到性能饱和的现象，这表明 AIM 可能代表了大规模视觉模型训练的新前沿。此外，AIM 的预训练类似于 LLMs 的预训练，不需要任何图像特定的策略来稳定大规模训练。

“文生视频”新玩法：时长能超5分钟｜大模型周报

论文链接：
https://arxiv.org/abs/2401.08541

4.InstantID：秒级零样本保真生成

在个性化图像合成方面，诸如文本反转（Textual Inversion）、 DreamBooth 和 LoRA 等方法已经取得了重大进展。然而，这些方法的实际应用受到了高存储需求、漫长的微调过程以及需要多张参考图像的限制。

相比之下，现有的基于 ID 嵌入的方法虽然只需一次前向推理，但也面临挑战：要么需要对大量模型参数进行广泛的微调，要么与社区预训练模型不兼容，要么无法保持高面部真实性。

为了解决这些限制，研究人员提出了 InstantID，这是一个基于扩散模型的解决方案。其即插即用模块能够仅使用单张面部图像就巧妙地处理各种风格的图像个性化，同时确保高保真度。为了实现这一点，研究人员设计了一个 IdentityNet，通过强语义和弱空间条件的结合，将面部图像和地标图像与文本提示相结合，引导图像生成。

InstantID 展示了优异的性能和效率，在需要保持身份真实性的实际应用中非常有价值。此外，InstantID 可以作为一个可适配的插件，能够与流行的预训练文本到图像扩散模型（如 SD 1.5 和 SDXL）无缝集成。

“文生视频”新玩法：时长能超5分钟｜大模型周报

论文链接：
https://arxiv.org/abs/2401.07519

5.T2VScore：为文生视频制定更好的衡量标准

当前，文生视频模型可以制作出视觉效果极佳的视频，显示出了令人印象深刻的能力。然而，对这些视频进行评估却面临着巨大的挑战。

目前的研究主要采用自动指标，如 FVD、IS 和 CLIP Score。然而，这些指标提供的分析并不全面，尤其是在视频内容的时序评估方面，因此它们并不能可靠地反映真正的视频质量。此外，虽然用户研究有可能准确反映人的感知，但由于其耗时耗力的性质，这些研究结果往往受到主观偏见的影响。

研究人员分析了现有指标固有的局限性，并提出了一个新的评估流程——文本到视频分数（T2VScore）。该指标整合了两个关键标准：（1）文本-视频对齐，即仔细检查视频在表达给定文本描述时的保真度；（2）视频质量，由多位专家对视频的整体制作水平进行评估。此外，为了评估所提出的衡量标准并促进未来对其进行改进，该研究提出了 TVGE 数据集，收集了人类对 2543 个 AI 生成的视频在这两个标准上的判断。

“文生视频”新玩法：时长能超5分钟｜大模型周报

论文链接：
https://arxiv.org/abs/2401.07781

6.快速、多样的文本到 3D 生成

尽管生成建模技术取得了令人瞩目的最新进展，但根据文字提示高效生成高质量 3D 资源仍然是一项艰巨的任务。一个关键的挑战在于数据稀缺：最广泛的 3D 数据集包含仅数百万个资源，而 2D 数据集则包含数十亿个文本-图像对。

为了解决这个问题，研究人员利用预先训练好的大型 2D 扩散模型，提出了一种新方法 HexaGen3D，该方法会对预先训练好的文本到图像模型进行微调，以联合预测 6 个正交投影和相应的潜在三平面，然后对这些潜影进行解码，生成纹理网格。

HexaGen3D 不需要对每个样本进行优化，可在 7 秒内从文本提示中推断出高质量和多样化的对象，与现有方法相比，在质量与延迟的权衡方面有明显优势。此外，HexaGen3D 对新物体或新组合具有很强的通用性。

“文生视频”新玩法：时长能超5分钟｜大模型周报

论文链接：
https://arxiv.org/abs/2401.07727

7.当智能体遇见 6G 网络

基于多模态大型语言模型（LLMs）的 AI 智能体预计将彻底改变人机交互方式，并在医疗、教育、制造和娱乐等各个领域提供更加个性化的助理服务。

在 6G 网络中部署 LLMs 智能体，可以使得用户民主地通过移动设备访问以前昂贵的 AI 助手服务，从而降低交互延迟并更好地保护用户隐私。然而，移动设备的有限容量限制了部署和执行本地 LLMs 的有效性，这就需要在长期交互过程中将复杂任务卸载（offloading）给运行在边缘服务器上的全局 LLMs。

研究人员提出了一个针对 6G 网络中 LLMs 智能体的分布式学习系统，利用移动设备和边缘服务器之间的协作，多个具有不同角色的 LLMs 分布在移动设备和边缘服务器上，以协作执行用户-智能体交互任务。在所提出的系统中，LLMs 智能体被分为感知、定位和对齐模块，促进模块间通信，以满足 6G 网络功能上的扩展用户需求，包括综合感知与通信、数字孪生和面向任务的通信。

此外，研究者还介绍了该系统中用于 LLMs 的新型模型缓存算法，以改进上下文中的模型利用率，从而降低协作移动和边缘 LLM 智能体的网络成本。

“文生视频”新玩法：时长能超5分钟｜大模型周报

论文链接：
https://arxiv.org/abs/2401.07764

8.小模型是弱工具学习者：多语言模型智能体

大型语言模型（LLMs）智能体显著扩展了独立 LLMs 的能力，使它们能够与外部工具（比如，APIs、functions）互动，并以自主的方式完成复杂任务。

工具使用的挑战要求 LLMs 不仅要理解用户查询并生成答案，还必须在任务规划、记忆管理、工具调用和结果总结方面表现出色。传统方法专注于训练一个具有所有这些能力的单一模型，但随着模型的变小，性能限制变得明显。此外，当工具更新时，整个模型可能需要重新训练。

为了克服这些挑战，研究者们提出了一个新颖的策略，将上述能力分解为规划器、调用器和汇总器。每个组件由专注于特定能力的单个 LLM 实现，并与其他组件协作以完成任务。这种模块化框架便于个别更新，并有可能使用较小的 LLM 来构建每个能力。为了有效地训练这个框架，研究者们提出了一个两阶段的训练范式。首先，在不区分子任务的情况下，对整个数据集的主干 LLM 进行微调，让模型全面了解任务。其次，微调后的 LLM 分别用于实例化规划器、调用器和汇总器，它们在各自的子任务上不断进行微调。对各种工具使用基准的评估表明，这一多 LLM 框架超越了传统的单 LLM 方法，凸显了其在工具学习方面的功效和优势。

“文生视频”新玩法：时长能超5分钟｜大模型周报

论文链接：
https://arxiv.org/abs/2401.07324

9.MultiPLY：多感官具身大模型

人类具备在积极探索和与 3D 世界互动时将多种多感官线索综合起来的能力。然而，当前的多模态大型语言模型（LLMs）被动地吸收感官数据作为输入，缺乏主动与 3D 环境中的对象互动以及动态收集它们的多种感官信息的能力。

为此，研究者们提出了一个多感官的具身大型语言模型——MultiPLY，它能够将视觉、听觉、触觉和热信息等多种感官互动数据整合到 LLMs 中，从而建立词语、行动和感知之间的关联。

研究者们首先收集了一个包含 50 万条数据的多感官互动数据集——Multisensory Universe，这些数据是通过部署一个由 LLM 驱动的具身智能体与三维环境互动来收集的。为了在这样生成的数据上使用预训练的 LLM 进行指令微调，研究者们首先将 3D 场景编码为抽象化的以对象为中心的表示，然后提出行动 token，表示具身智能体在环境中采取了某些行动；以及状态 token，表示智能体在每一步的多种感官状态观察。在推理时，MultiPLY 能够生成行动 token，指示智能体在环境中采取行动并获得下一个多感官状态观察。观察结果随后通过状态 token 附加回 LLM，以生成后续的文本或行动 token。

该项研究通过涉及物体检索、工具使用、多感官字幕和任务分解的多样化具身任务集合展示了 MultiPLY 相较于基线的显著性能提升。

“文生视频”新玩法：时长能超5分钟｜大模型周报

论文链接：
https://arxiv.org/abs/2401.08577

10.综述：幻觉检测与幻觉减轻

在过去两年中，尽管 ChatGPT 、 Bard 和 Llama 等大型语言模型（LLMs）在各种不同应用中取得了显著的成功，但仍存在一些问题限制了 LLMs 的广泛应用。

一个关键的问题是幻觉问题。幻觉指的是除了正确回答之外，LLM 还可以生成看似正确但与事实不符的回答。这项研究全面回顾了当前关于幻觉检测和幻觉减轻的文献，为对 LLMs 感兴趣并将其应用于实际任务中的工程师和研究人员提供了良好的参考。

论文链接：
https://arxiv.org/abs/2401.08358

11.微软新研究：检索增强生成（RAG）和微调的利与弊

在构建基于大型语言模型（LLMs）的应用程序时，开发者通常会采用检索增强生成（RAG）和微调（Fine-Tuning）这两种方法，来整合专有数据和特定领域数据。RAG 利用外部数据增强提示，而微调则将附加知识纳入模型本身。然而，人们还不清楚这两种方法的利弊。

微团研究团队提出了一个 RAG 和微调的 pipeline，介绍了这两种方法在多个流行 LLMs（包括 Llama2-13B、GPT-3.5 和 GPT-4）中的权衡（tradeoffs）。这一 pipeline 包括从 PDF 中提取信息、生成问题和答案、使用它们进行微调、利用 GPT-4 评估结果等多个阶段。研究人员通过对一个农业数据集进行深入研究，提出了评估 RAG 和微调 pipeline 不同阶段性能的指标。

AI 对农业的渗透率并不高，当为农民提供针对特定地点的见解，结果会怎样呢？研究结果表明，数据集生成 pipeline 在捕捉特定地理位置知识方面非常有效，这证明了 RAG 和微调在定量和定性效益方面的优势。在对模型进行微调时，准确率提高了 6%；与 RAG 相加，准确率进一步提高了 5%。在一个特定实验中，研究者证明了微调模型可以利用跨地域信息来回答特定问题，将答案相似度从 47% 提高到 72%。

该研究提出了使用 LLMs 构建的系统如何适应并融合特定行业的知识维度，为 LLMs 在其他工业领域的进一步应用铺平了道路。

论文链接：
https://arxiv.org/abs/2401.08406

12.RoTBench：评估大模型在工具学习中的鲁棒性

作为大型语言模型（LLMs）与物理世界互动的重要手段，工具学习已经引起了广泛的兴趣。当前的研究主要强调 LLMs 在结构良好环境中的利用工具的能力，而忽略了它们在面对真实世界的不可避免的噪声时的稳定性。

为了评估 LLMs 在工具学习中的鲁棒性，来自复旦大学的研究团队提出了一个多级基准测试集——RoTBench。

具体来说，研究者们建立了五个外部环境，每个环境都具有不同程度的噪声（即，干净、轻微、中等、严重和综合），深入分析了该模型在工具选择、参数识别和内容填充三个关键阶段的恢复能力。涉及六个广泛使用的模型的实验强调了增强 LLMs 在工具学习中的鲁棒性的紧迫必要性。例如，GPT-4 的性能甚至从 80.00 下降到 58.10，当手动准确度没有实质性变化时。更令人惊讶的是，GPT 系列内置的噪声校正能力实际上阻碍了它在面对轻微噪声时的适应性。

鉴于这些发现，该项研究提出了 RoTTuning 策略，通过丰富训练环境多样性来增强 LLMs 在工具学习中的鲁棒性。

“文生视频”新玩法：时长能超5分钟｜大模型周报

论文链接：
https://arxiv.org/abs/2401.08326

13.基于大模型的教育系统：基础能力、潜力和挑战

为了提供便捷的教育服务，在线教育平台利用互联网分发教育资源，但通常在实时与学生沟通方面存在不足。由于难以解决学生在学习过程中遇到的多样化障碍，这些平台往往难以提供个性化的教育资源。

最近，大型语言模型（LLMs）为通过理解单个请求来解决这一问题提供了可能。尽管 LLMs 在各种领域取得了成功，但因为教育领域所需的各种技能范围广泛，创建一个基于 LLMs 的教育系统仍然具有挑战性。

这项研究回顾了最近涌现的与教育能力相关的 LLMs 研究，包括数学、写作、编程、推理和基于知识的问题解答，从而探索它们在构建下一代 AI 教育系统中的潜力。基于当前的发展状况，进一步概述了基于 LLMs 的教育系统的两种方法：统一法和专家混合（MoE）方法。

此外，该研究还探讨了面临的挑战和未来的方向，为 LLMs 适应于教育提供了新的研究机会和视角。

“文生视频”新玩法：时长能超5分钟｜大模型周报

论文链接：
https://arxiv.org/abs/2401.08664

14.ChatQA：与GPT-4水平相当的对话式QA模型

来自英伟达的研究团队提出了 ChatQA ——一个可获得 GPT-4 级别准确度的对话式 QA 模型。

该研究提出了一种两阶段指令微调方法，可显著改善大型语言模型（LLMs）的零样本对话式 QA 结果。为了处理对话式 QA 中的检索问题，研究人员在一个多轮 QA 数据集上对密集检索器进行了微调，其结果与使用最先进的查询重写模型相当，同时大幅降低了部署成本。

ChatQA-70B 模型在 10 个对话式 QA 数据集的平均得分上可以超越 GPT-4（54.14 vs. 53.90），而且没有依赖任何来自 OpenAI GPT 模型的合成数据。

“文生视频”新玩法：时长能超5分钟｜大模型周报

论文链接：
https://arxiv.org/abs/2401.10225

15.DiffusionGPT：语言大模型驱动的文生图系统

扩散模型为图像生成领域开辟了新的途径，大量高质量模型随之在开源平台上共享。然而，目前的文生图系统仍面临着一个重大挑战——通常无法处理各种输入，或仅限于单一模型结果。目前的统一尝试主要涉及两个独立的方面：一是在输入阶段解析多样化的提示；二是激活专家模型进行输出。

来自字节跳动和中山大学的研究团队结合两者的优点提出了 DiffusionGPT，它能够利用 LLM 提供一个统一的生成系统、无缝地适应各种类型的提示并整合领域专家模型。DiffusionGPT 根据先验知识为各种生成模型构建领域特定的树。当提供输入时，LLM 解析提示并使用思维树来指导选择合适的模型，从而放宽输入限制，确保在多样化领域中的卓越性能。此外，研究人员引入了优势数据库，通过人工反馈丰富了思维树，使模型选择过程与人类偏好相一致。

通过广泛的实验和比较，该研究展示了 DiffusionGPT 的有效性，及在多样化领域中推动图像合成边界的潜力。

“文生视频”新玩法：时长能超5分钟｜大模型周报

论文链接：
https://arxiv.org/abs/2401.10061

16.自我奖励语言模型

为了实现超越人类的智能体，未来的模型需要超越人类水平的反馈，从而提供足够的训练信号。当前的方法通常是从人类偏好中训练奖励模型，这可能会受到人类表现水平的限制。而且，这些单独的冻结奖励模型在 LLM 训练期间也无法学习和改进。

为此，来自 Meta 公司和纽约大学的研究团队提出了自我奖励语言模型（Self-Rewarding Language Models）。在训练过程中，语言模型本身通过 LLM-as-a-Judge 提示来提供自己的奖励。研究表明，在迭代 DPO 训练过程中，不仅模型的指令遵循能力有所增强，而且它为自己提供高质量奖励的能力也得到了提升。根据这一方法对 Llama 2 70B 进行三次迭代微调后，得到的模型在 AlpacaEval 2.0 排行榜上超过了包括 Claude 2、Gemini Pro 和 GPT-4 0613 在内的许多现有系统。

“文生视频”新玩法：时长能超5分钟｜大模型周报