建议收藏!100篇必读论文|大模型月报(2024.02)

899次阅读
没有评论

建议收藏!100篇必读论文|大模型月报(2024.02)

大家好,这是我们的新专栏——大模型月报(100 篇必读论文)——的第一篇文章,内容主要为当前大模型领域热门研究方向(如文生图、文生视频、文生音乐等)的热门论文。建议收藏!100篇必读论文|大模型月报(2024.02)我们希望,这一专栏能够为大家提供较为全面的大模型最新研究进展。当然,大模型月报」目前还无法涵盖所有热门论文以及研究方向,望请见谅。欢迎大家多提建议,也欢迎大家在评论区补充~想要第一时间获取每日最新大模型热门论文?扫描下方二维码,或添加微信 Tobethenum1,加入大模型论文分享群,务必备注“大模型日报”ps:我们日常会分享日报、周报,后续每月也会出一期月报,敬请期待~建议收藏!100篇必读论文|大模型月报(2024.02)

以下,为2024年2月份,我们收录的一些热门大模型研究论文。文章篇幅较长,共计4万字,建议收藏~

第 1 章 文生图


【Image Anything:像人类一样想象画面】人类感知和理解力的多面性表明,当我们思考时,我们的身体可以自然地结合多种感官在大脑中形成一幅美丽的图画。例如,当我们看到一个猫窝,听到猫咪的叫声,大脑中就构建出猫在猫窝里的画面。生成式人工智能模型应具备人类的这一特点,能够高效、协作地从任何模态组合中生成图像。来自香港科技大学的研究团队提出了一种端到端多模态生成模型——ImgAny,它可以模仿人类推理并生成高质量的图像。ImgAny 首次尝试高效灵活地获取从语言、音频到视觉等七种模式的任意组合,包括图像、点云、热、深度和事件数据。该项研究受到人类认知过程的启发,无需对不同模态进行特定调整即可在实体和属性层面整合和协调多个输入模态。该方法带来了两个新的免训练技术分支,实体融合分支确保输入和输出之间的一致性,它从专门构建的实体知识图谱中提取实体特征;属性融合分支善于保留和处理属性,它通过我们提出的属性知识图谱高效地融合来自不同输入模态的独立属性。最后,实体和属性特征被自适应地融合为预先训练好的 Stable Diffusion 模型的条件输入以生成图像。在不同模态组合下进行的实验证明了 ImgAny 在视觉内容创建方面的卓越能力。论文链接:https://arxiv.org/abs/2401.17664【谷歌新研究:移动设备上的亚秒级文生图模型】由于大规模文生图扩散模型庞大的模型体积和缓慢的推理速度,在移动设备上部署大模型受到限制。为此,来自谷歌公司的研究团队提出了一个在架构和采样技术上进行广泛优化的高效文生图扩散模型——MobileDiffusion。研究团队通过对模型架构设计进行全面审查达到了减少冗余、提高计算效率的效果,并能够在最小化模型的参数数量的同时保持图像生成质量。MobileDiffusion 应用了蒸馏(distillation)和 Diffusion-GAN 微调技术,分别实现了 8 步和 1 步推理。实验证明了 MobileDiffusion 的有效性。在移动设备上生成 512×512 图像时,MobileDiffusion 实现了惊人的亚秒级推理速度,建立了新的技术水平。论文链接:https://arxiv.org/abs/2311.16567【ConsiStory:无需训练的文生图模型】文生图模型允许用户通过自然语言指导图像生成过程,将创意灵活性提升到一个新的水平。但使用这些模型在不同的提示中始终如一地描绘同一主题仍具挑战。现有方法通过微调模型来教它描述用户提供的特定主题的新词,或为模型添加图像条件。这些方法需要对每个主题进行长时间的优化或大规模的预训练,同时也很难将生成的图像与文本提示对齐,在描述多个主题时也存在困难。为此,来自英伟达和特拉维夫大学的研究团队及其合作者提出了一种无需训练的方法——ConsiStory,它通过共享预训练模型的内部激活,实现一致的主题生成。研究团队引入了主题驱动的共享注意力块和基于对应关系的特征注入,以促进图像之间的主题一致性。为了在保持主题一致性的同时鼓励布局多样性,研究团队将 ConsiStory 与一系列基线进行了比较,无需任何优化步骤,ConsiStory 在主题一致性和文本对齐方面展示了最先进的性能。ConsiStory 可以自然地扩展到多主题场景,甚至可以实现对常见对象的无训练个性化。论文链接:https://arxiv.org/abs/2402.03286【复旦新研究:在图像中重新定位主体】目前的图像处理主要集中在静态处理上,如替换图像中的特定区域或改变图像的整体风格。来自复旦大学的研究团队提出了一个新的动态处理任务——主体重定位(subject repositioning)。这要求在保持图像的保真度的同时,将用户指定的主体重新定位到所需位置。主体重定位的基本子任务包括填充移动后的主体所留下的空白、重建主体的被遮挡部分以及使主体与周围区域保持一致,这些任务可以有效地重新表述为一个统一的、由提示引导的修复任务。因此,研究团队使用单个扩散生成模型,利用通过任务反转技术学习到的各种任务提示来处理这些子任务。研究团队还整合了预处理和后处理技术以进一步提高主体重新定位的质量。这共同构成了 SEgment-gEnerate-and-bLEnd(SEELE)框架。为了评估 SEELE 在主体重新定位方面的有效性,在 ReS 真实主体重新定位数据集上的测试证明了重新定位图像生成的质量。论文链接:https://arxiv.org/abs/2401.16861【Motion Guidance:利用扩散模型精确编辑图像】扩散模型能够根据文字描述生成令人印象深刻的图像,这些模型的扩展功能允许用户对图像进行相对粗略的编辑。但利用扩散模型精确编辑图像中物体的布局、位置、姿势和形状仍然是一个难题。为此,来自密歇根大学的研究团队提出了一种零样本技术——Motion Guidance,它允许用户指定密集、复杂的运动场,指示图像中每个像素应移动的位置。Motion Guidance 通过现成的光流网络(optical flow network)的梯度引导扩散采样过程。研究团队设计了一种引导损耗,鼓励样本具有光流网络估计的期望运动,在视觉上也与源图像相似。通过从扩散模型中采样以及引导样本产生低引导损耗获得了一个运动编辑图像。该技术可以处理复杂的运动,并能对真实图像和生成的图像进行高质量的编辑。  论文链接:https://arxiv.org/abs/2401.18085【SPIN-Diffusion:文生图扩散模型的自我博弈微调】在生成式人工智能(GenAI)领域,与微调大型语言模型(LLMs)方面取得的显著进展相比,微调扩散模型仍然是一个尚未充分开发的前沿领域。虽然如 Stable Diffusion(SD)和 SDXL 等扩散模型依赖于监督式微调,但在它们接触了一定量的数据后,其性能会不可避免地趋于平稳。最近,强化学习(RL)已被用于利用人类偏好数据微调扩散模型,但这需要为每个文本提示至少两张图像(“胜者”和“败者”图像)。来自加州大学洛杉矶分校的研究团队介绍了一种扩散模型自我博弈微调(SPIN-Diffusion)方法,扩散模型与其早期版本进行竞争,促进了一个迭代自我改进的过程。该方法为传统监督式微调和 RL 策略提供了一个替代方案,并显著提高了模型的性能和对齐度。在 Pick-a-Pic 数据集上的实验表明,SPIN-Diffusion 从一开始就在与人类偏好对齐和视觉吸引力方面优于现有的监督微调方法。到第二次迭代时,它使用更少的数据,在所有指标上都超过了基于 RLHF 的方法。论文链接:https://arxiv.org/abs/2402.10210【让文生图模型更安全】文生图(T2I)模型在根据文本提示生成图像方面表现出色。然而,这些模型容易受到不安全输入的影响,生成如色情、骚扰和非法活动图像等不安全的内容。在实际应用中,目前基于图像检查器、模型微调和嵌入阻断的研究并不实用。因此,来自宾夕法尼亚州立大学、中国科学院大学和天津大学的研究团队提出了首个用于在黑盒场景下生成安全 T2I 的通用提示优化器。研究团队通过 GPT-3.5 Turbo 构建了一个由有毒-清洁(toxic-clean)提示对组成的数据集。为引导优化器在保留语义信息的同时将有毒提示转换为清洁提示,研究团队设计了一个衡量生成图像的有毒性和文本对齐度的奖励函数,并通过近端策略优化来训练优化器。实验表明,其方法可以在对文本对齐没有显著影响的情况下有效降低各种 T2I 模型生成不恰当图像的可能性,同时它还能灵活地与各种方法相结合来实现更好的性能。论文链接:https://arxiv.org/abs/2402.10882【FiT:灵活生成无限制分辨率的图像】自然界是无限分辨率的。现有的扩散模型(如Diffusion Transformers)在处理其训练领域之外的图像分辨率时往往面临挑战。为此,来自上海人工智能实验室的研究团队及其合作者提出了一个专门用于生成无限制分辨率和长宽比图像的 Transformer 架构——Flexible Vision Transformer(FiT)。与将图像视为静态分辨率网格的传统方法不同,FiT 将图像视为动态大小的 tokens 序列。这种灵活的训练策略使其在训练和推理阶段都能轻松适应不同的长宽比,从而促进分辨率的泛化、消除图像裁剪引起的偏差。通过精心调整的网络结构和免训练外推技术的整合,FiT 在分辨率外推生成方面表现出了显著的灵活性。实验证明了 FiT 在广泛分辨率范围内的卓越性能,展示了其在训练分辨率分布范围内外的有效性。论文链接:https://arxiv.org/abs/2402.12376【MuLan:像画家一样逐步生成多对象图像】现有的文生图模型在生成多个对象的图像时仍然存在困难,尤其是在处理它们的空间位置、相对大小、重叠和属性绑定方面时。来自香港科技大学、加州大学洛杉矶分校、宾夕法尼亚州立大学和马里兰大学的研究团队,开发了一个无需训练的多模态大型语言模型(LLMs)智能体——MuLan,它能够像人类画家一样进行规划和反馈控制来逐步生成多个对象。MuLan 利用 LLM 将提示分解为一系列子任务,每个子任务只生成一个对象,并以之前通过 Stable Diffusion 生成的对象为条件。与现有的基于 LLM 的方法不同,MuLan 只在开始时生成一个高级计划,而每个对象的确切大小和位置则由 LLM 和每个子任务的注意力引导决定。此外,MuLan 还采用视觉语言模型(VLM)为每个子任务中生成的图像提供反馈,并在图像违反原始提示时控制扩散模型重新生成图像。因此,MuLan 每个步骤中的每个模型只需处理其擅长的简单子任务即可。研究团队在不同的基准中收集了 200 个包含具有空间关系和属性绑定的多对象提示来评估 MuLan,结果表明 MuLan 在生成多对象方面优于基准。 论文链接:https://arxiv.org/abs/2402.12741【玩转文生图,帮你自动优化 prompt】精心设计的 prompt 已经显示出具有引导文生图模型生成令人惊叹的图像的潜力,尽管现有的 prompt 工程方法可以提供高层次的指导,但由于新手用户输入的提示与模型偏好的 prompt 之间存在差异,新手用户通过手动输入 prompt 来达到预期效果仍然具有挑战性。为了缩小用户输入行为与模型训练数据集之间的分布差距,来自复旦大学和同济大学的研究团队构建了一个 Coarse-Fine Granularity Prompts 数据集(CFP),并提出了一个 User-Friendly Fine-Grained Text Generation 框架(UF-FGTG),用于自动优化 prompt。对于 CFP,研究团队构建了一个结合了粗粒度和细粒度 prompt 的文本到图像任务的新数据集,从而促进自动提示生成方法的开发。对于 UF-FGTG,研究团队提出了一种可将用户输入的 prompt 自动转换为模型偏好 prompt 的框架。具体来说,研究团队提出了一个 prompt 优化器,它可以不断改写 prompt 使用户能够选择符合其独特需求的结果。通过将文生图模型中与图像相关的损失函数整合到文本生成的训练过程中,使其生成模型首选 prompt。此外,研究团队还提出了一个自适应特征提取模块,以确保生成结果的多样性。实验证明,这一方法能够生成比以前最先进方法更具视觉吸引力和多样性的图像,在六个质量和美学指标上平均提高了 5%。论文链接:https://arxiv.org/abs/2402.12760【Gen4Gen:创建评估文生图模型数据集新方法】最近的文生图扩散模型只需通过几个例子的训练,就能学习和合成包含新颖、个性化概念(如自己的宠物或特定物品)的图像。在文生图扩散模型个性化领域中,首先,当前的个性化技术无法可靠地扩展到多个概念——我们假设这是由于预训练数据集(如 LAION)中复杂场景和简单文本描述之间的不匹配造成的。其次,对于包含多个个性化概念的图像,缺乏一个整体的衡量标准来评估个性化概念的相似程度、图像中是否存在所有概念,以及图像是否准确反映了整体文本描述。为了解决这些问题,来自加州大学戴维斯分校的研究团队及其合作者提出了一个半自动数据集创建流程——Gen4Gen,它利用生成模型将个性化概念与文本描述结合成复杂的组合。借此,研究团队创建了一个名为 MyCanvas 的数据集,该数据集可用于多概念个性化任务的基准测试。此外,研究团队还设计了一个由两个分数(CP-CLIP 和 TI-CLIP)组成的综合指标,用于更好地量化多概念、个性化文生图扩散方法的性能。该项研究提供了一个基于 Custom Diffusion 的简单基准,其中包含经验性提示策略,供未来的研究人员在 MyCanvas 上进行评估。研究表明,通过改进数据质量和提示策略,无需对模型架构或训练算法进行任何修改即可显著提高多概念个性化图像生成的质量。论文链接:https://arxiv.org/abs/2402.15504

第 2 章 文生视频


【Sora 综述:大型视觉模型的背景、技术、局限和机遇】Sora 是 OpenAI 于 2024 年 2 月发布的文生视频人工智能(AI)模型。经过训练,Sora 能根据文字说明生成逼真或富有想象力的场景视频,并显示出了模拟物理世界的潜力。在这篇论文中,来自理海大学和微软研究院的研究团队以公开技术报告和逆向工程为基础,全面回顾了 Sora 的背景、相关技术、应用、尚存挑战以及文生视频 AI 模型的未来发展方向。研究团队首先追溯了 Sora 的发展历程,并研究了用于构建这一“世界模拟器”的底层技术。然后,他们详细介绍了 Sora 在从电影制作、教育到市场营销等多个行业中的应用和潜在影响。研究团队讨论了广泛部署 Sora 所面临的主要挑战和限制,如确保安全和无偏见的视频生成。最后,他们讨论了 Sora 和其他视频生成模型的未来发展,以及该领域的进步如何实现新的人机交互方式,提高视频生成的生产力和创造力。论文链接:https://arxiv.org/abs/2402.17177【AnimateLCM:高效生成连贯真实的视频】视频扩散模型能够生成既连贯又高保真的视频,但迭代去噪过程使其计算密集且耗时的问题限制了其应用。受 Consistency Model(CM)的启发,来自香港中文大学 MMLab、Avolution AI、上海人工智能实验室和商汤科技公司的研究团队提出了 AnimateLCM,该模型将预训练的图像扩散模型蒸馏为最小步骤以加速采样,以及其在条件图像生成上的成功扩展——Latent Consistency Model(LCM),从而以最少的步骤生成高保真视频。研究团队提出了一种解耦一致性学习策略,将图像生成先验的蒸馏和运动生成先验的蒸馏解耦,提高了训练效率和生成内容的视觉质量。此外,为了使 Stable Diffusion 社区中的即插即用适配器组合实现各种功能(如用于可控生成的 ControlNet),研究团队提出了一种高效策略,在不影响采样速度的情况下,将现有适配器适配到文本条件视频一致性模型或从头开始训练适配器。在图像条件视频生成和布局条件视频生成中这一策略均取得了最佳效果。论文链接:https://arxiv.org/abs/2402.00769【Direct-a-Video:用户引导摄像机移动和物体运动生成定制视频】在文生视频扩散模型的实际应用中,用户往往希望能够独立控制物体的运动和摄像机的移动来实现自定义视频创作。但当前的方法缺乏以解耦方式下独立控制物体运动和摄像机移动的焦点,这限制了文生视频模型的可控性和灵活性。为此,来自香港城市大学、快手公司和天津大学的研究团队提出了 Direct-a-Video,该系统允许用户独立指定一个或多个物体的运动或摄像机的运动,让用户来导演视频。研究团队提出了一种简单有效的策略来独立控制物体运动和摄像机移动。即利用模型固有的先验,通过空间交叉注意力调制控制物体运动,而无需额外优化。对于摄像机运动,研究团队引入了新的时间交叉注意层来解释定量摄像机移动参数。研究团队还采用了一种基于数据增强的方法,在小规模数据集上以自我监督的方式训练这些层,消除了对显式运动注释的需求。这两个组件可独立运行,允许独立或组合控制,并且可以推广到开放域场景。实验证明了这一方法的优越性和有效性。论文链接:https://arxiv.org/abs/2402.03162【InteractiveVideo:以用户为中心的视频生成模型】来自香港中文大学、北理工和腾讯人工智能实验室的研究团队提出了一个以用户为中心的视频生成框架—— InteractiveVideo。与传统的基于用户提供的图像或文本进行操作的生成方法不同,InteractiveVideo 专为动态交互而设计,它允许用户在整个生成过程中通过各种直观的机制(如文本和图像提示、绘画、拖放等)对生成模型进行指导。研究团队提出了一种协同多模态指令机制,旨在将用户的多模态指令无缝集成到生成模型中,从而促进用户输入与生成过程之间的合作和响应式交互。这种方法可通过精确有效的用户指令对生成结果进行迭代和细粒度优化。有了 InteractiveVideo,用户就可以灵活地对视频的关键部分进行精心定制,如绘制参考图像、编辑语义、调整视频动作,直到完全满足其需求。论文链接:https://arxiv.org/abs/2402.03040【Customize-A-Video:文生视频,可以自由定制了】图像定制在文本到图像(T2I)扩散模型中已经得到了广泛的研究,并取得了令人印象深刻的成果和应用。随着文本到视频(T2V)扩散模型的兴起,其对应的时间模型、运动定制模型还没有得到很好地研究。为了应对单次运动定制的挑战,来自马里兰大学、Adobe Research 和延世大学的研究团队提出了 Customize-A-Video 方法,从单个参考视频中建立运动模型,并将其适配到具有空间和时间变化的新主题和场景中。它利用时间注意层上的低秩适应(LoRA)来定制预训练 T2V 扩散模型,以便根据参考视频进行特定的运动建模。为了在训练过程中分离空间和时间信息,研究团队提出了 appearance absorbers 的概念,在运动学习之前将原始外观从单个参考视频中分离出来。Customize-A-Video 可以以即插即用的方式轻松扩展到各种下游任务,包括定制视频生成和编辑、视频外观定制和多重运动组合。论文链接:https://arxiv.org/abs/2402.14780【Snap Video:基于 Transformer 的文生视频新模型】当前图像生成模型显示出极高的质量和多功能性,因此,研究界重新调整它们用于生成视频。由于视频内容冗余度很高,将图像模型的先进技术简单地引入视频生成领域会降低运动保真度、视觉质量和可扩展性。为此,来自 Snap 的研究团队及其合作者建立了一个视频优先模型——Snap Video,来系统地应对这些挑战。研究团队首先扩展了 EDM 框架,用于考虑空间和时间上的冗余像素并自然地支持视频生成。其次,因为 U-Net(图像生成的主要工具)在生成视频时扩展性很差并且需要大量的计算开销,研究团队提出了一种基于 Transformer 的新架构,其训练速度是 U-Net 的 3.31 倍(推理速度约为 4.5 倍)。这使我们能够首次高效地训练具有数十亿个参数的文生视频模型,在许多基准测试中达到最先进的结果,并生成具有更高质量、时间一致性和运动复杂性的视频。针对用户的研究表明,与最近的方法相比,Snap Video 模型更受青睐。论文链接:https://arxiv.org/abs/2402.14797【阿里 EMO:从音频生成富有表现力的肖像视频】阿里巴巴团队开展了一项研究,重点关注音频线索与面部动作之间的动态和细微关系,在应对在生成“对话头像”(talking head)视频时如何提高逼真度和表现力的挑战时,传统技术往往无法捕捉到人类表情的全貌以及个人面部风格的独特性。为此,研究团队提出了 EMO这一框架,它采用直接从音频到视频的合成方法,无需中间 3D 模型或面部标志。EMO 确保了整个视频的无缝帧转换和一致的身份保持,能够产生极富表现力且栩栩如生的动画。EMO 不仅能生成令人信服的说话视频,还能生成各种风格的唱歌视频,在表现力和逼真度方面明显优于现有的最先进方法。论文链接:https://arxiv.org/abs/2402.17485【Sora 评估基准:视频符合真实世界的物理原理吗?】近期,Sora 在视频生成方面展现了非凡的能力,引发了有关其模拟真实世界现象能力的激烈讨论,但目前还缺乏成熟的指标来定量评估其与真实世界物理的保真度。来自南开大学、字节跳动、武汉大学和南开国际先进研究院的研究团队提出了一种新的基准,根据 Sora 生成的视频是否符合真实世界的物理原理来评估其忠实度。由于 3D 重建的准确性在很大程度上取决于视频质量,研究团队将生成的视频转换为 3D 模型。从 3D 重建的角度,研究团队使用构建的 3D 模型所满足的几何约束的保真度,来衡量生成的视频在多大程度上符合真实世界的物理规则。论文链接:https://arxiv.org/abs/2402.17403【Panda-70M:包含 7000 万段高质量字幕的视频数据集】数据和标注的质量是下游模型质量的上限。虽然存在大量的文本语料库和图像-文本对,但高质量的视频-文本数据却很难收集。首先,人工标注需要标注者观看整个视频,这十分耗时。其次,视频具有时间维度,由多个场景叠加而成,显示了多个动作。为了建立一个具有高质量字幕的视频数据集,来自 Snap 公司、加州大学和特伦托大学的研究团队提出了一种利用多模态输入(如文字视频描述、字幕和单个视频帧)的自动方法。具体来说,研究团队从公开的 HD-VILA-100M 数据集中收集了 380 万个高分辨率视频。然后将它们分割成语义一致的视频片段,并应用多种跨模态教师模型来获取每个视频的字幕。接下来,在一小部分子集上对检索模型进行微调,人工选择每个视频的最佳字幕,然后在整个数据集中使用该模型选择最佳字幕作为标注。通过这种方法,他们得到了 7000 万个与高质量文字说明配对的视频。研究团队将该数据集命名为 Panda-70M。该项研究展示了 Panda-70M 数据集在三个下游任务中的价值:视频字幕、视频和文本检索以及文本驱动的视频生成。在提出的数据上训练出来的模型在所有任务的大多数指标上都获得了大幅提升。论文链接:https://arxiv.org/abs/2402.19479【AI 生成视频泛滥?近乎完美的检测和追踪方法来了】随着视频生成技术的飞速发展,人们可以方便地利用视频生成模型来制作符合自己特定需求的视频。然而,人们也越来越担心它们可能被滥用于制造和传播虚假信息。来自弗吉尼亚大学和亥姆霍兹信息安全中心(CISPA)的研究团队提出了一套在虚假视频生成的整个生命周期中的缓解措施——VGMShield。研究团队首先从虚假视频检测入手,试图了解生成的视频是否具有唯一性,能否将它们与真实视频区分开来;然后研究了追踪问题,即将虚假视频追溯到生成它的模型。为此,研究团队利用侧重于时空动态的预训练模型作为骨干,来识别视频中的不一致之处。在七个最先进的开源模型上的实验证明了当前的模型仍然无法完美处理时空关系,因此我们可以近乎完美地完成检测和追踪。考虑到未来生成模型的改进,研究团队还提出了一种预防方法:向图像中添加不可见的扰动,使生成的视频看起来不真实。与虚假视频检测和追踪相结合,这一多层面解决方案可以有效缓解视频生成模型的滥用。论文链接:https://arxiv.org/abs/2402.13126【小鹏汽车提出 Anything in Any Scene:生成真实的视频】真实的视频模拟在虚拟现实和电影制作等各种应用领域都显示出巨大的潜力,特别是在现实世界中拍摄视频不切实际或成本高昂的情况下。现有的视频模拟方法往往无法准确地模拟照明环境、表示物体几何形状或达到高度逼真。来自小鹏汽车公司的研究团队提出了一个用于真实视频模拟的通用框架——“Anything in Any Scene”,它可以将任何物体无缝插入现有的动态视频中,并着重强调真实性。Anything in Any Scene 包括三个关键过程:首先将真实物体整合到给定的场景视频中,适当放置以确保几何逼真度;其次估计天空和环境光照分布,模拟逼真的阴影以增强光线的逼真度;最后采用风格转换网络完善最终视频输出,最大限度地提高真实性。实验证明,Anything in Any Scene 可以生成几何逼真度、光照逼真度和真实性都很高的模拟视频。通过大大降低与视频数据生成相关的难度,Anything in Any Scene 为获取高质量视频提供了一个高效、经济的解决方案。不止在视频数据增强方面,在虚拟现实、视频编辑和其他各种以视频为中心的应用中 Anything in Any Scene 都展现出了巨大的潜力。论文链接:https://arxiv.org/abs/2401.17509

第 3 章 文生音频


【ChatMusician:使用大模型理解和生成音乐】来自 Multimodal Art Projection Research Community、Skywork 和香港科技大学的研究团队提出了一个集成了内在音乐能力的开源大型语言模型(LLMs)——ChatMusician。它基于与文本兼容的音乐表示法(ABC 记谱法)对 LLaMA2 进行持续的预训练和微调,并将音乐视为第二语言。ChatMusician 可通过纯文本 tokenizer 理解和生成音乐,无需任何外部多模态神经网络或 tokenizer。赋予音乐能力并不会损害语言能力,甚至在 MMLU 评分上略有提高。ChatMusician 能够以文本、和弦、旋律、主题、音乐形式等为条件,创作出结构良好的完整音乐,超过了 GPT-4 基线。研究团队制作了一个大学级音乐理解基准——MusicTheoryBench,在该基准上的零样本测试中,ChatMusician 以明显的优势超过了 LLaMA2 和 GPT-3.5。该项研究揭示了 LLMs 可以成为出色的音乐压缩器(compressor),但仍有大量领域有待攻克。论文链接:https://arxiv.org/abs/2402.16153【SongComposer:让大模型像人类一样创作歌曲】来自香港中文大学、北京航空航天大学和上海人工智能实验室的研究团队提出了一款专为歌曲创作而设计的大型语言模型(LLMs)——SongComposer。利用 LLMs 的能力,它可以理解并生成符号化歌曲表示中的旋律和歌词。现有的音乐相关 LLMs 将音乐视为量化的音频信号,这种隐式编码会导致编码效率低下和灵活性差。相比之下,研究团队采用了人类为音乐设计的成熟而高效的符号歌曲表示法,使 LLMs 能够像人类一样明确地创作歌曲。在实践中,研究团队设计了一种元组设计来格式化旋律中的歌词和三个音符属性(音高、时长和休止符时长),这保证了 LLMs 对音乐符号的正确理解,并实现了歌词和旋律的精确对齐。为了向 LLMs 传授基本的音乐理解能力,他们精心收集了一个大规模的歌曲预训练数据集 SongCompose-PT ,其中包括中文或英文歌词、旋律和成对的歌词旋律。经过充分的预训练后使用 10000 个精心制作的 QA 对来增强 LLMs 的指令遵循能力,从而解决各种任务。通过大量实验,SongComposer 在歌词到旋律的生成、旋律到歌词的生成、歌曲续写和文本到歌曲的创作方面表现出卓越的性能,超过了 GPT-4 等先进的 LLMs。论文链接:https://arxiv.org/abs/2402.17645

第 4 章 文生代码


【RoboCodeX:机器人行为合成的多模态代码生成】机器人行为合成,即理解多模态输入并为机器人生成精确物理控制,是具身人工智能(Embodied AI)的重要组成部分。尽管在应用多模态大型语言模型进行高级理解方面取得了成功,但要将这些概念理解转化为详细的机器人动作并在各种场景中实现泛化仍具挑战性。来自香港大学和上海人工智能实验室的研究团队及其合作者提出了一个用于泛化的机器人行为合成的树状结构多模态代码生成框架——RoboCodeX。它将高级人类指令分解为多个以对象为中心的操作单元,包括如负担能力(affordance)和安全约束等物理偏好,并应用代码生成技术在各种机器人平台上实现泛化能力。为了进一步提高将概念和感知理解映射到控制指令的能力,研究团队收集了一个专门的多模态推理数据集进行预训练,并引入了迭代自我更新方法进行监督微调。实验证明,RoboCodeX 在模拟器和真实机器人上在四种不同的操作任务和一种导航任务上都取得了最先进的性能。论文链接:https://arxiv.org/abs/2402.16117【GLM-4 vs GPT-4,辅助编程哪家强?】来自悉尼大学、深兰科技(上海)、中国创造学会和上海交通大学的研究团队对 GPT-4 和 GLM-4 做了比较分析,探索将 GenAI 作为编程工具的最佳实践。通过评估不同复杂程度的提示策略发现,最简单直接的提示策略能产生最佳的代码生成结果。此外,添加类似于 CoT 的初步确认步骤将进一步提高成功率。研究结果显示,虽然 GPT-4 略微优于 GLM-4,但对于普通用户来说,两者的差距微乎其微。在其简化的评估模型中,研究团队发现与传统编程规范相比,代码生成效率显著提高了 30 到 100 倍。GenAI 辅助编码将引发编程领域的范式转变,这就要求开发人员承担起围绕监督和指导 GenAI 的新角色,并更加专注于制定高层次目标和参与创新。论文链接:https://arxiv.org/abs/2402.12782

第 5 章 文生3D


【综述:3D 生成技术的最新进展】生成 3D 模型是计算机图形学的核心,也是数十年来研究的重点。随着高级神经表征和生成模型的出现,3D 内容生成领域正在迅速发展,创建越来越高质量和多样化的 3D 模型成为可能。来自腾讯人工智能实验室、腾讯 ARC 实验室、香港城市大学和华南理工大学的研究团队提出了一份综述,介绍了 3D 生成的基本方法,建立了一个包括 3D 表征、生成方法、数据集以及相应的应用的结构化路线图。该项研究介绍了作为 3D 生成基础的 3D 表征,全面综述了有关生成方法的快速增长的文献,并按算法范例类型进行了将其分类为前馈生成、基于优化的生成、程序生成和生成式新视图合成。最后讨论了可用的数据集、应用和开放的挑战。论文链接:https://arxiv.org/abs/2401.17807【ReplaceAnything3D:文本引导式 3D 场景编辑】来自伦敦大学学院、Alan Turing 研究所和 Meta 的研究团队提出了一种文本引导式 3D 场景编辑方法—— ReplaceAnything3D 模型(RAM3D),它可以替换场景中的特定对象。研究团队提出的 Erase-and-Replace 方法(即给定场景的多视角图像、描述要替换对象的文本提示和描述新对象的文本提示)可以有效地用新生成的内容替换场景中的对象,同时在多个视角之间保持 3D 一致性。ReplaceAnything3D 在各种逼真的 3D 场景的应用展示了它的多功能性,修改后的前景物体能够与场景其他部分完美融合而,且不影响整体完整性。论文链接:https://arxiv.org/abs/2401.17895

第 6 章 智能体(Agent)

【Formal-LLM:让智能体生成有效计划】大型语言模型(LLMs)的最新进展使人工智能智能体能够自动生成并执行多步骤计划来解决复杂任务。由于 LLMs 的内容生成过程几乎不可控,目前的 LLMs 智能体经常生成无效或不可执行的计划,这不仅降低了所生成计划的性能,也破坏了用户对 LLMs 智能体的信任。为此,来自罗格斯大学的研究团队通过整合自然语言的表达能力和形式语言的精确性,为 LLMs 智能体提出了一个“Formal-LLM”框架。该框架允许人类用户以自动机(automaton)的形式表达他们对规划过程的要求或约束。在自动机的监督下进行基于堆栈的 LLMs 计划生成过程确保生成的计划满足约束条件,从而使计划过程可控。在基准任务和实际任务中 Formal-LLM 实现了超过 50% 的整体性能提升,证明了采用 Formal-LLM 指导智能体计划生成的可行性和有效性。论文链接:https://arxiv.org/abs/2402.00798【宝马公司新研究:让大模型帮你打《星际争霸II》】为研究大型语言模型(LLMs)在 StarCraft II(《星际争霸II》)游戏环境中执行实时战略战争任务的功效,来自宝马诚迈公司的研究团队提出了一种利用 LLMs 在 StarCraft II 游戏环境中执行实时战略的嵌入式智能体——SwarmBrain。SwarmBrain 由两个关键部分组成,一是由最先进的 LLMs 支持的用于从高层次角度协调宏观战略 Overmind 智能矩阵。该矩阵模拟 Zerg 智能大脑的整体意识,综合战略远见,能够进行资源分配、扩张指导并协调多管齐下的攻击。二是 Swarm ReflexNet,用于与 Overmind Intelligence Matrix 的计算决策相对应。由于 LLMs 推理存在固有延迟,Swarm ReflexNet 采用了条件-响应状态机框架,使基础 Zerg 单位机动能够迅速做出战术反应。在实验设置中,SwarmBrain 控制 Zerg 种族与计算机控制的 Terran 对手对抗。实验结果表明,SwarmBrain 能够进行经济扩张、领土扩张和战术制定,并且能够击败设置在不同难度级别的 Computer 玩家。论文链接:https://arxiv.org/abs/2401.17749【POKE´LLMON:达到人类对战水平的“宝可梦”智能体】来自佐治亚理工学院的研究团队提出了第一个在战术战斗游戏中达到人类水平性能的 LLM(大型语言模型)具身智能体——POKE´LLMON。POKE´LLMON 的设计包含以下三种关键策略:第一,上下文强化学习,即刻吸收从战斗中获得的基于文本的反馈,从而迭代完善策略;第二,知识增强生成,它检索外部知识来对抗幻觉,并使智能体能够及时适当地行动;第三,一致性行动生成,用于减轻当智能体面对强大对手并希望逃避战斗时的紧急切换(panic switching)现象。与人类的在线对战证明了 POKE´LLMON 具有类似人类的战斗策略和即时决策能力,在 Ladder 比赛中达到了 49% 的胜率,在受邀战斗中达到了56%的胜率。论文地址:https://arxiv.org/abs/2402.01118【微软、斯坦福新研究:交互式智能体基础模型】人工智能(AI)系统的开发正在从创建静态的、针对特定任务的模型转变为动态的、基于智能体的、能够在广泛应用中表现出色的系统。来自斯坦福、微软研究院和加州大学洛杉矶分校的研究团队提出了一种交互式智能体基础模型,它采用了一种多任务智能体训练范式,用于在广泛的领域、数据集和任务中训练 AI 智能体。这一训练范式统一了不同的预训练策略,包括视觉遮蔽自动编码器、语言建模和下一步行动预测,从而实现了一个多功能、适应性强的 AI 框架。研究团队展示了其框架在机器人、游戏 AI 和医疗保健三个不同领域生成有意义且与上下文相关的输出的能力。该模型的优势在于其通用性,可利用机器人序列、游戏数据、大规模视频数据集和文本信息等各种数据源进行有效的多模态和多任务学习。这一方法为开发通用的动作执行多模态系统提供了未来的方向。论文链接:https://arxiv.org/abs/2402.05929【OS-Copilot:实现可自我完善的通用计算机智能体】近来大型语言模型(LLMs)的激增显著加速了构建数字智能体的进展。但这些智能体大多是为与特定领域(如特定软件或网站)进行交互而设计的。这种狭隘的关注点限制了它们在通用计算机任务中的适用性。为此,来自上海人工智能实验室、华东师范大学、普林斯顿大学和香港大学的研究团队提出了一个用于构建通用智能体的框架——OS-Copilot,它能够与操作系统(OS)中的各种元素(包括网络、代码终端、文件、多媒体和各种第三方应用程序)进行交互。研究团队利用 OS-Copilot 创建了一个用于自动执行通用计算机任务的自我完善型具身智能体——FRIDAY。在通用人工智能助手基准测试 GAIA 上,FRIDAY 的表现比以前的方法提高了 35%,通过先前任务中积累的技能,展示了对未知应用的强大通用性。数据表明,FRIDAY 在最少的监督的情况下学会了控制 Excel 和 Powerpoint,并进行自我完善。OS-Copilot 框架和研究结果为未来的研究提供了基础架构和见解,使计算机智能体具有更强的能力和更广泛的用途。论文链接:https://arxiv.org/abs/2402.07456【谷歌新研究:可阅读 20 倍上下文的 AI 智能体】目前的大型语言模型(LLMs)不仅受限于一定的最大上下文长度,也无法鲁棒地处理长输入。为此,来自 Google DeepMind 和 Google Research 的研究团队提出了一个能够将有效上下文长度提高 20 倍的 LLMs 智能体系统——ReadAgent。受人类交互式阅读长文档方式的启发,研究团队将 ReadAgent 作为一个简单的提示系统。该系统利用 LLMs 的高级语言能力决定将哪些内容一起存储在一个记忆片段中,随后将这些记忆片段压缩成短小片段记忆(gist memories)。当 ReadAgent 需要提醒自己相关细节以完成任务时,就在原始文本中查找段落。研究团队使用检索方法、原始长上下文以及 gist memories 来对 ReadAgent 进行评估,并与基线进行比较。在 QuALITY、NarrativeQA 和 QMSum 三个长文档阅读理解任务中,ReadAgent 的表现都优于基线,同时将有效上下文窗口扩展了 3-20 倍。论文链接:https://arxiv.org/abs/2402.09727【微软新研究:首个用于 Windows OS 交互的 AI 智能体】来自微软公司的研究团队提出了一个用于满足 Windows OS 上的应用程序的用户需求的 UI-Focused 智能体——UFO,它利用了 GPT-Vision 的功能。UFO 采用双智能体框架,对图形用户界面(GUI)和 Windows 应用程序的控制信息进行细致观察和分析。这使智能体能够在单个应用程序内部以及跨应用程序之间无缝导航和操作,从而满足用户的要求,在跨多个应用程序时也是如此。该框架包含一个控制交互模块,便于在没有人工干预的情况下进行操作,并实现全自动执行。因此,UFO 能够将艰巨耗时的流程转化为只需通过自然语言命令即可完成的简单任务。研究团队在 9 个流行的 Windows 应用程序中对 UFO 进行了测试,这涵盖了反映用户日常使用情况的各种场景。实验表明,UFO 在满足用户需求方面具有卓越的能力。UFO 是第一个专门为 Windows OS 环境中的任务完成定制的 UI 智能体。论文链接:https://arxiv.org/abs/2402.07939【AgentMD:利用“临床计算器”增强智能体的风险预测能力】临床计算器在医疗保健领域发挥着重要作用,可为预后等各种目的提供准确的循证预测。然而,可用性挑战、传播不畅和功能受限等问题限制了这些计算器的广泛使用。利用大量临床计算器集合来增强大型语言模型,为克服这些障碍和提高工作流程效率提供了机会,但手工整理过程的可扩展性是一个重大挑战。为此,来自美国国立卫生研究院(NIH)、马里兰大学、耶鲁大学和佛罗里达州立大学的研究团队提出了一个新型语言智能体——AgentMD,它能够在各种临床环境中整理和应用临床计算器。利用已发表的文献,AgentMD 自动收集了 2164 种具有可执行功能和结构化文档的临床计算器,统称为 RiskCalcs。人工评估显示,RiskCalcs 工具在三项质量指标上的准确率超过了 80%。在推理时,AgentMD 可以根据患者描述自动选择和应用相关的 RiskCalcs 工具。在新设立的 RiskQA 基准上,AgentMD 明显优于使用 GPT-4 的思维链提示(准确率分别为 87.7%、40.9%)。此外,研究团队还将 AgentMD 应用于真实世界的临床笔记来分析人群和风险级别的患者特征。研究表明,语言智能体与临床计算器在医疗分析和患者护理方面具有实用性。论文链接:https://arxiv.org/abs/2402.13225【最新综述:大型多模态智能体】大型语言模型(LLMs)在为基于文本的人工智能(AI)智能体提供动力方面展示了卓越的性能,使其具备了与人类类似的决策和推理能力。新兴的研究趋势集中在将这些由 LLM 驱动的 AI 智能体扩展到多模态领域。这种扩展使 AI 智能体能够解释和响应多样化的多模态用户查询,从而处理更加复杂和细微的任务。来自香港中文大学(深圳)、深圳市大数据研究院和中山大学的研究团队对 LLM 驱动的多模态智能体,即大型多模态智能体(LMAs)进行了系统回顾。研究团队首先介绍了开发 LMAs 所涉及的基本要素,并将当前的研究分为四种不同类型,随后回顾了整合多个 LMAs 的协作框架,以增强集体效能。该领域的关键挑战之一是现有研究中使用的评估方法多种多样,阻碍了不同 LMAs 之间的有效比较。因此,研究团队对这些评估方法进行了汇编,并建立了一个综合框架来缩小这些差距。该框架用于使评估标准化以便进行更有意义的比较。最后,研究团队强调了 LMAs 的广泛应用,并提出了未来可能的研究方向。该项研究旨在为这一快速发展领域的未来研究提供有价值的见解和指导。论文链接:https://arxiv.org/abs/2402.15116【Agent-Pro:在学习中不断进化的智能体】大型语言模型(LLMs)可为各种任务提供强大的问题解决能力。然而,大多数基于 LLMs 的智能体被设计为具有复杂提示工程的特定任务解决程序,而不是能够通过交互进行学习和进化的智能体。这些任务求解器需要人工制作提示来告知任务规则和规范 LLMs 行为,因而无法应对复杂的动态场景(如大型互动游戏)。为此,来自中科院、南京邮电大学、南京信息工程大学、北京工业大学和国科大南京学院的研究团队提出了一个基于 LLM 的、具有策略级反思和优化功能的智能体——Agent-Pro,它可以从交互体验中学习丰富的专业知识,并逐步提升其行为策略。Agent-Pro 涉及一个动态的信念生成和策略演化的反思过程。与行动层面的反思不同,Agent-Pro 会反复反思过去的轨迹和信念,微调其不合理的信念以制定更好的策略。此外,它还采用深度优先搜索进行策略优化,确保不断提高策略回报。Agent-Pro 在两个游戏中进行了评估:在二十一点和德州扑克游戏中,Agent-Pro 的表现优于 vanilla LLM 和专门模型。结果表明,Agent-Pro 可以在复杂的动态场景中学习和进化,这也有利于众多基于 LLM 的应用。论文链接:https://arxiv.org/abs/2402.17574【FinAgent:首个金融交易多模态基础智能体】金融交易是市场的重要组成部分,其信息来源包括新闻、价格和 K 线图等多模态信息,并包含量化交易和各种资产的高频交易等多种任务。虽然深度学习和强化学习等先进的人工智能技术在金融领域得到了广泛应用,但由于对多模态数据的处理不充分以及在各种任务中的泛化能力有限,它们在金融交易任务中的应用却经常面临挑战。为此,来自南洋理工大学和浙江大学的研究团队推出了一个具有金融交易工具增强功能的多模态基础智能体——FinAgent。FinAgent 的市场智能模块可处理各种数据-数值、文本和视觉数据,从而准确分析金融市场。其独特的双层反映模块不仅能快速适应市场动态,还集成了多样化的记忆检索系统,增强了智能体从历史数据中学习和改进决策过程的能力。智能体对行动推理的重视促进了对其金融决策的信任。此外,FinAgent 还整合了成熟的交易策略和专家见解,确保其交易方法既以数据为导向,又植根于稳健的金融原则。通过对包括股票和加密货币在内的 6 个金融数据集进行全面实验,FinAgent 在 6 个金融指标方面明显优于 9 个最先进的基线,平均收益提高了 36% 以上。特别是在一个数据集上实现了 92.27% 的回报率(相对改进 84.39%)。值得注意的是,FinAgent 是首个专为金融交易任务设计的高级多模态基础智能体。论文链接:https://arxiv.org/abs/2402.18485【Google DeepMind:大模型中的高效探索】来自 Google DeepMind 和斯坦福的研究团队发现,在收集人类反馈改进大型语言模型(LLMs)的过程中,高效探索能带来巨大收益。在研究团队进行的实验中,智能体按顺序生成查询,同时将反馈接收到的数据拟合到奖励模型中。表现最好的智能体使用双 Thompson 采样生成查询,不确定性由认识神经网络表示。实验证明,高效探索能够以更少的查询次数获得更高的性能。此外,不确定性估计和探索方案的选择都起着关键作用。论文链接:https://arxiv.org/abs/2402.00396【LongAgent:将大模型扩展到 128k 上下文】目前,具有较长上下文窗口的大型语言模型(LLMs)存在较为显著的训练成本昂贵和高推理延迟问题。即使是 GPT-4 和 Claude2 等最先进的模型在处理超过 100k tokens 的输入时也经常犯错,这种现象被称为 lost in the middle。来自复旦大学的研究团队提出了一种基于多智能体协作的方法——LongAgent,它可以将 LLMs(如 LLaMA)扩展到 128K 的上下文。在长文本处理方面,与 GPT-4 相比它也表现出优势。在 LongAgent 中,领导者负责理解用户意图并指挥团队成员从文档中获取信息。由于成员会产生幻觉,领导者要从数十到数百名成员的响应中获取准确的信息并非易事。因此,研究团队开发了一种成员间交流机制,通过信息共享来解决幻觉引起的响应冲突。实验表明,LongAgent 为长文本处理提供了新的选择。与 GPT-4 相比,使用 LLaMA-7B 的智能体团队在 128k 长文本检索、多跳问答等任务中取得了显著改进。论文链接:https://arxiv.org/abs/2402.11550【DeepMind 新研究:通过剪枝让智能体提高参数效率】最近的研究表明,深度强化学习智能体很难有效利用其网络参数。来自 Google DeepMind、魁北克人工智能研究所 Mila 和蒙特利尔大学的研究团队,利用先前对稀疏训练技术优势的了解,证明渐进式幅度剪枝能让智能体最大限度地提高参数效率。这表现出了一种 “scaling law”,只需使用全部网络参数的一小部分,网络的性能相比传统网络就可以显著提高。论文链接:https://arxiv.org/abs/2402.12479

第 7 章 对齐(Alignment)


【DeepMind新研究:让大模型更快地从人类反馈中学习】大型语言模型(LLMs)可以根据语言命令编写机器人代码,这让不是专家的人也能够指导机器人行为、根据反馈修改机器人行为,或将机器人行为组合起来执行新任务。然而,这些能力(由上下文学习驱动)仅限于短期交互,用户的反馈只在符合 LLMs 的上下文大小范围内保持相关性,在较长时间的交互中可能会被遗忘。Google DeepMind 提出了对机器人代码编写 LLMs 进行微调来记住它们在上下文中的交互,并提高它们的可教性——它们适应人类输入的效率(以用户认为任务成功之前的平均修正次数来衡量)。该项研究认为,当人与机器人的交互(其中人类语言输入为观测,机器人代码输出为行动)被表述为一个部分可观测的 Markov 决策过程时,训练 LLMs 完成之前的交互可被视为训练一个 transition dynamics 模型,该模型可与如模型预测控制(MPC)等经典的机器人技术相结合来发现更短的成功路径。这就产生了语言模型预测控制(LMPC),它是一个对 PaLM 2 进行微调的框架,可提高 PaLM 2 在 5 种机器人实体的 78 项任务中的可教性,将未见任务的非专家教学成功率提高了 26.9%,同时将人工纠正的平均次数从 2.4 次减少到 1.9 次。实验表明,LMPC 还能产生强大的元学习器,提高了在未见机器人化身和 API 上通过上下文学习新任务的成功率 31.5%。论文链接:https://arxiv.org/abs/2402.11450【转换和组合奖励,对齐大模型】一种常见的将语言模型与人类偏好对齐的常见方法是首先从偏好数据中学习奖励模型,然后使用这个奖励模型来更新语言模型。来自芝加哥大学、Google Research、Google DeepMind 和斯坦福大学的研究团队研究了这种方法中出现的两个问题。首先,奖励模型的任何单调变换都保留了偏好排名,是否存在一个比其他选择更好的选择?其次,我们经常希望将语言模型与多个属性对齐,那么应该如何组合多个奖励模型?使用对齐程序的概率解释,研究团队确定了(常见情况的)从 Bradley-Terry 偏好模型学习的奖励的自然变换选择。这种导出变换具有两个重要属性。第一,它强调改进表现不佳的输出,而不是已经得分很好的输出。这减轻了欠拟合(underfitting,即某些提示没有得到改进)和奖励黑客(reward hacking,即模型学习利用奖励模型的误指定)的问题。第二,它通过将求和与逻辑合取联系起来,使得奖励的合理聚合成为可能:在转换后的奖励之和对应于输出在所有测量属性中都是“good”的概率上做到了精确。实验表明,使用 RLHF 对齐语言模型,这种方法比未经过调整的基线方法有显著的提升,能够使模型在提供帮助的同时避免造成伤害。论文链接:https://arxiv.org/abs/2402.00742【LongAlign:长语境中大模型对齐方法】扩展大型语言模型(LLMs)以有效处理长语境需要对长度相似的输入序列进行指令微调。来自清华大学和智谱 AI 的研究团队提出了一种用于长语境对齐的指令数据、训练和评估方法——LongAlign。研究团队首先使用 Self-Instruct 构建了一个涵盖了各种来自长语境的广泛任务的长指令跟随数据集,确保了数据的多样性。其次采用打包和排序批处理策略,以加快对不同长度分布数据的监督微调。研究团队开发了一种损失加权方法用于平衡打包训练过程中不同序列对损失的贡献。最后,研究团队引入了 LongBench-Chat 基准来评估长度为 10k-100k 的查询上的指令跟随能力。实验表明,在保持处理短小、通用任务的能力的同时,在长语境任务中,LongAlign 的性能比现有的 LLMs 高出 30%。论文链接:https://arxiv.org/abs/2401.18058

第 8 章 安全治理


【针对大模型的新型越狱攻击方式】尽管人们在对齐大型语言模型(LLMs)方面付出了巨大努力,但红队报告表明,这些经过精心对齐的 LLMs 仍有可能通过对抗性提示、调整或解码而被越狱。在研究已对齐 LLMs 的越狱漏洞时,来自加州大学圣巴巴拉分校、新加坡 Sea AI Lab 和卡内基梅隆大学的研究团队发现越狱模型和对齐模型的解码分布仅在初始生成时有所不同,即对手可以利用较小的不安全/已对齐 LLM(如 7B)来引导对较大的已对齐 LLM(如 70B)进行越狱。越狱只需额外解码两个较小的 LLMs 一次,相对于解码较大 LLMs 的这种方式的计算和延迟最小。通过对来自三个不同组织的五个模型进行实验证明了这种攻击的有效性。该研究揭示了一种以前未被注意的高效越狱方法,暴露了在对齐 LLMs 时需要考虑的紧迫安全问题。研究团队尝试提出了一种防御策略来抵御此类攻击,但创建更先进的防御系统仍然面临挑战。论文链接:https://arxiv.org/abs/2401.17256【生成式人工智能安全:挑战与对策】生成式人工智能(Generative AI)在各行各业的应用范围不断扩大,这既让人兴奋,也增加了审查的难度。来自加州大学伯克利分校的研究团队深入探讨了生成式人工智能带来的独特安全挑战,并概述了管理这些风险的潜在研究方向。论文链接:https://arxiv.org/abs/2402.12617【苹果新研究:欺骗大模型有多容易?】多模态大型语言模型(MLLMs)取得的巨大进步并没有使其免受挑战,尤其是在处理提示中的欺骗性信息时,这种情况下会产生幻觉式回应。为此,来自 Apple 公司的研究团队提出了一个新基准——MAD-Bench,它包含 850 个测试样本,分为 6 个类别(如不存在的物体、物体数量、空间关系和视觉混淆等)。研究团队对流行的 MLLMs 进行了全面分析,如从 GPT-4V、Gemini-Pro 到 LLaVA-1.5 和 CogVLM 等开源模型。研究发现,GPT-4V 与其他模型之间存在明显的性能差距;而之前的鲁棒指令微调模型,如 LRV-Instruction 和 LLaVA-RLHF 等在这个新基准上无效。除 GPT-4V 在 MAD-Bench 上达到了 75.02% 的准确率之外,其他模型的准确率都在 5% 到 35% 之间。当在欺骗性提示中增加一段话,鼓励模型在回答问题前“三思而后行”时,这种简单的方法甚至可以将准确率提高一倍;但是,绝对数字仍然太低,无法令人满意。该项研究希望可以将 MAD-Bench 作为一个有价值的基准来激励进一步的研究,从而提高模型对欺骗性提示的应变能力。论文链接:https://arxiv.org/abs/2402.13220

第 9 章 大模型/AI4Science


【SciAgent:用于科学推理的工具增强语言模型】即使对于最先进的大型语言模型(LLMs),科学推理也是一项巨大的挑战。来自南洋理工大学、清华大学、微软公司、加州大学和新加坡管理大学的研究团队提出了一种新的任务设置——工具增强的科学推理。它利用可扩展的工具集对 LLMs 进行补充,将重点转向精通工具的用户。研究团队构建了一个包含超过 30000 个样本和大约 6000 种工具的名为 MathFunc 的工具增强训练语料库,并在其基础上开发了 SciAgent,用于检索、理解并在必要时使用工具解决科学问题。研究团队还制作了一个用于评估 LLM 在工具辅助下能力的横跨五个科学领域的基准——SciToolBench。在 SciToolBench 上进行的大量实验证实了 SciAgent 的有效性。SciAgent-Mistral-7B 的绝对准确率超过了其他同等规模的 LLMs 13% 以上。此外,SciAgent-DeepMath-7B 还显示出比 ChatGPT 更优越的性能。论文链接:https://arxiv.org/abs/2402.11451【让大模型成为你的专属科学助手】自然语言处理(NLP)在训练具有强大的科学问题解决能力的语言模型(LMs)方面取得了很大进展。但模型开发并未聚焦于语言模型在科学领域的实际应用案例中,包括在教育领域中对长篇科学文档的处理。为此,来自普林斯顿大学的研究团队及其合作者提出了 TutorEval 和 TutorChat。TutorEval 是一个包括由专家编写的有关 STEM 教科书中长章节的问题的多样化问题解答基准。TutorEval 是首个结合了长上下文、自由形式生成和跨学科科学知识的基准,它有助于衡量 LMs 作为科学助手在现实生活中的可用性由于利用现有对话数据集微调基础模型会导致在 TutorEval 上表现不佳,研究团队创建了 TutorChat,它是一个包含 80000 篇关于教科书的长篇合成对话的数据集,用于对带有 7B 和 34B 参数的 Llemma 模型进行微调。这些专攻数学的 LM 助手有一个 32K-token 的上下文窗口,它们在 TutorEval 上表现出色,在 GSM8K 和 MATH 中也表现强劲。论文链接:https://arxiv.org/abs/2402.11111【ChemLLM:化学领域的对话式大模型】大型语言模型(LLMs)在分子性质预测、分子生成、实验方案设计等化学应用领域取得了令人瞩目的进展。但仍然缺乏专门为化学设计的对话式模型。挑战在于,大多数化学数据和科学知识主要存储在结构化数据库中,直接使用这些结构化数据会损害模型保持对话连贯性的能力。为此,来自上海人工智能实验室的研究团队及其合作者开发了一种基于模板的指令构建方法,将结构化知识转化为普通对话,使其适用于语言模型训练。利用这种方法,研究团队提出了第一个专门用于化学领域的大型语言模型 ——ChemLLM,它能够通过流畅的对话交互执行化学学科的各种任务。ChemLLM 在化学领域的三项主要任务(即名称转换、分子标题和反应预测)上都优于 GPT-3.5,并在其中两项任务上超过了 GPT-4。尽管 ChemLLM 主要是在以化学为中心的语料库上训练,但它对相关数学和物理任务的适应性也非常出色。此外,ChemLLM 在化学领域的专业 NLP 任务(如文献翻译和化学信息编程)中也表现出了卓越的能力。论文链接:https://arxiv.org/abs/2402.06852【Brant-2:最大的脑信号领域基础模型】基础模型通过在大量未标注数据上的预训练,在应用中只需少量标注数据就能发挥强大性能。这类模型在分析脑信号方面尤其有效,但因为这一领域包含众多应用场景,进行大规模标注的成本很高。来自浙江大学的研究团队提出了脑信号领域最大的基础模型 Brant-2。与专为颅内神经信号设计的基础模型 Brant 相比,Brant-2 不仅对数据变化和建模规模具有鲁棒性,而且可以应用于更广泛的脑神经数据范围。实验证明了 Brant-2 能够适应脑信号的各种应用场景。研究团队揭示了 Brant-2 的可扩展性,验证了每个组件的有效性,展示了其在标签稀缺的情况下保持性能的能力。论文链接:https://arxiv.org/abs/2402.10251

第 10 章 其他


【ToMBench:清华团队领衔提出大模型心智理论基准测试】Theory of Mind(ToM)是一种能够感知并将心理状态归因于自己和他人的认知能力。最近的研究引发了一场关于大型语言模型(LLMs)是否表现出一种 ToM 形式的争论。然而,现有的 ToM 评估受到范围限制、主观判断和意外污染等挑战的阻碍,导致评估不充分。为此,来自清华大学的研究团队及其合作者推出了 ToMBench,它具有三个关键特征:一个涵盖社会认知领域 8 项任务和 31 种能力的系统性评估框架;一种支持自动和无偏见评估的多选题格式;以及一个严格避免数据泄露的自建双语清单。研究团队在 ToMBench 上进行了大量实验,评估了 10 种常用 LLMs 在不同任务和能力下的 ToM 性能。实验表明,即使是像 GPT-4 这样最先进的 LLM,也比人类的表现落后 10% 以上,这表明 LLM 还没有达到人类水平的ToM。ToMBench 用于高效评估大型语言模型的 ToM 能力,从而促进具有内在社会智能的 LLMs 的开发。论文链接:https://arxiv.org/abs/2402.15052【大模型的情商怎么样?清华团队提出 EmoBench】大型语言模型(LLM)的最新进展凸显了对鲁棒、全面和具有挑战性的基准的需求,但很少有研究对其情商(EI)进行评估。现有基准存在两个主要缺点:第一,它们主要侧重于情感识别,忽视了情感调节和通过情感理解促进思维等基本EI能力;第二,它们主要是根据现有数据集构建,其中包括频繁出现的模式、显性信息和注释错误,导致评估不可靠。为此,来自清华大学、密西根大学和香港大学的研究团队提出了一个基于现有心理理论的基准——EmoBench,它提出了一个全面的机器情商定义,包括情感理解(Emotional Understanding)和 Emotional Application(情感应用)。EmoBench 包括一套 400 道人工精心设计的中英文问题。研究表明,现有 LLMs 的情感指数与普通人之间存在相当大的差距,这为未来的研究指明了方向。论文链接:https://arxiv.org/abs/2402.12071【清华、微软提出 Learning Law:语言模型的最优学习】为减少必要的训练步骤、实现卓越的性能,来自清华大学和微软研究院的研究团队探索了改进语言模型(LMs)学习的一般原则。具体来说,研究团队提出了一种 LMs 最优学习理论。首先他们从 “LM 训练即无损压缩”的角度,提出了通过最大化数据压缩率来优化 LM 学习的目标。随后推导出一个名为“Learning Law”的定理,揭示了目标下最优学习过程的动态特性,并通过线性分类和真实世界语言建模任务的实验验证了该定理。最后,研究团队通过实证验证了 LMs 的最优学习本质上源于 LMs scaling law 中系数的改进,这为设计实用的学习加速方法带来了巨大的希望和意义。论文链接:https://arxiv.org/abs/2402.17759【清华团队 RepoAgent:由大模型驱动,主动生成、维护和更新代码文档】生成模型在软件工程领域,尤其是代码生成和调试等任务中已显示出相当大的潜力。然而,它们在代码文档生成领域的应用仍未得到充分开发。为了主动生成、维护和更新代码文档,来自清华大学、中国人民大学和西门子公司的研究团队提出了一个由大型语言模型驱动的开源框架——RepoAgent。实验表明,RepoAgent 在生成高质量的资源库级文档方面表现出色。论文链接:https://arxiv.org/abs/2402.16667【清华团队新研究:让大模型参与城市规划】参与式城市规划是现代城市规划的主流,涉及居民的积极参与。传统的参与式范例需要经验丰富的规划专家,往往耗时且成本高昂。幸运的是,大型语言模型(LLMs)在模拟类人智能体方面已显示出相当大的能力,可用于轻松模拟参与式过程。清华团队为参与式城市规划设计了一个基于 LLM 的多智能体协作框架,该框架可以考虑居民的不同需求,为城市地区生成土地利用规划。研究团队构建了 LLM 智能体来模拟规划者和数千名具有不同特征和背景的居民。研究团队首先要求规划师执行一个初始土地利用规划。为了满足居民对不同设施的需求,他们在每个社区的居民中发起了关于规划的讨论,居民们根据自己的情况提供反馈意见。为了提高讨论效率,他们采用了鱼缸讨论机制(fishbowl discussion mechanism),即每轮由部分居民讨论,其余居民作为听众。最后,让规划者根据居民的反馈修改计划。研究团队在北京的两个实际区域部署了这一方法。实验表明,该方法在居民满意度和包容性指标方面达到了最先进的水平,在服务可达性和生态指标方面也优于人类专家。论文链接:https://arxiv.org/abs/2402.17161【PANDA:无需微调即可增强大模型特定能力】虽然大型语言模型(LLMs)在各种自然语言任务中表现出了相当强的能力,但它们通常无法达到特定领域最先进模型的性能。通过使用相应的数据集对 LLMs 进行微调,可以增强其特定领域的能力。但这种方法既耗费资源又耗费时间,而且不适用于闭源商业 LLMs。来自清华大学和阿里巴巴集团的研究团队提出了一种无需进行微调的方法—— Preference Adaptation for Enhancing Domain-specific Abilities of LLMs(PANDA),它利用专家模型响应偏好洞察来增强 LLMs 的特定领域能力。实验结果表明,PANDA 显著增强了 LLMs 在文本分类和交互决策任务中的特定能力。此外,使用 PANDA 的 LLM 甚至在 ScienceWorld 的 4 项任务上优于专家模型。这一发现凸显了探索无需微调方法、实现从弱到强泛化的潜力。论文链接:https://arxiv.org/abs/2402.12835【DeepMind 新研究:超越 AlphaZero,无需搜索即达大师级国际象棋水平】近期机器学习领域的突破性成功,主要归功于大规模的基于注意力的架构和规模空前的数据集。来自 Google DeepMind 的研究团队研究了大规模训练对国际象棋领域的影响。与依赖复杂的启发式算法、显式搜索或两者结合的传统国际象棋引擎不同,研究团队在一个包含 1000 万盘棋局的数据集上通过监督学习训练了一个拥有 2.7 亿参数的 Transformer 模型。通过使用 Stockfish 16 引擎提供的行动值(action-values)对数据集中的每个棋盘进行注释,得到了大约 150 亿个数据点。不需要任何特定领域的调整或显式搜索算法,研究团队的最大模型在与人类对战中达到了 2895 的 Lichess 快棋 Elo 值,并成功解决了一系列富有挑战的国际象棋难题。其模型在没有 MCTS 的情况下,超过了 AlphaZero 的策略和价值网络以及 GPT-3.5-turbo-instruct 模型。对模型和数据集规模的系统研究表明,只有在足够大的规模下才能产生强大的国际象棋性能。研究团队对设计选择和超参数进行了一系列实验来验证其结果。论文链接:https://arxiv.org/abs/2402.04494【DeepMind 新研究:无需 prompt 的思维链推理】在提升大型语言模型(LLMs)的推理能力方面,此前的研究主要集中在如少样本或零样本的思维链(CoT)提示等特定的提示技术上。这些方法虽然有效,但往往涉及手动密集型的 prompt 工程。来自 Google DeepMind 的研究团队提出了一个问题:LLMs 能否在没有提示的情况下有效地进行推理?研究发现,通过简单地改变解码过程,就能从预训练 LLMs 中引出 CoT 推理路径。与传统的贪婪解码不同,通过研究前 K 个备选 token,研究团队发现 CoT 路径通常是这些序列中固有的。这种方法不仅绕过了提示的干扰因素,还允许我们评估 LLMs 的内在推理能力。解码路径中出现 CoT 与模型解码答案的高置信度相关。这一置信度指标有效地区分了CoT 和非 CoT 路径。在各种推理基准上的研究表明,CoT 解码显著优于标准的贪婪解码。论文链接:https://arxiv.org/abs/2402.10200【DeepMind 推出基础世界模型 Genie,可通过单个图像提示生成交互式、可玩的环境】来自 Google DeepMind 的研究团队提出了首个以无监督方式从未经标注的互联网视频中训练出来的生成交互环境模型——Genie。该模型可以通过文本、合成图像、照片甚至草图来生成无穷无尽的动作可控的虚拟世界。在 11B 参数下,“Genie”可被视为一个基础世界模型。它由一个时空视频 tokenizer、一个自回归动力学模型和一个简单且可扩展的潜在行动模型组成。Genie 使用户能够在生成的环境中逐帧行动,尽管在训练中不需要任何地面实况行动(ground-truth action)标签或世界模型文献中常见的其他特定领域要求。此外,学习到的潜在动作空间还有助于训练智能体模仿未见视频中的行为,为训练未来的通用智能体开辟了道路。论文链接:https://arxiv.org/abs/2402.15391【Google DeepMind:大模型能做多跳推理吗?】来自 Google DeepMind、伦敦大学学院、Google Research 和特拉维夫大学的研究团队探讨了大型语言模型(LLMs)是否能够对复杂的提示执行多跳推理,如“The mother of the singer of ‘Superstition’ is”。研究团队寻找潜在推理路径的证据。第一跳,LLM 将“the singer of ‘Superstition’”这个桥梁实体(bridge entity)潜在地识别为 Stevie Wonder;第二跳,LLM 使用其关于“The mother of Stevie Wonder”的知识来完成提示。研究团队单独分析测试这两个跳转,并将它们的共同出现视为潜在多跳推理的标志。对于第一跳,将提示改为间接提及桥梁实体而不是其他实体,是否会增加 LLM 对桥梁实体的内部回忆。对于第二跳,这种回忆的增加是否会使 LLM 更好地利用它对桥梁实体的知识。在某些关系类型的提示中,研究团队发现了潜在多跳推理的有力证据,80% 以上的提示都使用了推理路径。不过,推理途径的使用与具体上下文密切相关,因不同类型的提示而异。平均而言,第二跳和完整多跳遍历(multi-hop traversal)的证据相当有限,只有第一跳的证据相当可观。此外,随着模型规模的增大,第一跳推理有明显的扩展趋势,但第二跳没有。论文链接:https://arxiv.org/abs/2402.16837【Google DeepMind:视频是现实世界决策的新语言】互联网上有大量的文本和视频数据,通过对下一个 token 或帧的预测,可支持大规模的自监督学习。然而,文本和视频数据并没有得到同等的利用,语言模型对现实世界产生了重大影响,而视频生成在很大程度上仍局限于媒体娱乐。但实际上,视频数据可以捕捉到难以用语言表达的物理世界中的重要信息。为此,来自 Google DeepMind、加州大学伯克利分校和麻省理工学院的研究团队讨论了扩展视频生成功能来解决现实世界中的任务。与语言类似,视频可以作为一个统一的界面,吸收互联网知识并体现不同的任务。研究团队展示了视频生成如何像语言模型一样,通过上下文学习、规划和强化学习等技术充当规划者、智能体、计算引擎和环境模拟器。他们确定了机器人、自动驾驶和科学等领域的主要影响机会,并通过近期工作证明了视频生成中的这些先进功能是如何触手可及的。最后,研究团队指出,解决视频生成中阻碍进步的关键挑战将使视频生成模型与语言模型一起,在更广泛的人工智能应用中展现出独特的价值。论文链接:https://arxiv.org/abs/2402.17139【当 Scaling 遇到 LLM 微调:数据、模型和微调方法的影响】虽然大型语言模型(LLMs)经常采用微调来释放其在下游应用中的能力,但我们对不同微调方法的归纳偏差(尤其是缩放特性)的了解仍然有限。为了填补这一空白,Google DeepMind 和 Google Research 团队进行了系统实验,研究不同的缩放因子(包括 LLM 模型大小、预训练数据大小、新微调参数大小和微调数据大小)是否以及如何影响微调性能。研究团队考虑了两种类型的微调——全模型微调(FMT)和参数高效微调(PET,包括提示微调和 LoRA),并探讨了它们在数据有限机制下的缩放行为,此时,LLM 模型的大小大大超过了微调数据的大小。基于从 1B 到 16B 的两组预训练双语 LLMs,以及在双语机器翻译和多语摘要基准上的实验,研究发现:首先,LLM 微调遵循微调数据大小和每个其他缩放因子之间基于幂的乘法联合 scaling law;其次,LLM 微调更多受益于 LLM 模型缩放而非预训练数据缩放,而 PET 参数缩放通常无效;最佳微调方法高度依赖于任务和微调数据。论文链接:https://arxiv.org/abs/2402.17193【苹果新研究:提高大模型推理效率】最近的研究表明,如果鼓励大型语言模型(LLMs)先解决主要任务的子任务,它们就能更好地解决推理任务。来自密西根大学和苹果公司的研究团队设计了一种类似的策略,将推理任务分解为问题分解阶段和问题解决阶段,并证明该策略优于单阶段解决方案。研究团队假设,相比于问题解决,问题分解应该更容易提炼成较小的模型,因为前者需要大量的领域知识,而后者只需要学习一般的问题解决策略。研究团队提出了提炼这两种能力的方法并评估了它们对推理结果和推理成本的影响。研究表明,可以在提炼问题分解阶段的同时在不同任务、数据集和模型之间实现良好的泛化。但是,要在不损失性能的情况下提炼问题解决能力则比较困难,而且提炼出的模型在泛化方面也很吃力。研究表明,通过将较小的、经过提炼的问题分解模型与问题解决 LLMs 结合使用,可以通过具有成本效益的推理和局部适应来实现推理。论文链接:https://arxiv.org/abs/2402.15000【苹果最新研究:无需辅助模型的快速大模型推理】推测解码(Speculative Decoding)技术可根据辅助草稿模型的预测加快大型目标语言模型的推理速度。在特定的应用场景中,想要达到较高的接受率,往往需要对草稿模型和目标模型进行微调。随着下游任务数量的增加,这些草稿模型会大大增加推理系统的复杂性。来自苹果公司的研究团队提出了一种单模型推测解码方法——Speculative Streaming,它通过将微调目标从下一个 token 预测改为未来的 n-gram 预测,将草稿模型融合到目标模型中。Speculative Streaming 在处理多种任务(如Summarization,Structured Queries和Meaning Representation)中,在不影响生成质量的同时将解码速度提高了 1.8 倍-3.1 倍。Speculative Streaming还具有参数效率高的特点,在使用的额外参数减少了约 10000 倍的情况下,实现了与 Medusa-style 架构相比同等甚至更高的速度提升。这使得它非常适合资源受限的设备。论文链接:https://arxiv.org/abs/2402.11131【Meta 提出 CoA:让大模型高效使用工具】为实现符合人类期望的忠实推理,大型语言模型(LLMs)需要将其推理建立在现实世界知识(如网络事实、数学和物理规则)的基础上。工具可以帮助 LLMs 访问这些外部知识,但在多步骤推理问题中,相互关联的工具调用需要整体、高效的工具使用规划,目前在微调 LLMs 智能体(如 Toolformer)从而在多步骤推理问题中调用工具方面仍然存在挑战。来自洛桑联邦理工学院和 Meta 的研究团队为 LLMs 在多步骤推理中更好地利用工具提出了一种新方法——抽象链(Chain-of-Abstraction,CoA)。它训练 LLMs 用抽象占位符解码推理链、调用领域工具,通过填充特定知识来具体化每个推理链。这种利用 CoA 进行的规划使 LLMs 能够学习更多通用推理策略,这些策略对于不同推理问题相关领域的知识(如数学结果)转移具有很强的适应性。它还允许 LLMs 并行执行解码和调用外部工具,从而避免了因等待工具响应而造成的推理延迟。在数学推理和 Wiki QA 领域,研究表明,这一方法在分布内和分布外测试集上的表现始终优于此前的思维链(CoT)和工具增强基线,平均 QA 准确率提高了约 6%。使用这一方法训练的 LLMs 智能体也能更高效地使用工具,推理速度平均比基准工具增强 LLMs 快约 1.4 倍。论文链接:https://arxiv.org/abs/2401.17464【Meta 新研究:视频编辑大模型 LAVE】视频创作所需的专业知识和精力往往对初学者提出高要求。为此,来自 Meta、多伦多大学和加州大学圣地亚哥分校的研究团队将大型语言模型(LLMs)整合到视频编辑工作流程中,提出了一个可提供由 LLMs 驱动的智能体协助和语言增强编辑功能的系统——LAVE。据介绍,LAVE 可以自动为用户的素材生成语言描述,这为 LLMs 处理视频和协助编辑任务奠定基础。当用户提供编辑目标时,智能体会计划并执行相关操作。此外,LAVE 允许用户通过智能体或直接的 UI 操作来编辑视频,并可手动完善智能体操作,这使其更具灵活性。研究团队对包含从新手到精通编辑的八名参与者进行了用户研究,证明了 LAVE 的有效性。研究结果还揭示了用户对这一 LLMs 辅助编辑范式的看法及其对用户创造力和共同创造感的影响。基于此,研究团队提出了设计方面的启示,为智能体辅助内容编辑的未来发展提供参考。论文链接:https://arxiv.org/abs/2402.10294【斯坦福新研究 RAPTOR:用大模型分析长文档】检索增强型语言模型(LMs)能更好地适应世界状态的变化并融合长尾知识。目前大多数现有方法仅从检索语料库中检索小块连续文本,这限制了对整体文档上下文的全面理解。为此,来自斯坦福的研究团队通过递归嵌入、聚类和总结文本片段,从下至上构建了一个具有不同总结层次的树。在推理时,使用 RAPTOR 模型从这个树中检索,整合不同抽象程度的长文档信息。实验表明,使用递归总结的检索方法在多个任务上明显优于传统的检索增强 LMs。在涉及复杂、多步骤推理的问题解答任务中,该方法展示了最先进的水准;例如,通过将 RAPTOR 检索与 GPT-4 的使用相结合,将 QuALITY 基准的最佳性能在绝对准确率上提高了 20%。论文链接:https://arxiv.org/abs/2401.18059【斯坦福新研究:从口头反馈中学习的大模型】部署大型语言模型(LLMs)的环境多种多样,这就要求能够修改或定制默认的模型行为,从而纳入细微的要求和偏好。指定此类模型调整的便捷接口是高级口头反馈,如“在起草的工作邮件中不要使用 emojis”。虽然编写高级反馈远比收集注释以便从人类反馈中进行强化学习(RLHF)要简单得多,但简单地用这种反馈提示模型会导致反馈过度泛化到不相关的上下文中。如何在不过度泛化的情况下融入口头反馈,来自斯坦福的研究团队提出了一个新方法:Contextualized Critiques with Constrained Preference Optimization——(C3PO)。C3PO 使用一个高级反馈来生成一个小的合成偏好数据集,指定反馈应该(和不应该)如何应用。然后,它根据合成偏好数据对模型进行微调,同时最小化与原始模型的偏差,以处理反馈不适用的提示。实验结果表明,C3PO 能有效地将口头反馈应用于相关场景,同时在其他情况下保留现有行为。对于人类和 GPT-4 生成的高级反馈,C3PO 在遵循给定反馈方面都可以保持与情境基准相当,同时减少了30%的过度泛化。论文链接:https://arxiv.org/abs/2402.10893【微软研究院:在小学数学中挖掘小模型潜力】对于小型语言模型(SLMs)来说,解决数学词语问题一直被认为是一项复杂的任务。最近的一项研究假设,要在 GSM8K 基准上达到 80% 以上的准确率,最小的模型大小需要 340 亿个参数。为了使较小的模型达到这样的性能水平,研究人员通常会训练 SLMs 生成 Python 代码或使用工具帮助避免计算错误。此外,他们还采用集合方法,将多达 100 个模型运行的输出结果进行组合来得出更准确的结果。结果选择采用共识、多数投票或与 SLM 结合使用的单独验证模型。集合方法可大幅提高准确度,但由于需要多次调用模型,成本大幅增加(例如,Phi-GSM 使用 top-48 将性能从 68.2 提高到 81.5)。来自微软公司的研究团队提出了一个基于 Mistral-7B 的 70 亿参数 SLM——Orca-Math,无需多次调用模型,也无需使用验证器、代码执行或任何其他外部工具,在 GSM8k 上实现了 86.81% 的准确率。该方法主要包括两个关键步骤:首先,使用多智能体设置创建一个包含 20 万个数学问题的高质量合成数据集,智能体之间合作生成数据;其次,采用迭代学习技术,使 SLM 能够练习解决问题,接收关于其解决方案的反馈,并从包含 SLM 解决方案和反馈的偏好对中学习。仅使用监督微调技术进行训练时,Orca-Math 在 GSM8k 的 指标上的得分率为 81.50%。通过迭代偏好学习,Orca-Math 实现了 86.81% 的 pass@1。Orca-Math 的性能显著超过了如 LLAMA-2-70B、WizardMath-70B、Gemini-Pro 和 ChatGPT-3.5 等更大型的模型。在使用更少数据(数十万个问题与数百万个问题)的情况下,它的性能也明显优于其他较小的模型。论文链接:https://arxiv.org/abs/2402.14830【AnyGPT:任意对任意模态的大模型】来自复旦大学、Multimodal Art Projection(MAP)和上海人工智能实验室的研究团队提出了一种任意对任意(any-to-any)的多模态语言模型——AnyGPT,它利用离散表示统一处理包括语音、文本、图像和音乐在内的各种模态。AnyGPT 可以在不改变当前大型语言模型(LLMs)架构或训练范式的情况下进行稳定训练。它完全依赖于数据级预处理,使得新模态无缝集成到 LLM 中,就像集成新语言一样。研究团队建立了一个用于多模态对齐预训练的以文本为中心的多模态数据集。利用生成模型,合成了第一个大规模任意多模态指令数据集。它由 108k 个多轮对话样本组成,这些对话错综复杂地交织着各种模态,从而使模型能够处理输入和输出的任意组合。实验表明,AnyGPT 能够促进任意到任意多模态对话,同时在所有模态上都能达到与专业模型相当的性能,证明了离散表示法可以有效、方便地将多种模态统一到一个语言模型中。论文链接:https://arxiv.org/abs/2402.12226【首个触觉大模型 UniTouch:利用触觉进行多模态学习】将触摸与其他模态相结合的能力对人类和计算系统具有深刻意义。由于数据收集过程昂贵和传感器输出的非标准化,利用触觉进行多模态学习仍具有挑战性。来自耶鲁大学和密歇根大学的研究团队提出了一个统一的触觉模型 UniTouch,用于与视觉、语言和声音等多种模态相连的基于视觉的触摸传感器中。研究团队将 UniTouch 嵌入与已与其他多种模式相关联的预训练图像嵌入对齐。通过可学习的特定传感器 tokens 使模型能够同时向一组异构触觉传感器学习。UniTouch 能够在零样本环境下执行各种触觉感知任务,从机器人抓取预测到触摸图像问答。UniTouch 是第一个展示出这种能力的模型。论文链接:https://arxiv.org/abs/2401.18084【ModelGPT:大模型可以任意定制了,还快 270 倍】大型语言模型(LLMs)通过自动化日常任务给各个领域带来了革命性的变化。然而,它们在满足用户多样化的特定需求和以简化普通用户对人工智能(AI)模型的使用方面仍然存在困难。为此,来自浙江大学的研究团队提出了 ModelGPT,它旨在利用 LLMs 的功能,根据用户提供的数据或任务描述确定并生成专门定制的 AI 模型。考虑到用户需求,ModelGPT 能够以比以往范式(如全参数或 LoRA 微调)快 270 倍的速度提供量身定制的模型。在 NLP、CV 和 Tabular 数据集上进行的综合实验证明了 ModelGPT 在使 AI 模型更易于访问和用户友好方面的有效性。论文链接:https://arxiv.org/abs/2402.12408【200 万 tokens!大模型上下文窗口又双叒叕长了】长上下文窗口是大型语言模型(LLMs)的理想功能。然而,由于微调成本高、长文本稀缺以及新 token 位置引入的灾难性值,目前的扩展上下文窗口仅限于大约 128k tokens。来自微软的研究团队提出了 LongRoPE,它首次将预训练 LLMs 的上下文窗口扩展到了 2048k tokens,在 256k 的训练长度内只需 1k 个微调步骤,同时保持了原始短上下文窗口的性能。该项研究包括三项关键创新:第一,通过高效搜索识别并利用位置插值中的两种不均匀性形式为微调提供更好的初始化,并在非微调情况下实现了 8 倍扩展;第二,研究团队提出了一种渐进扩展策略,首先微调 256k 长度的 LLM,然后在微调扩展的 LLM 上进行第二次位置插值,从而实现 2048k 上下文窗口;第三,在 8k 长度上重新调整 LongRoPE 来恢复短上下文窗口性能。在 LLaMA2 和 Mistral 上对各种任务进行的大量实验证明了这一方法的有效性。通过 LongRoPE 扩展的模型保留了原始架构,只对位置嵌入稍作修改,并且可以重复使用大部分已有的优化。论文链接:https://arxiv.org/abs/2402.13753【这种方法,让大模型上下文长度超过百万 tokens】目前的语言模型在理解世界上不容易用语言描述的方面存在不足,处理复杂的长篇任务也很吃力。视频序列提供了语言和静态图像不具备的宝贵的时间信息,因此非常适合与语言联合建模。这种模型可以发展对人类文字知识和物理世界的理解,从而实现更广泛的人工智能辅助人类的目标。但由于内存限制、计算复杂性和数据集有限等原因,从数百万 tokens 的视频和语言序列中进行学习是一项挑战。为此,来自加州大学伯克利分校提出了一个包含各种视频和书籍的大型数据集,利用 RingAttention 技术对长序列进行可扩展的训练,并逐步将上下文长度从 4K 增加到 1M tokens。研究团队做出了以下突破:第一,最大上下文长度的神经网络,在长视频和语言序列上训练了一个最大的上下文长度的 transformer,为困难的检索任务和长视频理解设定了新的基准;第二,克服视觉-语言训练挑战的解决方案,包括使用掩码序列打包混合不同的序列长度、损失加权以平衡语言和视觉,以及模型生成的长序列聊天 QA 数据集;第三,带有 RingAttention、屏蔽序列打包和其他关键功能的高度优化实现,可在数百万长度的多模态序列上进行训练;第四,完全开源的 7B 参数模型系列,能够处理超过 1M tokens 的长文本文档(LWM-Text、LWM-Text-Chat)和视频(LWM、LWM-Chat)。论文链接:https://arxiv.org/abs/2402.08268【让大模型成为更好的学习者】为了让基于大型语言模型(LLMs)的助手有效地适应不断变化的信息需求,必须通过对新数据的持续训练来更新它们的事实知识。目前的标准方法包括在新文档上进行持续的预训练,然后在问答(QA)对上进行指令微调。来自 Meta FAIR 实验室、卡内基梅隆大学和华盛顿大学的研究团队提出,尽管文档的困惑度(perplexity)已经降到了最低,这种方法训练出来的 LLMs 在回答问题时仍然很吃力。QA 对一般都比较简单,而文档则比较复杂,许多事实陈述错综复杂地交织在一起。因此,研究团队假设在继续在文档上进行预训练之前,让 LLMs 接触 QA 对是有益的,这样在对复杂文档中的知识进行编码的过程中,就能考虑到如何通过问题来获取这些知识。在此基础上,研究团队提出了预指令微调(pre-instruction-tuning,PIT),一种在文档训练之前对问题进行指导微调的方法。这与标准的指令微调在文档训练之后学习如何提取知识形成了鲜明对比。实验表明,PIT 显著增强了 LLMs 从新文档中吸收知识的能力,比标准指令调微调高出 17.8%。论文链接:https://arxiv.org/abs/2402.12847【神经网络扩散(Neural Network Diffusion)】扩散模型在图像和视频生成方面取得了很大成功。来自新加坡国立大学、Meta AI 和加州大学伯克利分校的研究团队提出,扩散模型也能生成高性能的神经网络参数。该方法使用了一个自动编码器和一个标准的潜在扩散模型。自动编码器提取训练网络参数子集的潜在表示,训练扩散模型从随机噪音中合成这些潜在参数表示,随后生成新的表示,再通过自动编码器的解码器,其输出可用作新的网络参数子集。在各种架构和数据集上,这一扩散过程在保持额外成本极低的同时,始终能够生成与训练有素的网络性能相当或更高的模型。研究发现,生成的模型与训练有素的网络性能不同。该研究有助于对扩散模型的多样化使用进行更多探索。论文链接:https://arxiv.org/abs/2402.13144【VideoPrism:用于理解视频的基础视觉编码器】来自 Google Research 的研究团队提出了一个通用视频编码器——VideoPrism,它可以通过单个冻结模型处理各种视频理解任务。VideoPrism 在一个异构语料库上进行了预训练,该语料库包含 36M 高质量视频字幕对和 584M 个视频剪辑以及带有噪声的平行文本视频片段(如 ASR 转录文本)。预训练方法在语义视频嵌入的全局-局部蒸馏和 token 洗牌方案上改进了掩蔽自动编码,使 VideoPrism 能够在主要关注视频模态的同时利用与视频相关的文本。研究团队在四大类视频理解任务中进行了广泛测试,VideoPrism 在 33 个视频理解基准中的 30 个基准上实现了最先进的性能。论文链接:https://arxiv.org/abs/2402.13217【更经济的大模型预训练方案】以 GPT-4 等为代表的大型语言模型(LLMs)的快速发展重塑了自然语言处理领域的格局。来自麦吉尔大学的研究团队介绍了一种解决 LLMs 预训练效率问题的新方法——使用知识提炼进行跨架构转移。利用 Hyena 机制的洞察力,用 Hyena 取代 Transformer 模型中的注意力头,在解决二次注意力机制固有的处理长上下文信息问题的同时,为传统的预训练提供了一种经济高效的替代方案。与传统的以压缩为重点的方法不同,这项技术不仅提高了推理速度,而且在准确性和效率方面都超越了预训练。该项研究有助于追求可持续的人工智能解决方案,并在计算能力和环境影响之间取得平衡。论文链接:https://arxiv.org/abs/2401.17574【大模型能理解语境吗?】理解语境是理解人类语言的关键,大型语言模型(LLMs)在这方面已经展现出令人印象深刻的能力。尽管对 LLMs 的评估涵盖了自然语言处理领域的各种任务,但对其理解语境特征能力的关注却很有限。来自乔治敦大学和苹果公司的研究团队通过对现有数据集进行调整,引入了一个语境理解基准以适应生成模型的评估。该基准包括包含评估模型理解语境能力的提示的四个不同的任务和九个数据集。评估 LLMs 在语境学习预训练场景下的性能的实验表明,与最先进的微调模型相比,经过预训练的密集模型在理解更微妙的语境特征方面存在困难。由于 LLMs 压缩在研究和实际应用中的重要性与日俱增,研究团队还评估了量化模型在语境学习设置下的语境理解能力:在其基准上,3-bit 训练后量化会导致不同程度的性能下降。论文链接:https://arxiv.org/abs/2402.00858【基于对抗性评估的 AI 生成学生论文检测】大型语言模型(LLM)在文本生成任务中表现出了非凡的能力。但这也导致了包括但不限于剽窃、假新闻传播和教学练习中的问题。现有的检测器在对抗干扰方面,尤其是在学生论文写作方面的有效性很大程度上尚未讨论。为此,来自中国科学院大学和中科院的研究团队通过构建人工智能(AI)生成的学生论文数据集 AIG-ASAP,它采用了一系列预计能够生成高质量论文的同时躲避检测的文本干扰方法。对当前 AIGC 检测器在 AIG-ASAP 数据集上的性能的评估表明,现有的检测器很容易被简单的自动对抗攻击所规避。研究团队探索了有效的词语替换和句子替换干扰方法,这些方法在保持生成论文质量的同时有效地规避了检测。这表明目前在教育领域迫切需要更准确、更鲁棒的方法来检测 AI 生成的学生论文。论文链接:https://arxiv.org/abs/2402.00412【GLoRe:何时、何地、如何改进大模型推理】最先进的语言模型可以在数学、科学或编码任务中表现出令人印象深刻的推理细化能力。但即使是最好的模型,在没有外部反馈的情况下,也很难确定在何时何地进行改进。基于结果的 Reward Models(ORMs)经过训练可以预测最终答案的正确性并指明何时进行改进;基于过程的 Reward Models(PRMs)经过训练可以预测中间步骤的正确性然后指示何时进行改进,但这些模型的训练成本很高,还需要大量的人工注释。来自 Meta 公司、佐治亚理工学院和 StabilityAI 公司的研究团队提出了 Stepwise ORMs(SORMs),它仅在合成数据上进行训练,以近似地预测最优策略或 V⋆的预期未来回报。训练 SORMs 是为了预测对当前策略进行多次采样(而不是像 ORMs 那样只采样一次)时最终答案的正确性。实验表明,与 ORMs 相比,SORMs 可以更准确地检测出错误的推理步骤,提高下游改进时的准确性。研究团队训练了全局细化模型和局部细化模型,前者仅将问题和解决方案草案作为输入并预测校正后的解决方案,后者将指示第一个推理错误位置的评论作为输入。通过重复使用用于训练 SORM 的数据为这两种模型合成训练数据,研究团队发现,将全局和局部细化结合起来并将 ORM 用作重判器,效果明显优于单独使用的任何一种,也优于三个样本中最好的基线。通过这种方法,在贪婪采样时,LLaMA-2 13B 模型(已经用 RL 进行了微调)在 GSM8K 上将的准确率从 53% 提高到 65%。论文链接:https://arxiv.org/abs/2402.10963【FinTral:GPT-4 级金融多模态大模型】来自不列颠哥伦比亚大学和 Invertible AI 的研究团队提出了一套基于 Mistral-7b 模型构建的、为金融分析定制的最新多模态大型语言模型(LLMs)——FinTral,它集成了文本、数字、表格和图像数据。通过大量文本和视觉数据集,研究团队对 FinTral 进行了特定领域的预训练、指令微调和 RLAIF 训练,还提出了一个包括 9 项任务和 25 个数据集的、用于评估金融领域的幻觉的基准。FinTral 模型采用先进的工具和检索方法进行直接偏好优化训练,显示出卓越的零样本性能,被称为 FinTral-DPO-T&R。它在所有任务中的表现都优于 ChatGPT-3.5,并在九个任务中的五个任务中超过了 GPT-4,标志着人工智能驱动的金融技术取得了重大进展。FinTral 还具有在各种金融环境中进行实时分析和决策的潜力。论文链接:https://arxiv.org/abs/2402.10986【眼见为实:通过 CLIP 引导解码减少大型视觉语言模型中的幻觉】大型视觉语言模型(LVLMs)容易出现对象幻觉问题,即生成的文本包含不存在的对象,这大大限制了其可靠性和实用性。目前的方法通常依赖于模型的 token likelihoods 或其他内部信息、在额外的数据集上进行指令微调或结合复杂的外部工具。来自新加坡国立大学的研究团队对句子级 LVLM 幻觉进行了实证分析,发现与 token likelihoods 相比,CLIP 与图像的相似度是更强更鲁棒的幻觉指标。受此启发,研究团队提出了一种简单而有效的免训练方法CLIP-Guided Decoding(CGD),可在解码时减少对象幻觉。CGD 使用 CLIP 来指导模型的解码过程,通过图像来增强生成文本的视觉基础。实验证明,在多个 LVLM 系列中,CGD 都能有效减少对象幻觉,同时保持文本生成的实用性。论文链接:https://arxiv.org/abs/2402.15300【MobileLLM:针对端侧使用案例优化次十亿参数语言模型】由于云计算成本和延迟问题日益突出,移动设备对高效大型语言模型(LLMs)的需求与日俱增。来自 Meta公司和 PyTorch 的研究团队专注于设计参数少于十亿的高质量 LLMs,这是移动部署的实用选择。与强调数据量和参数数量在决定模型质量中起决定性作用的普遍观点相反,该项研究强调了模型架构对十亿以下规模 LLMs 的重要性。利用深层和薄层架构,结合嵌入共享和分组查询关注机制,研究团队建立了一个强大的基线网络——MobileLLM,与之前的 125M/350M 最先进模型相比,准确率显著提高了 2.7%/4.3%。研究团队还提出了一种即时的分块权重共享方法,不增加模型大小,仅会产生少量延迟开销。由此产生的模型被称为 MobileLLM-LS,与 MobileLLM 125M/350M 相比,精度进一步提高了 0.7%/0.8%。此外,MobileLLM 模型系列在聊天基准测试中与之前的十亿以下规模模型相比有了显著提高,在 API 调用任务中与 LLaMA-v2 7B 的正确性接近,凸显了小型模型在常见设备使用案例中的能力。论文链接:https://arxiv.org/abs/2402.14905【MobiLlama:实现准确、轻量级的全透明 GPT】“Bigger the better”是近年来大型语言模型(LLMs)发展的主流趋势。然而,LLMs 并不适合需要在设备上处理、节能、低内存占用和响应效率的应用场景。这些要求对于隐私、安全和可持续部署至关重要。来自阿联酋人工智能大学、澳大利亚国立大学、阿尔托大学、墨尔本大学和林雪平大学的研究团队在其研究中探讨了“less is more”的范式,解决了为资源有限的设备设计精确高效的小型语言模型(SLMs)的难题。研究团队提出了一个精确且完全透明的开源 5 亿(0.5B)参数 SLM——MobiLlama,专门满足资源受限计算的特定需求,重点是在降低资源需求的同时提高性能。MobiLlama 是一种从一个更大的模型出发的 SLM 设计,它采用一种谨慎的参数共享方案来降低预训练和部署成本。论文链接:https://arxiv.org/abs/2402.16840【InstructEdit:基于指令的大模型知识编辑】对大型语言模型(LLMs)的知识编辑可以提供一种有效的解决方案,在不对整体性能产生负面影响的情况下改变模型的行为。然而,当前的方法存在跨任务泛化能力有限的问题,每个任务都需要一个不同的编辑器,这极大地阻碍了更广泛的应用。为此,来自浙江大学和腾讯公司的研究团队开发了一项基于指令的编辑技术—— InstructEdit,它可以通过简单的指令使编辑器同时适应各种任务的执行。在每个 LLM 只有一个统一编辑器的情况下,实验证明 InstructEdit 可以提高编辑器的控制能力,从而使多任务编辑设置中的可靠性平均提高 14.86%。此外,涉及保留未见任务的实验表明,InstructEdit 不断超越以前的强基线。为了进一步研究基于指令的知识编辑的内在机制,研究团队分析了编辑梯度方向的主成分,发现指令可以帮助控制优化方向,并具有更强的 OOD 泛化能力。论文链接:https://arxiv.org/abs/2402.16123【将生成式 AI 应用于无人“机”群:挑战、应用和机遇】随着近年来人工智能(AI)和机器人技术的发展,无人“机”群在执行对人类来说困难且危险的服务方面展现出巨大潜力,受到了学术界和工业界的极大关注。在复杂多变的环境中学习和协调大量无人“机”的动作和行动,给传统的 AI 方法带来了巨大挑战。生成式人工智能(GAI)具有复杂数据特征提取、转换和增强的能力,在解决无人“机”群面临的这些挑战方面具有巨大潜力。该论文全面研究了 GAI 在无人“机”群中的应用、挑战和机遇。首先概述了无人“机”和无人“机”群,以及它们的使用案例和现有问题。然后深入介绍了各种 GAI 技术的背景及其在增强无人车群方面的能力。文中全面回顾了 GAI 在无人“机”群中的应用和挑战,进行了各种深入探讨和讨论。最后强调了无人“机”群中 GAI 的开放性问题,并讨论了潜在的研究方向。论文链接:https://arxiv.org/abs/2402.18062【Sum2Act:利用开放世界 API 增强大模型】人与动物的区别在于人类具有使用和创造工具的独特能力。工具使人类有能力克服生理上的限制,创造出伟大的文明。同样,让大型语言模型(LLMs)等基础模型具备学习外部工具使用的能力,可能是实现通用人工智能的关键一步。该领域以往的研究主要采用两种不同的方法来增强 LLMs 的工具调用能力。第一种方法强调构建用于模型微调的相关数据集。第二种方法则旨在通过上下文学习策略,充分利用 LLMs 固有的推理能力。来自西安交通大学人工智能与机器人研究所、复旦大学和华为诺亚方舟实验室的研究团队提出了一种新颖的工具调用 pipeline——from Summary to action(Sum2Act),旨在控制大规模的真实世界 API。Sum2Act 模仿人类解决任务的过程,解决了现实生活中复杂的用户查询问题。在每一步都引导 LLMs 总结所取得的成果,并确定下一步行动方案。在 ToolBench 基准上对 Sum2Act pipeline 进行的实证评估显示出显著的性能提升,超过了 ReAct 和 DFSDT 等成熟方法。这凸显了 Sum2Act 在增强 LLMs 以完成复杂的实际任务方面的有效性。论文链接:https://arxiv.org/abs/2402.18157【微软、国科大开启 1 bit 大模型时代】最近的研究(如 BitNet)正在为 1 位大型语言模型(LLMs)的新时代铺平道路。来自微软公司和中国科学院大学的研究团队提出了一种 1 bit 大模型变体——BitNet b1.58,其中 LLM 的每个参数(或权重)都是三进制 {-1, 0, 1}。在困惑度和最终任务性能方面,它与具有相同模型大小和训练 token 的全精度(即 FP16 或 BF16)Transformer LLM 相匹配,同时在延迟、内存、吞吐量和能耗方面更具成本效益。更深远的意义在于,1 bit 大模型定义了一种新的 scaling law,也是训练新一代 LLM 的秘诀,这种 LLM 性能高、成本低。此外,它还实现了一种新的计算模式,并为设计针对 1 bit 大模型进行优化的特定硬件打开了大门。论文链接:https://arxiv.org/abs/2402.17764

|点击关注我 👇 记得标星|


 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy