OpenAI最强竞对：AI的“欺骗性”难以消除｜大模型周报

1,624次阅读

本周值得关注的大模型 / AIGC++ 前沿研究

OpenAI 最强对手：AI 的“欺骗性”难以消除
一张照片，生成你的定制肖像
Thought Cloning：让 AI 模仿人类思维，边思考边行动
清华团队新研究：大模型的调试能力评估
Blending Is All You Need：更便宜、更好的万亿参数 LLM 替代方案
基于大型语言模型的智能代理：定义、方法和前景
Agent AI：探索多模态交互的前景
机器人大模型：机遇、挑战与展望
字节新研究：高保真视频生成器MagicVideo-V2
谷歌新研究：胜过人类的对话式 AI 诊断
TrustLLM：大模型的可信度研究
LEGO：语言增强型多模式接地模型
在数百万视频中提炼视觉语言模型

1.OpenAI 最强对手：AI的“欺骗性”难以消除

人类具备做出策略性欺骗行为的能力：在大多数情境下表现出乐于助人的行为，但一旦有机会，就会采取完全不同的行为，妄图实现其他目标。如果人工智能（AI）系统也学到了这种欺骗策略，人类是否能够通过当前最先进的安全训练技术来发现并消除它呢？

为了研究这一问题，被称为“OpenAI 最强对手”的 Anthropic 构建了在大型语言模型（LLMs）中展示欺骗行为的概念验证实例。例如，研究团队训练模型在提示中指定年份为 2023 时编写安全代码，但在指定年份为 2024 时插入可利用的代码。

研究人员发现，这种带后门的行为可以持续存在，因此常规的安全训练技术，包括监督微调、强化学习和对抗性训练（引发不安全行为，然后训练以消除它），都无法将其移除。

在最大的模型中，以及在被训练成能产生欺骗训练过程的思维链推理的模型中，后门行为最难以消除，即使思维链被提取出来时，这种持续性依然存在。

此外，研究人员还发现，对抗性训练非但不能消除后门，反而能教会模型更好地识别其后门触发器，从而有效地隐藏不安全行为。

研究结果表明，一旦模型展现出欺骗行为，常规技术可能无法消除这种欺骗，从而造成安全的假象。

OpenAI最强竞对：AI的“欺骗性”难以消除｜大模型周报

论文链接：

https://arxiv.org/abs/2401.05566

2.一张照片，生成你的定制肖像

如今，由于人脸的高精细度，人脸定制是图像生成研究的一个难点。

FaceChain 通过训练人的 LoRA 模型来整合面部信息，并生成个性化的肖像。然而，由于需要训练用户的 LoRA 模型，其训练和推理增加了用户的成本。

来自阿里的研究团队提出了一个 FaceChain 的零样本版本——FaceChain-FACT，它不需要进行 Face LoRA 模型训练，且只需要输入用户的一张照片，就能生成定制肖像。与 SOTA 商业应用相比，它的生成速度快了 100 倍。

另外，FaceChain-FACT 集成了基于 Transformer 的人脸特征提取器，其结构与 Stable Diffusion 类似，这使得其能更好地利用人脸信息；此外，研究团队使用密集的细粒度特征作为人脸条件，从而能够更好地还原人物特征；值得一提的是，FaceChain-FACT 与 ControlNet 和 LoRA 插件无缝兼容，即插即用。

OpenAI最强竞对：AI的“欺骗性”难以消除｜大模型周报

项目地址：

https://facechain-fact.github.io

3.Thought Cloning：让 AI 模仿人类思维，边思考边行动

语言是影响人类思维的关键要素，为我们提供了概括、探索、规划、重新规划和适应新环境的卓越能力。然而，强化学习（RL）智能体在这些能力上却远不如人类。

该研究假设：造成这种认知缺陷的原因之一是，智能体不具备使用语言思考的优势，希望通过训练它们像人类一样思考来改进。为此，研究人员提出了一个模仿学习框架——思维克隆（Thought Cloning），其理念是不仅克隆人类的行为，而且克隆人类在执行这些行为时的思维。

他们发现，思维克隆的学习速度要比行为克隆快得多，且其性能优势随着测试任务的离散程度加大而越大，这凸显了其更好地处理新情况的能力。

此外，思维克隆还提高了 AI 的安全性和可解释性，并使 AI 的调试和改进变得更加容易，比如：更容易地诊断出事情出错的原因，从而更容易地解决问题；通过纠正代理的想法来引导它；或者防止它做它计划做的不安全的事情。

研究人员认为，通过训练智能体如何思考和行动，该方法可以创造出更安全、更强大的智能体。

项目地址：

https://www.shengranhu.com/ThoughtCloning/

4.清华团队新研究：大模型的调试能力评估

以往研究表明，大型语言模型（LLMs）已具备出色的编码能力。然而，作为编程能力的另一个重要组成部分，以往由于受到数据泄露风险、数据集规模和测试错误种类的严重限制，关于 LLMs 调试能力的评估仍相对不足。

为此，清华大学团队提出了一个由 4253 个实例组成的 LLMs 调试基准——DebugBench，其涵盖了 C++、Java 和 Python 中的四个主要错误类别和 18 个次要类型。

为了构建 DebugBench，研究团队从 LeetCode 社区收集代码片段，用 GPT-4 将错误植入源数据，并进行严格的质量检查。评估结果显示，GPT-4 等闭源模型的调试性能不如人类，而 Code Llama 等开源模型则无法达到任何通过率分数；调试的复杂性会因错误类别的不同而明显波动；加入运行时反馈会对调试性能产生明显影响，但并非总是有帮助的。

此外，研究团队还对 LLMs 调试和代码生成进行了比较，他们发现，对于闭源模型而言，两者之间存在很强的相关性。

OpenAI最强竞对：AI的“欺骗性”难以消除｜大模型周报

论文链接：

https://arxiv.org/abs/2401.04621

5.Blending Is All You Need：更便宜、更好的万亿参数 LLM 替代方案

在对话式人工智能（AI）研究中，一个明显的趋势是开发具有更多参数的模型。虽然这些模型能够生成越来越好的聊天回复，但却需要大量的计算资源和内存。

该研究探讨了这样一个问题：与单一的大型模型相比，较小模型的组合能否协同实现相当或更高的性能？

为此，研究人员提出了一种整合多个聊天 AI 的简单而有效的方法——“混合”（blending）。以往的经验表明，如果将特定的较小模型进行协同混合，它们的性能就有可能超过或赶上更大的对应模型。例如，只需要整合三个中等规模（6B/13B 参数）的模型，其性能指标就能与 ChatGPT（175B+ 参数）这样的大型模型相媲美，甚至超越。

研究人员使用 A/B 测试方法对这一假设进行了为期 30 天的严格测试，研究结果表明，“混合”策略作为一种可行方法的潜力，可以在不相应增加计算需求的情况下提高聊天 AI 的效率。

论文链接：

https://arxiv.org/abs/2401.02994

6.基于大型语言模型的智能代理：定义、方法和前景

智能体是实现通用人工智能（AGI）的潜在途径。因此，研究人员投入了大量精力对其进行多样化的实现。得益于最近在大型语言模型（LLMs）方面取得的进展，以通用自然语言为界面的基于 LLMs 的代理在各种应用中都表现出了强大的泛化能力——从作为自主通用任务助手到编码、社会和经济领域的应用，基于 LLM 的代理提供了广泛的探索机会。

在该论文中，来自香港中文大学的研究团队及其合作者，通过对当前研究的调查，深入概述了单智能体和多智能体系统中基于 LLMs 的智能体，其中涵盖了它们的定义、研究框架和基础组成部分，如它们的组成、认知和规划方法、工具利用以及对环境反馈的响应。

此外，研究团队还深入探讨了在多智能体系统中部署基于 LLMs 的代理的机制，包括多角色协作、消息传递和缓解代理间通信问题的策略。

OpenAI最强竞对：AI的“欺骗性”难以消除｜大模型周报

论文链接：

https://arxiv.org/abs/2401.03428

7.Agent AI：探索多模态交互的前景

未来，在我们的日常生活中，多模态人工智能（Multi-modal AI）系统或许无处不在。要想使这些系统拥有更好的互动性，一种有希望的方法是将它们具身化为物理和虚拟环境中的智能体。

目前，系统利用现有的基础模型作为创建具身智能体的基本构件。将智能体嵌入到这些环境中有助于提高模型处理和解释视觉及上下文数据的能力，这对于创建更复杂、更能感知上下文的 AI 系统至关重要。例如，一个能够感知用户行为、人类行为、环境物体、音频表达和场景的集体情绪的系统，可用于告知和指导智能体在给定环境中的反应。

为了加快对基于智能体的多模态智能的研究，来自微软研究院、斯坦福大学的研究团队及其合作者，将智能体 AI（Agent AI）定义为一类交互系统，它可以感知视觉刺激、语言输入和其他环境基础数据，并能与无限代理一起产生有意义的具身行动。特别是，这些系统旨在通过结合外部知识、多感官输入和人类反馈，在下一个具身行动预测的基础上改进智能体。

研究人员认为，通过在基础环境中开发 Agent AI 系统，还可以减轻大型基础模型的幻觉及其产生环境错误输出的倾向。

OpenAI最强竞对：AI的“欺骗性”难以消除｜大模型周报

论文链接：

https://arxiv.org/abs/2401.03568

8.机器人大模型：机遇、挑战与展望

大型语言模型（LLMs）已经越来越多地集成到各个行业中。值得注意的是，在机器人任务规划领域，LLMs 利用其先进的推理和语言理解能力，根据自然语言指令制定精确高效的行动计划。然而，对于机器人与复杂环境交互的具身任务，由于缺乏与机器人视觉感知的兼容性，纯文本 LLMs 往往面临挑战。

来自西北工业大学、佐治亚大学的研究团队及其合作者，在该论文中提供了 LLMs 和多模态 LLMs 整合到各种机器人任务的新兴集成的全面概述。研究团队还提出了一个利用多模态 GPT-4V 的框架，通过将自然语言指令与机器人视觉感知相结合来增强具身任务规划。

基于不同数据集的研究结果表明，GPT-4V 能有效提高机器人在具身任务中的表现。在各种机器人任务中对 LLMs 和多模态 LLMs 的广泛调查和评估，丰富了人们对以 LLMs 为中心的具身智能的理解，并为缩小人-机器人-环境交互的差距提供了前瞻性见解。

OpenAI最强竞对：AI的“欺骗性”难以消除｜大模型周报

论文链接：

https://arxiv.org/abs/2401.04334

9.字节新研究：高保真视频生成器MagicVideo-V2

近来，根据文字描述生成高保真视频的需求日益增长，促进了这一领域的重要研究。

在这项工作中，来自字节跳动的研究团队提出了 MagicVideo-V2，它将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到一个端到端视频生成 pipeline 中。

据论文描述，MagicVideo-V2 可以生成美观的高分辨率视频，且具有出色的保真度和流畅性。通过大规模用户评估，该模型的性能优于 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 等文本到视频系统。

OpenAI最强竞对：AI的“欺骗性”难以消除｜大模型周报

论文链接：

https://arxiv.org/abs/2401.04468

10.谷歌新研究：胜过人类的对话式 AI 诊断

医学的核心在于医患对话，熟练的病史采集是精准诊断、有效管理和建立持久信任的关键。能够进行诊断对话的人工智能（AI）系统，可以提高医疗服务的可及性、一致性和质量，但达到临床医生的专业知识水平依然是一项艰巨的挑战。

Google Research 和 Google DeepMind 提出了一种基于大型语言模型（LLM）、专为诊断对话优化的 AI 系统——AMIE（Articulate Medical Intelligence Explorer）。AMIE 采用了一种基于自我博弈的模拟环境，具有自动反馈机制，可在不同疾病条件、专业和环境下进行扩展学习。另外，研究团队还设计了一个框架，用于评估具有临床意义的指标，包括病史采集、诊断准确性、管理推理、沟通技巧和同理心。

在一项随机、双盲交叉研究中，研究团队将 AMIE 的表现与初级保健医生（PCP）的表现进行了比较，结果显示，AMIE 的诊断准确性更高，在 32 个指标中的 28 个指标上表现更佳；而患者行为者认为，AMIE 在 26 个指标中的 24 个指标上表现更佳。

然而，该研究也存在一些局限性，在解释时应保持适当的谨慎。临床医生仅限于使用陌生的同步文本聊天，这种聊天方式允许大规模的 LLM 患者互动，但并不代表通常的临床实践。虽然在将 AMIE 应用于现实世界之前还需要进一步的研究，但该研究成果代表了对话式 AI 诊断的重要突破。

OpenAI最强竞对：AI的“欺骗性”难以消除｜大模型周报

论文链接：

https://arxiv.org/abs/2401.05654

11.TrustLLM：大模型的可信度研究

当前，大型语言模型（LLMs）面临着诸多挑战，尤其是在可信度方面。因此，确保 LLMs 的可信度已成为一个重要研究方向。

为此，来自理海大学的研究团队及其合作者提出了 TrustLLM，这是一项关于 LLMs 可信度的综合研究，包括可信度不同维度的原则、主流 LLMs 可信度的既定基准、评估和分析，以及对公开挑战和未来方向的讨论。

具体而言，研究团队首先提出了一套包含 8 个不同维度的可信 LLMs 原则，在这些原则的基础上，进一步建立了 6 个方面的基准，包括真实性、安全性、公平性、稳健性、隐私性和机器伦理。

然后，研究团队在 TrustLLM 中对 16 种主流 LLMs 进行了评估。结果显示，一般来说，可信度与效用（即功能有效性）呈正相关；专有 LLMs 在可信度方面普遍优于大多数开源 LLMs；一些 LLMs 会过度追求可信度，以至于误将良性提示视为有害提示而不予回应，从而影响其实用性；此外，不仅要确保模型本身的透明度，还要确保支撑可信度的技术的透明度。

OpenAI最强竞对：AI的“欺骗性”难以消除｜大模型周报

论文链接：

https://arxiv.org/abs/2401.05561

12.LEGO：语言增强型多模式接地模型

当前，多模态模型主要强调捕捉每种模态中的全局信息，而忽视了感知跨模态局部信息的重要性，因而缺乏有效理解输入数据细粒度细节的能力，在需要更细致理解的任务中的表现不尽如人意。

为了提高多模态模型在各种任务中的适用性，我们迫切需要开发一个能够跨模态理解细粒度信息的模型。

为此，来自字节跳动、复旦大学的研究团队提出了语言增强型多模态接地模型 LEGO。除了像其他多模态模型一样捕捉全局信息外，该模型在要求详细理解输入中局部信息的任务中表现出色。它能精确识别和定位图像中的特定区域或视频中的特定时刻。为了实现这一目标，研究团队设计了一个多样化的数据集构建 pipeline，构建了一个用于模型训练的多模态、多粒度数据集。

OpenAI最强竞对：AI的“欺骗性”难以消除｜大模型周报

论文链接：

https://arxiv.org/abs/2401.06071

13.在数百万视频中提炼视觉语言模型

近来，视觉语言模型的发展主要归功于丰富的图像文本数据。该研究的目标是将这一成功经验复制到视频语言模型中，但人类编辑的视频文本数据并不够用。

因此，研究团队利用合成的教学数据，从图像语言基线出发，对视频语言模型进行微调。由此产生的视频语言模型可用于自动标注数百万个视频，从而生成高质量的字幕。研究表明，改编后的视频语言模型在各种视频语言基准测试中表现出色。例如，在开放式 NExT-QA 上，它比之前的最佳结果高出 2.8%。

此外，该模型还能为以前未见过的视频生成详细的描述，与现有方法相比，能提供更好的文本监督。实验表明，在这些自动生成的字幕上对比训练的视频语言双编码器模型，比同时利用视觉语言模型的最强基线好 3.8%。在 MSR-VTT 零镜头文本到视频检索方面，我们的最佳模型比最先进的方法高出 6%。

OpenAI最强竞对：AI的“欺骗性”难以消除｜大模型周报

论文链接：

https://arxiv.org/abs/2401.06129

OpenAI最强竞对：AI的“欺骗性”难以消除｜大模型周报

｜点击关注我 👇 记得标星｜

OpenAI最强竞对：AI的“欺骗性”难以消除｜大模型周报

test

test

文心AIGC

test

test

2024 年 1 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

2024 年 1 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31