贾佳亚团队推出Mini-Gemini；天大团队提出“中医大模型”Qibo｜大模型周报

1,111次阅读

没有评论

本周值得关注的大模型 / AIGC 前沿研究

DeepMind新研究：让大模型保持长篇事实准确性
贾佳亚团队推出Mini-Gemini：挖掘多模态视觉语言模型的潜力
Meta新研究：无需艺术家，一张图即可定制生成3D服装
谷歌、Stability AI新研究：由文本引导生成纹理3D服装
RepairAgent：首个基于大模型的自主程序修复智能体
AIOS：将大型语言模型嵌入操作系统
港大、阿里新研究：只需一张图，轻松即时定制个性化照片
天津大学提出“中医大模型”Qibo
英伟达提出LATTE3D：更快、更好的“文生3D”方法
UC伯克利新研究：利用迭代数据增强提升大模型
微软提出状态空间模型SiMBA：好于Mamba，接近Transformer

1.DeepMind新研究：让大模型保持长篇事实准确性

大型语言模型（LLM）在回答开放式话题的事实搜索提示时，经常会生成包含事实错误的内容。

为了对模型在开放式领域中的长篇事实性进行基准测试，Google DeepMind 团队首先使用 GPT-4 生成了一个由跨越 38 个主题的数千个问题组成的提示集——LongFact。

此外，他们提出可以通过一种称之为“搜索增强事实性评估器”（SAFE）的方法，将 LLM 智能体用作长篇事实性的自动评估器。

SAFE 利用 LLM 将长篇回复分解为一组单独的事实，并通过多步骤推理过程来评估每个事实的准确性，该过程包括向谷歌搜索发送搜索查询，并确定搜索结果是否支持某个事实。

他们还建议将 F1 score 扩展为长篇事实性的综合指标。为此，他们平衡了回复中支持事实的百分比（精确度）和所提供事实相对于代表用户首选回复长度的超参数的百分比（召回率）。

根据实验，他们证明了 LLM 智能体可以实现超人的评级性能，同时，SAFE 的成本比人类标注人员低 20 多倍。该研究团队还在 LongFact 上对四个模型系列（Gemini、GPT、Claude 和 PaLM-2）的 13 个语言模型进行了基准测试，发现较大的语言模型通常能获得更好的长篇事实性。

贾佳亚团队推出Mini-Gemini；天大团队提出“中医大模型”Qibo｜大模型周报

论文地址：
https://arxiv.org/abs/2403.18802

GitHub 地址：

https://github.com/google-deepmind/long-form-factuality

2.贾佳亚团队推出Mini-Gemini：进一步挖掘VLM的潜力

香港中文大学贾佳亚团队提出了 Mini-Gemini，这是一个简单有效的框架，可增强多模态视觉语言模型（VLM）。

尽管视觉语言模型在促进基本视觉对话和推理方面取得了进步，但与 GPT-4 和 Gemini 等模型相比，性能差距依然存在。该团队试图从高分辨率视觉 token、高质量数据和 VLM 引导生成三方面挖掘 VLM 的潜力，来提高模型性能和实现任意对任意的工作流程，从而缩小差距。

为了增强视觉 token，他们建议在不增加视觉 token 数量的情况下，利用额外的视觉编码器进行高分辨率细化。他们还进一步构建了一个高质量的数据集，来促进精确的图像理解和基于推理的生成，从而扩大当前 VLM 的操作范围。

总体而言，Mini-Gemini 进一步挖掘了 VLM 的潜力，并同时增强了当前框架在图像理解、推理和生成方面的能力。Mini-Gemini 支持从 2B 到 34B 的一系列稠密和 MoE 大型语言模型。事实证明，它在多个零样本基准测试中取得了领先的性能，甚至超过了已开发的私有模型。

贾佳亚团队推出Mini-Gemini；天大团队提出“中医大模型”Qibo｜大模型周报论文链接：
https://arxiv.org/abs/2403.18814项目地址：
https://mini-gemini.github.io/

3.Meta新研究：无需艺术家，一张图即可定制生成3D服装
Meta 研究团队提出了一种以单张输入图像为指导，从基础网格合成 3D 服装资产的新方法——Garment3DGen。该方法允许用户根据真实图像和合成图像（如通过文本提示生成的图像）生成 3D 纹理服装。生成的服装可直接在人体上悬垂和模拟。

首先，研究团队利用图像到 3D 扩散方法的最新进展来生成 3D 服装几何图形。其次，他们引入了精心设计的损耗，允许输入的基础网格朝着所需的目标自由变形，同时保留网格质量和拓扑结构，从而进行模拟。最后，纹理估算模块可生成高保真纹理贴图，这些贴图具有全局和局部一致性，并能忠实捕捉输入导向，从而渲染生成的 3D 资产。

有了 Garment3DGen，用户无需艺术家的干预，就能生成自己喜欢的纹理 3D 服装。用户可以提供文字提示，描述他们希望生成 3D 资产的服装。

论文链接：
https://arxiv.org/abs/2403.18816项目地址：https://nsarafianos.github.io/garment3dgen

4.谷歌、Stability AI新研究：由文本引导生成纹理3D服装
谷歌、Stability AI 及其合作者提出了 WordRobe ，这是一个新颖的框架，解决的是一个具有挑战性的新问题，即由文本驱动生成具有高质量纹理的3D服装，用于根据用户友好的文本提示生成未摆放的纹理3D服装网格。

为此，该团队首先使用一种新颖的从粗到细的训练策略学习3D服装的潜在表示法，并利用潜在解缠损失促进更好的潜在插值。随后，以弱监督方式将服装潜空间与 CLIP 嵌入空间对齐，从而实现文本驱动的 3D 服装生成和编辑。在外观建模方面，WordRobe 还利用 ControlNet 的零样本生成功能，在单个前馈推理步骤中合成与视图一致的纹理贴图，从而大大缩短了生成时间。

通过定量评估和定性用户研究，WordRobe 展示了在学习 3D 服装潜空间、服装插值和文本驱动纹理合成方面优于现有 SOTAs 的性能。使用 WordRobe 生成的未摆放的 3D 服装网格可直接输入标准的布料仿真和动画管道，无需任何后处理。

论文链接：
https://arxiv.org/abs/2403.17541项目地址：https://wordrobe24.github.io/WordRobe_Page/

5.RepairAgent：首个基于大模型的自主程序修复智能体

由斯图加特大学和加州大学戴维斯分校的研究团队提出的 RepairAgent ，是首个通过基于大型语言模型（LLM）的自主智能体来应对程序修复挑战的工作。

目前，基于深度学习的方法以固定的提示或在固定的反馈循环中提示模型，与之不同的是，该研究团队将 LLM 视为一个能够自主规划和执行行动的智能体，通过调用合适的工具来修复错误。

RepairAgent 可自由穿插收集错误信息、收集修复成分和验证修复，同时根据收集到的信息和先前修复尝试的反馈来决定调用哪些工具。实现 RepairAgent 的关键贡献包括：一组对程序修复有用的工具、一种允许 LLM 与这些工具交互的动态更新提示格式，以及一种指导智能体调用工具的有限状态机。

在流行的 Defects4J 数据集上进行的评估表明，RepairAgent 能有效地自主修复 164 个错误，其中包括 39 个以前的技术无法修复的错误。与 LLM 交互的平均成本为每个漏洞 270000 token，按照 OpenAI 的 GPT-3.5 模型的当前定价，相当于每个漏洞 14 美分。

这项工作首次提出了一种基于 LLM 的自主程序修复智能体，促进了未来软件工程中基于智能体的技术发展。
贾佳亚团队推出Mini-Gemini；天大团队提出“中医大模型”Qibo｜大模型周报
论文链接：
https://arxiv.org/abs/2403.17134

6.AIOS：将大型语言模型嵌入操作系统
基于大型语言模型（LLM）的智能体（agent）的集成和部署一直充满挑战，影响其效率和功效，问题包括：LLM 上智能体请求的次优调度和资源分配、智能体与 LLM 交互过程中维持上下文的困难，以及集成具有不同能力和专长的异构智能体所固有的复杂性。此外，智能体数量和复杂性的快速增长进一步加剧了这些问题，往往会导致瓶颈和资源利用率不达标。

受这些挑战的启发，罗格斯大学的研究团队推出了一种将大型语言模型嵌入操作系统（OS）的 LLM 智能体操作系统 AIOS。具体来说，AIOS 的设计目的是优化资源分配、促进智能体之间的上下文切换、实现智能体的并发执行、为智能体提供工具服务以及维护智能体的访问控制。

该团队介绍了这种操作系统的架构，概述了它要解决的核心挑战，并提供了 AIOS 的基本设计和实现方法。

他们对多个智能体并发执行的实验证明了 AIOS 模块的可靠性和效率。可以通过这些实验，提高 LLM 智能体的性能和效率，同时为将来更好地开发和部署 AIOS 生态系统开辟道路。
贾佳亚团队推出Mini-Gemini；天大团队提出“中医大模型”Qibo｜大模型周报
论文链接：
https://arxiv.org/abs/2403.16971GitHub 地址：https://github.com/agiresearch/AIOS

7.港大、阿里新研究：只需一张图，轻松即时定制个性化照片
来自香港大学、阿里巴巴和蚂蚁集团的研究团队推出了一种实用工具 FlashFace，用户只需提供一张或几张参考人脸图像和文字提示，就能轻松地即时个性化自己的照片。

FlashFace 有别于现有的人类照片定制方法，具有更高的身份保真度和更好的指令跟随性，这得益于两个微妙的设计。

一是该技术将人脸身份编码为一系列特征图，而不是像以前的技术那样编码为一个图像 token，从而使模型能够保留参考人脸的更多细节（如疤痕、纹身和脸型）。

二是在文本到图像的生成过程中，FlashFace 引入了一种分离整合策略来平衡文本和图像引导，从而缓解了参考人脸和文本提示之间的冲突（例如，将成人个性化为“儿童”或“老人”）。

大量实验证明了 FlashFace 在各种应用中的有效性，其中包括人像个性化、语言提示下的人脸互换、将虚拟人物变成真人等。
贾佳亚团队推出Mini-Gemini；天大团队提出“中医大模型”Qibo｜大模型周报
论文链接：
https://arxiv.org/abs/2403.17008项目地址：https://jshilong.github.io/flashface-page

8.天津大学提出“中医大模型”Qibo

目前，在人工智能领域，大型语言模型（LLMs）已经在医学、法律和金融等多个专业领域的用户意图理解和响应方面取得了显著进步。但是在传统中医（TCM）这一独特领域，由于其理论与现代医学之间的本质区别，以及专业语料资源的缺乏，LLMs 的性能提升面临挑战。

天津大学的研究团队构建和整理了中医药领域的专业语料库，为大型模型赋予中医药理论所特有的专业知识，并成功开发了基于 LLaMA 的 Qibo 模型，这是中医药领域第一个经历了从预训练到监督微调（SFT）的完整训练过程的 LLMs。

此外，该团队还开发了用于评估 LLMs 性能的专用工具 Qibo-benchmark。该工具将为量化和比较不同模型在中医药领域的理解和应用能力提供重要依据，并为未来中医药智能助手的研究方向和实际应用提供指导。

经过充分的实验证明，Qibo 在中医领域具有良好的性能。
贾佳亚团队推出Mini-Gemini；天大团队提出“中医大模型”Qibo｜大模型周报
论文链接：
https://arxiv.org/abs/2403.16056

9.英伟达提出LATTE3D：更快、更好的“文生3D”方法
近来，由文本到 3D 生成的方法可以生成令人印象深刻的 3D 效果，但这个过程需要耗时的优化过程，每个提示（prompt）可能需要一个小时。为了改善这种现象，ATT3D 等摊销方法可同时优化多个提示，从而提高效率，实现快速的文本到 3D 合成。但是，这些方法无法捕捉高频几何和纹理细节，难以扩展到大型提示集，因此通用性较差。

为此，英伟达推出了 LATTE3D，在更大的提示集上实现了快速、高质量的生成。该方法的关键在于：1）建立一个可扩展的架构；2）在优化过程中，通过 3D 感知扩散先验、形状正则化和模型初始化来利用 3D 数据，从而实现对各种复杂训练提示的鲁棒性。

据介绍，LATTE3D 对神经场和纹理曲面生成进行了摊销，只需一次前向传递即可生成高度精细的纹理网格。

结果表明，该方法可在 400 毫秒内生成 3D 物体，并可通过快速测试时间优化进一步提高性能。
贾佳亚团队推出Mini-Gemini；天大团队提出“中医大模型”Qibo｜大模型周报
论文链接：
https://arxiv.org/abs/2403.15385项目网站：https://research.nvidia.com/labs/toronto-ai/LATTE3D/

10.UC伯克利新研究：利用迭代数据增强提升大模型
目前，预训练大型语言模型（LLM）是解决绝大多数自然语言处理任务的最先进方法。虽然现实世界中的许多应用仍需要微调才能达到令人满意的性能水平，但其中许多应用都处于低数据水平，这使得微调具有挑战性。

为了解决这个问题，UC 伯克利团队提出了 LLM2LLM，这是一种有针对性的迭代数据增强策略，它使用教师 LLM 来增强小型种子数据集，通过增强额外的数据来对特定任务进行微调。LLM2LLM 运行步骤如下：（1）在初始种子数据上微调基准学生 LLM 模型；（2）评估并提取模型出错的数据点；（3）使用教师 LLM 根据这些错误数据点生成合成数据，然后将其添加回训练数据中。这种方法放大了 LLM 在训练过程中预测错误的数据点信号，并将其重新整合到数据集中，以便 LLM 专注于更具挑战性的示例。

研究结果表明，LLM2LLM 显著提高了 LLM 在低数据机制中的性能，其表现优于传统的微调和其他数据增强基线。此外，LLM2LLM 还减少了对劳动密集型数据整理的依赖，有助于创建更具可扩展性和性能的 LLM 解决方案，使用户能够应对数据受限的领域和任务。

贾佳亚团队推出Mini-Gemini；天大团队提出“中医大模型”Qibo｜大模型周报
论文链接：
https://arxiv.org/abs/2403.15042GitHub 地址：https://github.com/SqueezeAILab/LLM2LLM

11.微软提出状态空间模型SiMBA：好于Mamba，接近Transformer

Transformer 已广泛采用注意力网络用于序列混合，采用 MLPs 进行通道混合，在实现跨领域突破方面发挥了关键作用。

然而，最近很多学者强调了注意力网络的问题，包括低感应偏差和与输入序列长度有关的二次复杂性。为解决上述问题，学者们提出了状态空间模型（SSM），如 S4 和其他模型（Hippo、Global Convolutions、liquid S4、LRU、Mega 和 Mamba），从而帮助处理更长的序列长度。例如，Mamba 虽然是最先进的 SSM，但在扩展到计算机视觉数据集的大型网络时存在稳定性问题。

为此，微软团队提出了新架构 SiMBA ，将 Einstein FFT（EinFFT）引入，通过特定的特征值计算进行信道建模，并使用 Mamba 块进行序列建模。

基于图像和时间序列基准进行的广泛性能研究表明，SiMBA 的性能优于现有的 SSM，缩小了与最先进 transformer 的性能差距。值得注意的是，SiMBA 在 ImageNet 和迁移学习基准（如 Stanford Car 和 Flower）、任务学习基准以及七个时间序列基准数据集上取得了 SOTA。

贾佳亚团队推出Mini-Gemini；天大团队提出“中医大模型”Qibo｜大模型周报
论文链接：
https://arxiv.org/abs/2403.15360GitHub 地址：https://github.com/badripatro/Simba
｜点击关注我 👇 记得标星｜