熔岩羊驼LLaVA多模态大模型

今天要介绍的项目 ——LLaVA（Large Language and Vision Assistant）与之类似，是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布的多模态大模型。

MiniGPT-4 展示了许多类似于 GPT-4 的能力，例如生成详细的图像描述并从手写草稿创建网站。此外，作者还观察到 MiniGPT-4 的其他新兴能力，包括根据给定的图像创作故事和诗歌，提供解决图像中显示的问题的解决方案，根据食品照片教用户如何烹饪等。该项目上线 3 天就拿到了近一万的 Star 量。

熔岩羊驼LLaVA多模态大模型

论文链接：https://arxiv.org/pdf/2304.08485.pdf
项目链接：https://llava-vl.github.io/

该模型展示出了一些接近多模态 GPT-4 的图文理解能力：相对于 GPT-4 获得了 85.1% 的相对得分。当在科学问答（Science QA）上进行微调时，LLaVA 和 GPT-4 的协同作用实现了 92.53% 准确率的新 SoTA。

论文概览

人类通过视觉和语言等多种渠道与世界交互，因为不同的渠道在代表和传达某些概念时都有各自独特的优势，多渠道的方式有利于更好地理解世界。人工智能的核心愿望之一是开发一个通用的助手，能够有效地遵循多模态指令，例如视觉或语言的指令，满足人类的意图，在真实环境中完成各种任务。

为此，社区兴起了对开发基于语言增强的视觉模型的风潮。这类模型在开放世界视觉理解方面具有强大的能力，如分类、检测、分割和图文，以及视觉生成和视觉编辑能力。每个任务都由一个大型视觉模型独立解决，在模型设计中隐含地考虑了任务的需求。此外，语言仅用于描述图像内容。虽然这使得语言在将视觉信号映射到语言语义（人类交流的常见渠道）方面发挥了重要作用，但它导致模型通常具有固定的界面，在交互性和对用户指令的适应性上存在限制。

另一方面，大型语言模型（LLM）已经表明，语言可以发挥更广泛的作用：作为通用智能助理的通用交互接口。在通用接口中，各种任务指令可以用语言明确表示，并引导端到端训练的神经网络助理切换模式来完成任务。例如，ChatGPT 和 GPT-4 最近的成功证明了 LLM 在遵循人类指令完成任务方面的能量，并掀起了开发开源 LLM 的热潮。其中，LLaMA 是一种与 GPT-3 性能相近的开源 LLM。Alpaca、Vicuna、GPT-4-LLM 利用各种机器生成的高质量指令跟踪样本来提高 LLM 的对齐能力，与专有 LLM 相比，展示出了令人印象深刻的性能。但遗憾的是，这些模型的输入仅为文本。

在本文中，研究者提出了视觉 instruction-tuning 方法，首次尝试将 instruction-tuning 扩展到多模态空间，为构建通用视觉助理铺平了道路。

具体来说，本文做出了以下贡献：

多模态指令数据。当下关键的挑战之一是缺乏视觉与语言组成的指令数据。本文提出了一个数据重组方式，使用 ChatGPT/GPT-4 将图像 – 文本对转换为适当的指令格式；
大型多模态模型。研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA，开发了一个大型多模态模型（LMM）—— LLaVA，并在生成的视觉 – 语言指令数据上进行端到端微调。实证研究验证了将生成的数据用于 LMM 进行 instruction-tuning 的有效性，并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。使用 GPT-4，本文在 Science QA 这个多模态推理数据集上实现了最先进的性能。
开源。研究者向公众发布了以下资产：生成的多模式指令数据、用于数据生成和模型训练的代码库、模型检查点和可视化聊天演示。

试用反馈

在论文给出的可视化使用页面上，机器之心也尝试着输入了一些图片和指令。首先是问答里常见的数人任务。测试表明，数人的时候较小的目标会被忽略，重叠的人也有识别误差，性别也有识别误差。

熔岩羊驼LLaVA多模态大模型接着，我们尝试了一些生成任务，比如为图片起名字，或者根据图片讲一个故事。模型输出的结果还是偏向于图片内容理解，生成方面的能力还有待加强。

在这张照片中，即便人体有重合也依然能准确地识别出人数。从图片描述和理解能力的角度来看，本文的工作还是存在亮点，存在着二创的空间。

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

熔岩羊驼LLaVA多模态大模型

超越DeepSeek-R1，数学形式化准确率飙升至84% | 字节&南大开源

开源Qwen一周连刷三冠，暴击闭源模型！基础模型推理编程均SOTA

TRAE推出SOLO模式，业内首个「Context Engineer」来了

这个5亿播放的AI视频，邪乎得平平无奇

B站亮相2025世界人工智能大会，发布最受年轻人关注的TOP30 AI应用

刘强东连投3家具身智能！京东美团「战火」烧到外卖之外

3亿美元薪酬被10人拒绝！OpenAI首席研究官一句话引发硅谷史上最疯狂抢人大战

蚂蚁ACL活动全览！论文串讲、人才专项答疑与闭门晚宴等你报名

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

IMO怒斥OpenAI自封夺金，“91位评委均未参与评分”