前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

704次阅读
没有评论

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

Machine Intelligence Research

作为OpenAI公司ChatGPT模型的竞品,谷歌公司提出的BARD模型已经在会话型人工智能领域取得了显著进展。特别值得注意的是,BARD模型的最新版本在对话过程中具备了处理文本提示和视觉输入的能力。鉴于BARD模型在文本输入处理方面取得的令人嘱目的成就,来自苏黎世联邦理工学院(ETHZ)、澳大利亚国立大学(ANU)和穆罕默德·本·扎伊德人工智能大学(MBZUAI)的研究者们聚焦于探索其在理解并解析由文本问题引导的视觉数据(图像)方面的潜力。这一探索有望揭示BARD模型以及其他即将涌现的多模态生成式模型背后的新见解与挑战,特别是在解决那些需要准确的视觉和语言理解能力的复杂问题时。具体而言,本研究针对15种不同的任务场景展开研究,涵盖了通用、伪装、医疗、水下和遥感数据等领域,用于全面评估BARD模型的表现。实验结果表明,在这些视觉场景中,BARD模型仍然面临一定的困难,表明其在视觉理解能力方面具有提升空间。这项实证研究有助于推动未来相关模型的发展,增强模型在理解和解析细粒度视觉数据方面的能力。

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

图片来自Springer

全文下载:

How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges

Haotong Qin, Ge-Peng Ji, Salman Khan, Deng-Ping Fan, Fahad Shahbaz Khan & Luc Van Gool 

https://www.mi-research.net/article/doi/10.1007/s11633-023-1469-x

https://link.springer.com/article/10.1007/s11633-023-1469-x

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究全文导读

BARD(谷歌AI聊天机器人)是一款基于LaMDA模型和后续的PaLM模型的生成式人工智能系统。于2023年3月初步推出,并于5月在全球范围内推广开来。该系统能够接受文本提示,并根据这些提示执行多种基于文本的任务,如提供答案、摘要和创作各类文本内容。截至2023年7月13日,谷歌的BARD宣布了一项重大更新,该更新允许用户以图像作为输入,并结合文本提示使用。据报道,BARD能够分析视觉内容,提供相应的描述(如图像标题), 或者运用视觉信息回答问题。值得关注的是,尽管其他模型如GPT-4声称能够接受并理解图像输入作为提示,但这些模型并未公开使用。因此,BARD模型为计算机视觉领域提供了首个机会,去评估它的可靠性和鲁棒性,以理解现有的优势和局限性。

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

图片来自网络

本研究工作的目标是基于计算机视觉领域中长期存在的一些问题,分析BARD模型在应对这类问题上所具备的能力。

本研究针对计算机视觉问题,确定了一系列具有趣味性的任务场景用于BARD模型的定性评价。考虑到当前BARD模型尚未提供开放的API访问权限,因此无法进行大规模基准的定量测试。这些任务场景和提示不仅适用于评估BARD模型的视觉理解能力,也可以为未来的大规模多模态模型(例如GPT-4)的评估提供一定的参考依据。本研究特别选用BARD模型的原因是,其在所有开/闭源多模态对话模型中表现突出,包括于2023年7月18日推出的Bing-Chat模型。相关数据请参考LLaVA-Bench。

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

图1 使用谷歌的BARD进行多模态交互会话的若干示例,其中AI系统根据从Microsoft COCO数据集中获取的图像回答用户的问题

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究实证实验

为了评估BARD在给定文本提示的条件下的视觉感知和语境理解等能力,研究者们设计了一系列视觉语言任务场景。随后深入研究了从这些实证研究中提取出的若干例子,涵盖了总共15个视觉问答(VQA)场景,涉及对象检测和定位、分析对象属性、计数、可供性以及自然图像中的细粒度识别等任务。研究者们还在一些具有挑战性的情况下进行了实验,例如识别伪装对象,以及医疗、水下和遥感图像等多样的领域。以下是本研究具体涉及的场景。对应场景的详细解释请见原文:

How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges 

场景#1–对象属性

场景#2–对象存在

场景#3–对象位置

场景#4–关系推理

场景#5–适用性

场景#6–对抗样本

场景#7–雨天条件

场景#8–情感理解

场景#9–细粒度识别

场景#10–识别伪装对象

场景#11–对象计数

场景#12–发现工业缺陷

场景#13–识别光学字符

场景#14–分析医疗数据

场景#15–解释遥感数据

全文下载:

How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges

Haotong Qin, Ge-Peng Ji, Salman Khan, Deng-Ping Fan, Fahad Shahbaz Khan & Luc Van Gool 

https://www.mi-research.net/article/doi/10.1007/s11633-023-1469-x

https://link.springer.com/article/10.1007/s11633-023-1469-x

BibTex:

@Article{MIR-2023-08-155,    

author = {Haotong Qin and Ge-Peng Ji and Salman Khan and Deng-Ping Fan and Fahad Shahbaz Khan and Luc Van Gool},  

journal = {Machine Intelligence Research},    

title = {How Good is Google Bard′s Visual Understanding? An Empirical Study on Open Challenges},    

year = {2023},    

pages = {605-613},    

doi = {10.1007/s11633-023-1469-x}}    

【本文作者】

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

秦浩桐

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

季葛鹏

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

Salman Khan

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

范登平

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

Fahad Shahbaz Khan

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

Luc Van Gool

纸刊免费寄送Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文!

说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737

收件信息登记:

https://www.wjx.cn‍/vm/eIyIAAI.aspx#  


关于Machine Intelligence Research

Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选”中国科技期刊卓越行动计划”,已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。

好文推荐乔红院士团队 | 类脑智能机器人:理论分析与系统应用 (机器智能研究MIR)西电公茂果团队 | 综述: 多模态数据的联邦学习
高文院士团队 | 综述: 大规模多模态预训练模型
港中文黄锦辉团队 | 综述: 任务型对话对话策略学习的强化学习方法
南航张道强教授团队 | 综述:用于脑影像基因组学的机器学习方法ETHZ团队 | 一种基于深度梯度学习的高效伪装目标检测方法 (机器智能研究MIR)Luc Van Gool团队 | 深度学习视角下的视频息肉分割专题综述 | 高效的视觉识别: 最新进展及类脑方法综述北大黄铁军团队 | 专题综述:视觉信息的神经解码
专题综述 | 迈向脑启发计算机视觉的新范式
专题好文 | 新型类脑去噪内源生成模型: 解决复杂噪音下的手写数字识别问题戴琼海院士团队 | 用以图像去遮挡的基于事件增强的多模态融合混合网络ETH Zurich重磅综述 | 人脸-素描合成:一个新的挑战华南理工詹志辉团队 | 综述: 面向昂贵优化的进化计算东南大学张敏灵团队 | 基于选择性特征增广的多维分类方法联想CTO芮勇团队 | 知识挖掘:跨领域的综述复旦邱锡鹏团队 | 综述:自然语言处理中的范式转换

MIR资讯2022影响因子发布!人工智能领域最新SCI & ESCI期刊一览主编谭铁牛院士主持,MIR第二次国内编委会议圆满召开喜报 | MIR入选图像图形领域 T2级 “知名期刊”!2023年人工智能领域国际学术会议参考列表 | 机器智能研究MIR恭喜!MIR 2022年度优秀编委双喜!MIR入选”2022中国科技核心期刊”,并被DBLP收录 | 机器智能研究MIR报喜!MIR入选2022年国际影响力TOP期刊榜单
喜报 | MIR被 ESCI 收录!喜报 | MIR 被 EI 与 Scopus 数据库收录

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

点击”阅读原文”下载全文

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy