ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

1,642次阅读
没有评论

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

  新智元报道  

编辑:桃子

【新智元导读】ChatGPT多模态能力终于可以尝鲜了!

这周三,OpenAI刚刚宣布解禁ChatGPT多模态能力。

如今,一上线,网友们瞬间玩疯了。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

接下来,一起看看,ChatGPT的识图能力,究竟有多强?

拍照传图,即生代码

一位网友录制了一段上传开会时的一张白板图,然后让ChatGPT写出代码。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

还有,你可以上传一张手绘的草稿图,然后要求ChatGPT在HTML创建网页。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

嗖嗖嗖,代码分分钟都出来了。

这简直就是,今年GPT-4刚刚发布时,Greg Brockman所展示的多模态能力。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

再比如,把你的to do list本子拍一张照片。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

然后让GPT-4做一个Python Tkinter GUI,然后就实现了…

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

古卷手稿,一眼转译


再来一张来自17世纪的炼金术师Robert Boyle的手稿图,GPT-4能不能读懂它?

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

这简直对它来说,小菜一碟。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

在比如「加泰罗尼亚语关于药用木乃伊的药物手册」。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

ChatGPT同样能够转录并翻译出来。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

来自UCSC的历史学副教授Benjamin Breen表示,

这将对历史学家产生重大影响。试想一下,一个定制的多模态GPT-4可以对一组特定的手稿进行训练。它不仅可以转录,还可以翻译和分类。(正是这一点,不使用LLM进行写作,在我看来才是一件大事)。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

图表总结也很6


你还可以命令GPT-4根据图表提取数据。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

然后可以创建Python代码来复制图表,让它更像图表。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

再把股票趋势图丢给它,还能分析总结特征。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

识图「智商超群」


给GPT-4一张抽象的图。

它竟然可以准确的识别出这4张图想表达的「沟通的重要性」的隐喻,这也太离谱了。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

GPT-4V甚至可以阅读医生的字迹。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

还有日本网友直接用「七龙珠」中孙悟空考ChatGPT了。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

还有各种「你是不是人」的验证码。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

上传一张自己的作品,GPT-4还能为你提出改进建议。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

还有网友发现,GPT-4V对kosmos-1论文中的这道题给出了正确答案,但推理过程却出现了错误。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

有了这个功能,小朋友们再也不用做作业了。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

网友大波总结


除了以上体验之外,还有网友写了一篇长文,介绍了自己对GPT-4V的测试。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

测试一:视觉问答

给一个表情包,看看GPT-4V理解程度有多好?

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

GPT-4V成功地解释了为什么有趣,并提到了图片的各个组成部分以及它们之间的联系。

值得注意的是,所提供的括号备注中,GPT-4V能够读懂并利用文字做出回应。

尽管如此,GPT-4V还是犯了一个错误,炸鸡标记为「NVIDIA BURGER」,而不是「GPU」。

然后,再用硬币,一张美国便士的照片测试。GPT-4V能够成功识别硬币的来源和面值。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

但如果是多枚硬币图片,并问GPT-4V,我有多少钱?

这时,它只能够识别硬币的数量,但无法确定货币类型。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

测试二:OCR识别

截取网页中的文本图像上传,GPT-4V可以很好地读出内容。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

测试三:数学OCR

数学OCR是一种专门针对数学方程的光学字符识别的特殊形式。

网友向GPT-4V提出了一个数学问题,并用文档截图形式呈现出来。

这个问题涉及在给定2个角度的情况下计算拉链线的长度,在图像上提示「解决它」。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

模型识别出的问题可以用三角法求解,识别出要使用的函数,并逐步提出如何解决问题的走查。然后,GPT-4V提供了问题的正确答案。

话虽如此,GPT-4V系统卡指出模型可能会遗漏数学符号。

不同的测试,包括用手写在纸上的方程或表达式的测试,可能表明模型回答数学问题的能力不足。

测试四:对象检测

让GPT-4V检测图像中的狗,并提供与狗的位置相关的x_min、y_min、x_max和y_max值,GPT-4V返回的边界框坐标与狗的位置不匹配。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

虽然GPT-4V在回答图像问题方面的能力非常强大,但在你若是想知道一个物体在图中的位置,该模型不能替代微调目标检测模型。

测试五:验证码

发现GPT-4V能够识别图像中包含验证码,但经常无法通过测试。

在一个选取红绿灯格子的示例中,GPT-4V少选了一些包含红绿灯的格子。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

测试六:填字游戏和数独

在数独测试中,GPT-4V识别了游戏,但误解了棋盘的结构,因此返回了不准确的结果。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

顺带提一句,ChatGPT联网功能又回来了。

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

参考资料:https://twitter.com/skirano/status/1706853658523005378https://twitter.com/emollick/status/1707076651320770870https://twitter.com/search?q=GPT-4V&src=trend_click&vertical=trends
ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6


ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6
ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...