豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它
不只是看,还有思考
金磊 发自 凹非寺
量子位 | 公众号 QbitAI
几乎让大模型全军覆没的新难题——看时钟,被国产AI给拿下了。

要知道,之前单单是一张时钟的图表,几乎所有大模型都答不对时间。
但现在,国产AI却可以直接开视频,实时报准时间!

视频地址:
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g
可以看到,这个国产AI先是准确地报出了“4点14分”,而在等了一分钟后,它也是可以再次准确报时“4点15分”。
那么这到底是何许AI也?
不卖关子,它就是豆包发布的新功能——视频通话。
主打一个让AI边看边聊天。
而且啊,它还是接入了联网搜索的功能,所以回答的准确性和时效性这块也是拿捏到位了。
例如我们对着微博热搜的话题提个问题:
这个热搜第一的是什么新闻呀?

视频地址:
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g
可以看到,联网的豆包在视频通话的过程中,就可以直接把当下的新闻热点给你总结出来。
不得不说,这种跟AI的互动,不论是趣味性还是可靠性,都大大地增强了。
除此之外,这次的新功能还增加了“字幕”的选项,点击之后就可以看到之前对话的具体内容啦~

既然这个功能如此有趣,那我们必须安排一波深度实测。
来,走起~
跟豆包一块看《甄嬛传》
我们先来简单介绍一下视频通话的操作方式。
打开豆包App之后,依次点击“对话”→“+号”→“打电话”→“开启视频通话”即可:

我们的第一个实测,就是看看豆包能不能成为一个看剧搭子,能跟你边看视频边聊剧情。
有请《甄嬛传》:

视频地址:
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g
豆包在看视频的瞬间,立马辨别出这是《甄嬛传》,并且分析出了这个名场面:
祺贵人就是想借着皇后的手扳倒甄嬛呢。
不仅如此,它还是个有态度的AI,超级不看好祺贵人这个角色:
她太心急又没脑子,最后肯定不会得逞的……根本不是甄嬛的对手。
整体来看,豆包称得上是个合格的看剧搭子了。
接下来,我们再来看看豆包视频通话在生活场景中能不能帮上忙。
例如我们给它看几个食材,然后提问:
拿这些食材我能做什么菜啊?

视频地址:
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g
豆包不仅秒识别出食材,还把炒菜的步骤、调味品等特别详细地讲解了一番。
以后要是遇到不会做的菜,是可以用视频通话的方式问问豆包了。
类似的,我们让它再看看一道物理题:
帮我看下第4题怎么做?

视频地址:
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g
豆包准确地识别出题目,然后立马开始作答,把整个题目的求解过程详尽地说了出来,最后给出了正确答案:A。
不仅是物理题,现在直接让豆包看论文、代码,它也能帮你答疑解惑哦~

视频地址:
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g
一番实测下来,豆包视频通话功能,整体直观的感受就是:有用,好用。
不只是看,还有思考
豆包视频通话功能背后,其实是豆包·视觉理解模型在发力。
豆包・视觉理解模型拥有非常强的内容识别能力,它就像一个敏锐的 “眼睛”,能够精准识别图像中的各种要素。
从基本的物体类别、形状、纹理,到物体之间的关系、空间布局以及场景的整体含义,甚至背后的文化知识,都能被其敏锐捕捉。
例如,它不仅可以轻松识别现实中的常见物品,还能根据光影、轮廓、位置等特征,准确识别出小动物的影子并判断出这是一只猫。

再如,当用户在清晨跑步时,看到光线从树林间洒出来,随手拍张照片询问豆包大模型,它能迅速识别出这是丁达尔效应,并详细科普其原理。

这种强大的内容识别能力,让AI能够更好地理解现实世界的视觉信息,为后续的理解和推理奠定了坚实基础。
理解推理能力是豆包・视觉理解模型的又一核心优势。
它不仅能识别图文信息,还能进行复杂的逻辑计算,在多个领域展现出了强大的解决问题的能力。
在教育场景中,拍下一道需要进行微积分运算的数学题,模型能很好地理解图片问题,并根据提示词进行对应的推理计算,给出清晰的答题思路,帮助学生更好地理解和解决数学难题。

除了识别与理解推理能力,豆包・视觉理解模型还拥有非常细腻的视觉描述和创作能力。

这也就不难理解为什么豆包视频通话能做到又快又准又好。
总而言之,AI和人类交互的方式变得越来越有趣了。
参考链接:
https://arxiv.org/pdf/2502.05092
