豆包可以跟你打视频了，陪我看《甄嬛传》还挺懂！难倒一众AI的“看时钟”也没难倒它

十三
2025-05-26
16:48:32

来源：量子位

不只是看，还有思考

金磊发自凹非寺

量子位 | 公众号 QbitAI

几乎让大模型全军覆没的新难题——看时钟，被国产AI给拿下了。

豆包可以跟你打视频了，陪我看《甄嬛传》还挺懂！难倒一众AI的“看时钟”也没难倒它

要知道，之前单单是一张时钟的图表，几乎所有大模型都答不对时间。

但现在，国产AI却可以直接开视频，实时报准时间！

视频地址：
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

可以看到，这个国产AI先是准确地报出了“4点14分”，而在等了一分钟后，它也是可以再次准确报时“4点15分”。

那么这到底是何许AI也？

不卖关子，它就是豆包发布的新功能——视频通话。

主打一个让AI边看边聊天。

而且啊，它还是接入了联网搜索的功能，所以回答的准确性和时效性这块也是拿捏到位了。

例如我们对着微博热搜的话题提个问题：

这个热搜第一的是什么新闻呀？

视频地址：
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

可以看到，联网的豆包在视频通话的过程中，就可以直接把当下的新闻热点给你总结出来。

不得不说，这种跟AI的互动，不论是趣味性还是可靠性，都大大地增强了。

除此之外，这次的新功能还增加了“字幕”的选项，点击之后就可以看到之前对话的具体内容啦~

既然这个功能如此有趣，那我们必须安排一波深度实测。

来，走起~

跟豆包一块看《甄嬛传》

我们先来简单介绍一下视频通话的操作方式。

打开豆包App之后，依次点击“对话”→“+号”→“打电话”→“开启视频通话”即可：

我们的第一个实测，就是看看豆包能不能成为一个看剧搭子，能跟你边看视频边聊剧情。

有请《甄嬛传》：

视频地址：
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

豆包在看视频的瞬间，立马辨别出这是《甄嬛传》，并且分析出了这个名场面：

祺贵人就是想借着皇后的手扳倒甄嬛呢。

不仅如此，它还是个有态度的AI，超级不看好祺贵人这个角色：

她太心急又没脑子，最后肯定不会得逞的……根本不是甄嬛的对手。

整体来看，豆包称得上是个合格的看剧搭子了。

接下来，我们再来看看豆包视频通话在生活场景中能不能帮上忙。

例如我们给它看几个食材，然后提问：

拿这些食材我能做什么菜啊？

视频地址：
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

豆包不仅秒识别出食材，还把炒菜的步骤、调味品等特别详细地讲解了一番。

以后要是遇到不会做的菜，是可以用视频通话的方式问问豆包了。

类似的，我们让它再看看一道物理题：

帮我看下第4题怎么做？

视频地址：
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

豆包准确地识别出题目，然后立马开始作答，把整个题目的求解过程详尽地说了出来，最后给出了正确答案：A。

不仅是物理题，现在直接让豆包看论文、代码，它也能帮你答疑解惑哦~

视频地址：
https://mp.weixin.qq.com/s/z9REbmL2COn_No1ZR_sa3g

一番实测下来，豆包视频通话功能，整体直观的感受就是：有用，好用。

不只是看，还有思考

豆包视频通话功能背后，其实是豆包·视觉理解模型在发力。

豆包・视觉理解模型拥有非常强的内容识别能力，它就像一个敏锐的 “眼睛”，能够精准识别图像中的各种要素。

从基本的物体类别、形状、纹理，到物体之间的关系、空间布局以及场景的整体含义，甚至背后的文化知识，都能被其敏锐捕捉。

例如，它不仅可以轻松识别现实中的常见物品，还能根据光影、轮廓、位置等特征，准确识别出小动物的影子并判断出这是一只猫。

再如，当用户在清晨跑步时，看到光线从树林间洒出来，随手拍张照片询问豆包大模型，它能迅速识别出这是丁达尔效应，并详细科普其原理。

这种强大的内容识别能力，让AI能够更好地理解现实世界的视觉信息，为后续的理解和推理奠定了坚实基础。

理解推理能力是豆包・视觉理解模型的又一核心优势。

它不仅能识别图文信息，还能进行复杂的逻辑计算，在多个领域展现出了强大的解决问题的能力。

在教育场景中，拍下一道需要进行微积分运算的数学题，模型能很好地理解图片问题，并根据提示词进行对应的推理计算，给出清晰的答题思路，帮助学生更好地理解和解决数学难题。

除了识别与理解推理能力，豆包・视觉理解模型还拥有非常细腻的视觉描述和创作能力。

这也就不难理解为什么豆包视频通话能做到又快又准又好。

总而言之，AI和人类交互的方式变得越来越有趣了。

参考链接：
https://arxiv.org/pdf/2502.05092

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

豆包可以跟你打视频了，陪我看《甄嬛传》还挺懂！难倒一众AI的“看时钟”也没难倒它

豆包可以跟你打视频了，陪我看《甄嬛传》还挺懂！难倒一众AI的“看时钟”也没难倒它

跟豆包一块看《甄嬛传》

不只是看，还有思考

n8n实战：Webhook、条件判断与API集成详解

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

老黄新鲜一刀，RTX 5050正式官宣

国产GPU历史性时刻！摩尔线程、沐曦同日获IPO受理

一张小卡片敢卖999？原来是智能体AI硬件

让AI主动干活，给你找服务，鸿蒙“6”啊

这个AI能救命！提前6个月发现胃癌病灶，突破医学影像认知，达摩院做成了

科大讯飞“AI+教育”再提速：学习机功能升级引领行业发展

7B小模型超越DeepSeek-R1：模仿人类教师，弱模型也能教出强推理LLM | Transformer作者团队

多模态AI黑马刷榜后再造神器：一个产品搞定图片视频播客生成，自带百种特效，大牛梅涛团队出品