WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

434次阅读
没有评论

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

好多眼熟应用背后竟都有它

西风 发自 凹非寺

量子位 | 公众号 QbitAI

WAIC现场,这个展台被观众挤爆了!

凑近一瞧,好家伙,展台里摆满了各式新奇的“AI玩具”,它们有个共同点——

全都能实时与玩家流畅对话,延迟极低

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

比如这款“AI毛球”,活脱脱一个电子宠物,不仅能实时理解你的话语,还能默默陪伴左右,提供满满的情绪价值:

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

此外,现场还有数字人全息仓、能对话的卡皮巴拉等,赚足了观众眼球:

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

其实它们有个共同的“幕后推手”,这些产品的实时对话能力,全都依托于声网的对话式AI引擎

更值得一提的是,声网刚宣布,他们的对话式AI引擎已完成全新升级

新增选择性注意力锁定功能,让它在嘈杂会场也能精准捕捉你的声音,实现“只听你说”;同时新增视觉理解能力;还能与主流数字人方案无缝集成

一句话概括,新版对话式AI引擎,变得更“耳聪目明”了。

要知道,声网是做RTE(Real Time Engagement,实时互动)技术起家的,在音视频处理和实时通信领域深耕多年,现在转身做多模态AI交互,属实是“专业对口”,一出手就有狠活。

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

这次对话式AI引擎升级背后到底带来了哪些AI交互新体验?接下来就为你详细揭秘。

三大升级,AI听得准看得清

量子位拿到demo app,直接体验了这波升级。支持事先调整预设

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

听力开挂:嘈杂环境里只听你的话

使用对话式AI第一步,自然是考验它能否从各种干扰中准确识别出用户的指令,这直接决定了AI对话体验的好坏。

声网新版对话式AI引擎的第一个杀手锏,就是选择性注意力锁定功能。

刚开始对话时屏幕上就会提醒用户“在对话初期大声、清晰地说话”,由此它就会将你的声音锁定

在后续对话中面对环境人声和噪声干扰,它能够根据锁定用户的声纹特征精准识别,屏蔽95%的干扰。即使在复杂的声音环境中,它也能准确捕捉到你的每一个指令。

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

来看实测对比,当用户在对话初期没有大声清晰地说话,导致声音未被锁定时,AI常会受到周围的环境人声、电视声、音乐声干扰,出现误识别或响应延迟的情况。

(PS:我们同时播放电视剧、歌曲、短视频作为干扰。)

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

而开启选择性注意力锁定后,即使旁边有其他人在交谈或音频播放,AI依然能够精准锁定目标用户的声音。

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

询问旅游规划等需要它长时间回答的问题,它也不会因为环境干扰音而终止或是暂停对话:

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

视觉理解,实时看图识物

如果说声音识别是AI的“耳朵”,那么视觉理解就是AI的“眼睛”。而最新版引擎为AI也实现了这样的能力,可以实时看图识物

就像和真人打电话一样,打开摄像头即可使用:

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

我们向它展示了一张间平面草图,它不仅能够正确识别出这是什么,还能准确指出设计中的结构特点,额外提出了一些注意事项。

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

当我们展示一张技术报告中的图表时,它同样能够理解其中逻辑,并用自然语言解释。

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

测试中我们还发现,声网新版对话式AI引擎具有很强的上下文感知能力,当我们连续提问几个问题后,它能够理解问题之间的关联性,并给出连贯的分析。

数字人支持,对话更有“人情味”

第三个重要升级是数字人功能。

据介绍,新版引擎支持与主流数字人方案的无缝集成,包括商汤数字人等业界领先方案。

在预设中即可挑选配置:

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

在与数字人的对话中,它不仅能够准确响应语音指令,还能通过面部表情和肢体语言传达更丰富的信息

当我们询问复杂问题时,数字人会露出思考的表情;在解释概念时,还会配合手势动作,整个交互过程自然流畅。

例如询问“出门露营要带些什么东西?有什么注意事项?”数字人立马绘声绘色讲解:

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

这种情感同步让人机交互体验更加自然真实。

总之,声网此次对其对话式AI引擎的升级,通过融合多模态打造了更加沉浸式的AI实时交互体验,而这也正是其技术实力的集中展现。

接下来划重点:这种能力可轻松接入DeepSeek等任意大模型。只要与OpenAI接口协议兼容,就能原生支持,且接入仅需两行代码

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

并且价格更是低至每分钟0.098元,还不到一毛钱。

这么多眼熟的应用,背后竟都有它

实际上,声网首版对话式AI引擎早在今年3月份就上线了,凭借效果优、开发接入极简、灵活性强,已在各行各业落地。

你可能都没发现,我们日常熟知的不少AI应用,背后都有它

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

教育领域,豆神AI近期宣布将推出AI超拟人多对一直播,课程采用真人教师与AI教师“双师”协作体系,实现千人千面的定制化训练与辅导,精准契合不同学生的学习需求。

在声网对话式AI引擎的加持下,AI教师能够在AI实时训练体系、课堂答疑、情境创设、AI实时判卷等环节中,全程与学生展开低延时、自然流畅的对话交互。

声网技术支撑不仅保障了AI语音交互的实时性和稳定性,更让学生在与AI教师的互动中获得如真人般自然的学习体验。

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

智能硬件领域,更是令人眼前一亮。

我们前面所展示“AI毛球”是Robopoet珞博智能所打造的首款AI情感陪伴产品“芙崽Fuzozo”。

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

传统陪伴机器人常给人冷冰冰的机械感,难以让用户产生情感联结。而芙崽不同,用户每日互动中可与芙崽积累亲密度,由此孕育出的每只芙崽都拥有独特性格,与用户形成独一无二的专属情感羁绊。

通过与声网的合作,芙崽AI交互的实时性和稳定性得到大幅优化。与此同时,声网的端到端解决方案,也从软硬件全方位为珞博智能提供支持。

同样令人印象深刻的,还有Enabot(赋之科技)的智能家庭陪伴机器人EBO Air 2 Plus

Enabot与声网合作,依托声网的对话式AI引擎技术,EBO能精准识别用户的打断意图,即便周围环境嘈杂,也能锁定对话人声,确保识别准确;同时,借助声网高质量的实时音视频服务,它还支持双向视频通话,用户无论身处全球何地,都能与家人实现零距离视频交流。

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

除此之外,无论是MiniMax Chat星野的语音对话功能,还是智谱清言的视频通话功能商汤商量的实时音视频交互,背后统统都有声网的技术支撑。

娱乐聊天到知识问答,声网的技术方案已覆盖广泛场景。

这些成功应用案例不仅证明了声网对话式AI引擎在不同场景下的适应性和实用性,验证了其技术的可靠性,也为更多企业提供了可借鉴的落地经验。

那么为何大家都选择了声网?大概是源于声网多年的RTE基因。

用RTE基因重塑AI交互体验

近期国内外AI厂商持续加大多模态领域的投入,融合视觉、语音等能力的AI应用不断涌现,再加上WAIC现场的种种迹象,一个趋势非常之明显:

单一模态的AI交互正在成为历史,多模态AI交互已是明确的未来方向。

用户不再满足于只能“听”或只能“说”的AI,更期待的是能够像人类一样,通过视觉、听觉等多种感官实时理解世界的智能体。

作为实时互动技术领域的领军企业,声网在多模态AI交互方面天然具有技术优势。多年来在RTE领域的深耕,为其积累了丰富的音视频处理、低延迟传输、多媒体融合等核心技术能力。

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

更关键的是,声网做多模态AI交互不是技术的简单叠加,而是始终致力于提升对话式AI的交互体验。每一个功能升级背后,都指向同一个目标:

让AI对话更具真实感和自然感

无论是选择性注意力锁定带来的精准语音识别,还是视觉理解赋予AI的观察能力,抑或是数字人支持创造的情感化交互,这些功能都解决了用户在实际使用中遇到的真实痛点。

这种以用户体验为核心的产品思路,可能比单纯追求技术指标更能决定产品的市场竞争力。

可以预见,随着多模态AI应用的普及,那些能够提供低延迟、高稳定性、自然交互体验的技术平台,将在下一轮竞争中占据更加有利的位置。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 7 月
 123456
78910111213
14151617181920
21222324252627
28293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...