挤爆字节服务器的Agent到底啥水平?一手实测来了

643次阅读
没有评论

挤爆字节服务器的Agent到底啥水平?一手实测来了

一句话制作网友/PPT,更懂任务规划和资料搜集了

克雷西 一水 发自 凹非寺
量子位 | 公众号 QbitAI

“字节版Manus”有多能打?量子位实测在此。

挤爆字节服务器的Agent到底啥水平?一手实测来了

扣子智能体生成的活动介绍网页

我们用光了一天的对话额度,考验了扣子空间(Coze Space)的信息整理、任务执行、工具调用等多项技能。

结果,仍处在早期测试中的扣子空间整体表现已经相当惊艳,在自主任务规划和资料搜集方面表现不错,已经具备解决很多真实任务的潜力。

不过在指令遵循方面,还是比较“有自己的想法”。

挤爆字节服务器的Agent到底啥水平?一手实测来了

简单介绍一下,扣子空间是字节在刚刚过去的周末推出的智能体协作系统,官方主打“你和AI Agent协同办公的最佳场所”。

由于放出来的demo效果惊艳,过去几天里还出现了挤爆服务器的场面。

挤爆字节服务器的Agent到底啥水平?一手实测来了

而第一波拿到邀请码的幸运儿,在体验后也第一时间分享了使用感受:

对比智能体确实是一个大飞跃。

挤爆字节服务器的Agent到底啥水平?一手实测来了

更适合用来分析报告,主要作用是帮助用户搭起整体框架。

挤爆字节服务器的Agent到底啥水平?一手实测来了

当然,作为幸运儿之一,我们也赶紧进行了一波实测。

有脑有手的通用智能体

扣子平台的通用智能体,分成了探索和规划两种模式,官方的介绍是这样的:

挤爆字节服务器的Agent到底啥水平?一手实测来了

实际用下来的话,探索模式更注重效率,而规划模式则会对任务进行详细拆分,条理更加清晰。

自动整理搜集信息,一句话制作网页/PPT

先来看探索模式,我们让它整理了一下波音747系列飞机的发展历程。

可以看到,智能体根据给出的话题自行扩展延伸了许多搜索词并执行了检索,最后形成了一份文字报告。

挤爆字节服务器的Agent到底啥水平?一手实测来了

利用整理好的资料,可以直接制作出一个网页(或者PPT也可以),页面包含了比较丰富的内容,排布简洁,美观性也说得过去。

挤爆字节服务器的Agent到底啥水平?一手实测来了

并且除了文字内容,生成网页时智能体还补充了产量统计图和关键时间线。

挤爆字节服务器的Agent到底啥水平?一手实测来了

有脑还有手,自主规划执行任务

在规划模式下,扣子智能体不仅会整理资料,还支持在虚拟沙盒环境中操纵电脑、浏览网页,执行订票等操作。

比如我们让它帮忙订一张明天(23日)下午从北京到上海的高铁票。

比较有意思的是,智能体一开始的动作是搜索高铁票该怎么订,不清楚是模型自己真的不知道,还是这里强制设定了检索过程,但总之,如果真遇到不会的技能,通过检索来弥补也不失为一种策略。

挤爆字节服务器的Agent到底啥水平?一手实测来了

12306平台需要登录才能进行订票,智能体能够准确识别到这种状况,并提示我们手动接管。

挤爆字节服务器的Agent到底啥水平?一手实测来了

不过,可能是沙盒环境受到了限制,在执行检索之后页面并未显示结果,因此整个流程未能顺利完成。

挤爆字节服务器的Agent到底啥水平?一手实测来了

但从智能体的操作过程来看,网页信息识别和规划执行能力已经很不错了。

接入MCP,智能体不再“孤军奋战”

除此之外,扣子也支持MCP协议,并接入了飞书文档、GitHub、MySQL数据库、天气、地图等一系列MCP应用。

挤爆字节服务器的Agent到底啥水平?一手实测来了

于是结合MCP,我们来整个大活。

上周,量子位中国AIGC产业峰会2025成功举行,我们将其会议流程和嘉宾信息整理到了一份文档当中,要求智能体将这些材料整理出一份网页版会议指南。

并且还调用了地图、天气和语音合成三个MCP插件,在网页中加入天气预报、交通指南和嘉宾介绍语音播报。

挤爆字节服务器的Agent到底啥水平?一手实测来了

可以看到,智能体首先利用工具从文档中提取出文本,然后通过MCP协议调取了天气、地图等信息。

挤爆字节服务器的Agent到底啥水平?一手实测来了

由于任务比较复杂,制作耗时也比较长,第一版成品长这样:

挤爆字节服务器的Agent到底啥水平?一手实测来了

这个版本,要求的内容都有呈现,但是活动流程没有遵循要求的格式,天气预报的日期也不对。

所以我们针对这两点要求智能体进行修改,修改的过程没有一步到位,而是经过了多轮调整。

以及到后面修改的过程才发现,扣子智能体一开始偷懒并没有合成嘉宾介绍的语音,只是在网页里放了按钮,单独指出之后才开始合成。

不过最终还是得到了符合期待的页面,该有的内容都正常展现,滑动和点击查看详情的功能都成功实现,合成的音频也能正常播放。

挤爆字节服务器的Agent到底啥水平?一手实测来了

虽然整体经历了不短的时间,但对于一个完全不懂网页制作的用户而言,扣子智能体已经很好地解决了工具有无的问题。

在时间上,一个可以改进的方向是让可以并行进行的任务同时进行,比如这个任务当中的语音合成实际上是独立于网页设计的,而智能体目前采用的是串行方式,带来了不少的额外耗时。

总结一下,作为一个通用智能体,扣子智能体的任务规划比较合理,资料搜集能力也表现不错,不过在指令遵循方面,还是比较“有自己的想法”。

当然作为通用智能体,优先考量是提升技能的丰富度,尽可能覆盖更多的任务,所以在具体任务细节上,也还有不少提升空间。

更懂行的专家智能体

所以,在通用Agent之外,扣子空间还提供了「专家模式」

Beta测试版首页,目前有两个专家Agent:

  • 用户研究专家:模型学习了字节资深用研专家、产品经理等分享的用研工作技巧;
  • 华泰A股观察助手:扣子团队与华泰证券联合孵化的Agent,让模型学习了如何分析上市公司和发展潜力等专业知识。

挤爆字节服务器的Agent到底啥水平?一手实测来了

我们实测下来发现,吸收了更多私人数据和第三方数据的专家Agent,在实用性方面确实大有提升,尤其在面对复杂任务过程中易出错的问题,它总是能自主发现错误并不断尝试更正。

不过由于涉及的领域确实比较专业,任务耗时也大大增加,类似股票分析的任务往往需要运行几十分钟。

以下为具体实测过程。

0产品经验也能做出完整用户调研

假如有一个新入行的产品经理,想要设计一个北京地区的户外活动APP,需要对用户需求进行调研。

尽管没有工作经验,也可以使用简单描述来生成一份用户访谈提纲。

挤爆字节服务器的Agent到底啥水平?一手实测来了

实测不到1分钟,这个Agent就生成了一份可下载的Markdown文档,10个问题基本覆盖了我们想要调研的需求。

挤爆字节服务器的Agent到底啥水平?一手实测来了

然后我们又继续在输入框中下达新指令:

再帮我生成一份调研问卷。

从思考过程可以看到,面对一个比较模糊的需求,它能通过自主规划(设计约30个问题的调研问卷)进一步明确任务。

挤爆字节服务器的Agent到底啥水平?一手实测来了

而且评估其生成效果,从一名资深户外运动爱好者的角度来看,这份调研报告可谓非常完整——

7个大类、30个小问题,从用户基本信息到户外运动参与情况、活动信息与获取等等,均考虑到了。

挤爆字节服务器的Agent到底啥水平?一手实测来了

接下来,鉴于我们目前缺少真实问卷结果,所以又给它扔了个“麻烦”:

能直接帮我生成一份虚拟完整用户调研数据,并最终生成一份用户分析报告吗?

大约几分钟后,这个Agent自己生成了一份虚拟用户数据:

挤爆字节服务器的Agent到底啥水平?一手实测来了

横向标准项需要长时间拖动才能看完整,竖向共有100条数据:

挤爆字节服务器的Agent到底啥水平?一手实测来了

当然,过程中Agent也自己发现了错误,并多次尝试更正。

挤爆字节服务器的Agent到底啥水平?一手实测来了
挤爆字节服务器的Agent到底啥水平?一手实测来了

最终,基于虚拟数据,Agent确实生成了一份可下载的完整用户画像报告。

挤爆字节服务器的Agent到底啥水平?一手实测来了

整体而言,这个用户研究Agent具备问卷数据分析、访谈纪要总结、调研问卷生成、访谈提纲生成这四大能力,即使零产品经验也能通过持续对话实现自己的调研需求。

挤爆字节服务器的Agent到底啥水平?一手实测来了

每天都能收到专属股票早报

而另一个股票专家Agent,由于涉及的领域比较复杂,官网显示平均任务耗时为42分钟

挤爆字节服务器的Agent到底啥水平?一手实测来了

能做的事儿包括下面这些:

挤爆字节服务器的Agent到底啥水平?一手实测来了

这里我们简单测试了其早报生成功能。

支持选定3支关注的股票(这里就不具体展示选了哪些了),以及三个关注的板块,然后给出当日A股早报。

挤爆字节服务器的Agent到底啥水平?一手实测来了

有意思的是,相比之前的用户调研Agent,这个智能体则更加谨慎了,过程中还需要用户手动确认其阶段性完成情况,然后才继续执行。

挤爆字节服务器的Agent到底啥水平?一手实测来了

而且整个过程搜集了大量数据:

挤爆字节服务器的Agent到底啥水平?一手实测来了

不过比较遗憾的是,截至发稿前(已经跑了一个多小时),可能由于服务器资源问题,暂时没有跑出最终结果。

挤爆字节服务器的Agent到底啥水平?一手实测来了

挤爆字节服务器的Agent到底啥水平?一手实测来了

然而,从其他网友对该智能体的测试来看,据称效果惊艳。

(股票功能)实测蛮惊艳的

挤爆字节服务器的Agent到底啥水平?一手实测来了

小结一下,相比通用Agent,专家Agent在实用性方面确实更胜一筹。

就产品的初步设计来看,和“扣子空间”这个名字相呼应,扣子团队希望打造一个“通用Agent和专家Agent协作的系统”。

不过按照扣子团队的长期设想,最终目标则还是打造一个开放的Agent系统——

当用户提出需求时,系统能自动调度最合适的一位或多位专家Agent协同完成任务。

而抛开长远不谈,仅就当下这个测试版扣子空间而言,得益于它在自主规划和任务驱动方面的加强,对于绝大多数实际情况,它已经是一个可以上手、能用的Agent系统了。

One More Thing

这一次,字节在扣子空间上还搞了一波“裂变玩法”。

我们实测过程中发现,在执行完第一个任务之后,还可以得到五个邀请码。

挤爆字节服务器的Agent到底啥水平?一手实测来了

并且当五个邀请码全部用完后,还能获得更多邀请资格。

所以相比其他家那种完全封闭的测试,扣子空间的体验资格也更容易获得。

挤爆字节服务器的Agent到底啥水平?一手实测来了

最后,有获得邀请码的童鞋来说说你的使用体验吗?

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 4 月
 123456
78910111213
14151617181920
21222324252627
282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...