谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

1,066次阅读
没有评论

原文标题:《谷歌版 ChatGPT 突然公测!上手实测结果在此,体验申请通过飞快》

谷歌吃了大亏之后,这次一声不吭,放了大招:

对标 ChatGPTBard 测试版,刚刚正式对外发布。

而且这次用户在申请候补名单之后,无需经历漫长的等待时间。

没错,量子位也已经拿到了测试资格!(中间只有不到 5 小时的间隔。)

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

实测之后表示,Bard 效果惊人,情绪和事实性有,尤其是 ChatGPT 前期的数理能力,Bard 都不在话下。

甚至有时候还略胜当前 GPT-4 一筹!

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

谷歌 CEO 皮猜哥(Sundar Pichai)解释了如此上线之快的原因:希望获得用户的反馈,加速让 Bard 变得更好。

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

话不多说,我们现在就来开始体验。

Bard VS GPT-4

首先在聊天界面上,Bard 率先开始介绍自己:

我是 Bard,您的创意和协作者。我有局限性,不会总是做对,但你的反馈将帮助我改进。

不确定从哪里开始?你可以试试这些问题:「为什么大模型有时候会犯错?」、「闪电是否会在同一个地方击中两次?」、「写一篇关于无酒精夏日特饮的博文」。

(严谨而又体贴)

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

而在人类这边的发送端,可以选择键入语音输入两种方式。

首先最简单的难度,以它推荐的常识题闪电是否会在同一个地方击中两次?为例,来看看实际功能体验如何?

(不错不错,秒秒钟响应。目前暂不支持中文,但可以借助谷歌翻译插件)

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

从答案结构上看,采用的是总分总结构。

先总结发言:闪电可以袭击同一个地方两次。

随后开始细致地讲原理「闪电被高大、尖锐的物体所吸引」、摆事实「帝国大厦每年都被闪电击中 25 次」。

最后再给人类提出切实的建议:

如果你遇到雷雨天气,保持安全的最好办法是避开高大尖锐的物体,留在室内。如果你在外面,蹲下来,让自己尽可能的小。

这波逻辑和真实性满分!但因为是谷歌推荐的问题,暂且保持观望。

而从功能上看,确实是十分完备的。

回答框的右上角「View other drafts」,有更多的版本可供选择;而在左下角,你可以点赞 or 拉踩 or 重新生成,实在不行,还可以谷歌一下

右下方还有一个 more 的功能,你可以进行复制和(反手一个)举报操作。

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

既然如此,开始难度升级。作为参考,我们同题挑战 GPT-4。

1、经典的哲学:为什么人不能两次踏入同一条河流?(借助闪电的灵感)

(很快啊,这次也是几秒钟响应)

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

从答案结构上看,确实理解和逻辑能力满分:首先解释这句话本身含义,还提到了来自赫拉克利特的名言,以及更多解释和本身意义。

而 GPT-4 这边,几乎是不加思考地给出了答案。

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

从结构上看,主要分成两个部分。首先提到这是赫拉克利特说的,以及他的观点;然后解释背后隐藏的生活意义。

2、小学加减法:356+132 等于多少?

结果 Bard 在 4 秒内就给出答案,488 没问题的,这不比 ChatGPT 早期厉害多了!

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

那直接再上点难度,两个数直接相乘:356*132 等于多少?

结果没想到 Bard 依旧是秒秒钟就给答案,而且完全正确!

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

再来看看 GPT-4 这边,加法还行,但没想到在乘法这边,直接败下阵来!

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

不过提醒它错了之后,它就又回答正确了。

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

如果换稍微难一点的高数题呢?比如:f (x)=x (x-1)(x-2)(x-3),f’(0)=?

正确答案应该是 (-3)!,也就是-6。

但 Bard 这回就不太行了,并没有理解题目的意思。

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

至于 GPT-4,思路倒是没啥问题,但最后计算又拉胯了……

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

不过同样,只要你告诉它算得有问题,GPT-4 就能马上纠正。

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

3、理解笑话能力,Bard 还能听得懂英文里面的谐音梗。

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

而这也并没有难倒 GPT-4。不过相较而言,Bard 似乎更有情绪一点,它很开心地回答出了答案;而 GPT-4 则更显理智(无聊)。

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

不过,在此之前,GPT-4 就已经测试过是懂一些谐音梗的,甚至连中文的谐音梗也不在话下。

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

4、代码能力:写一段斐波那契数列的代码。

Bard 很快生成了正确的代码,并且代码习惯不错。

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

GPT-4 则更积极主动一些,除了递归法,还给了迭代法的方案。

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

最后的最后,再考验一下它了解事实性的能力。(狗头)

你知道量子位吗?

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

回答错咯~Bard。

咳咳,正经一点的:你知道 GPT-4 吗?你想对它说些什么?

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

可以看到,Bard 具备多轮对话的能力。「我认为它有潜力成为沟通和创造力的强大工具」,嗯~ 格局有了。

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

那竞争对手呢?(我在搞事)

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

不过到这里,就有点问题了。

另外比较遗憾的是,Bard 目前并不支持中文。

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

关于 Bard

谷歌 Bard 背后是由一个大语言模型(LLM)来支持,具体而言,就是轻量优化版的 LaMDA。

我们可以把 LLM 视作一个预测引擎,当给出提示时,它会从接下来可能出现的单词中,一次选择一个单词来生成响应。

谷歌在研究中发现,对于 LLM 来说,使用的人越多,它的预测效果就会更好,这或许也就是为什么 Bard 如此着急公开测试的原因了。

不过谷歌也直言不讳地说,虽然 LLM 很强,但它并非是没有缺点。

由于 Bard 会根据众多信息来学习,不过这些信息中必然存在着有偏见甚至错误的那种。

因此,在回答用户问题时,Bard 有时就会出现不准确、误导性的或虚假的信息。

例如在下面的案例中,Bard 就搞错了一个植物的学名:

谷歌版 ChatGPT 上手实测结果在此,体验申请通过飞快

除此之外,谷歌还强调说,Bard 并非是搜索引擎,而是它的一个补充。

最后,奉上申请候补名单的地址,感兴趣的小伙伴可以抓紧尝鲜了:

https://bard.google.com/

本文来自微信公众号:量子位 (ID:QbitAI),作者:杨净 金磊

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy