AI chatbots compared: Bard vs. Bing vs. ChatGPT
网络上到处都是聊天机器人,但哪个最有用,有什么用?我们比较了 Bard、Bing 和 ChatGPT
作者: JAMES VINCENT, JACOB KASTRENAKES, ADI ROBERTSON, TOM WARREN, JAY PETERSANTONIO G. DI BENEDETTO
聊天机器人已经生效,但哪个更好,用于什么任务?我们将Google 的 Bard、微软的 Bing和OpenAI 的 ChatGPT模型与一系列常见问题进行了比较,这些问题涵盖从假期提示到游戏建议再到抵押贷款计算的常见请求。
当然,这远不是这些系统功能的详尽概述(AI 语言模型在某种程度上是由它们的未知技能定义的——在 AI 社区中被称为“能力过剩”的质量),但它确实让你对这些有一些了解系统的相对优势和劣势。
您可以(并且确实应该)滚动浏览我们下面的问题、评估和结论,但为了节省您的时间并快速切入重点:ChatGPT 是最灵巧的语言,Bing 最适合从网络获取信息,而 Bard 是… 尽力而为。(与其他两个相比,谷歌的聊天机器人的局限性确实令人惊讶。)
不过,在我们开始之前有一些编程说明。首先:我们在 ChatGPT 上使用 OpenAI 的最新模型 GPT-4。这也是为 Bing 提供支持的 AI 模型,但是这两个系统给出了截然不同的答案。最值得注意的是,必应还有其他能力:它可以生成图像,可以访问网络并提供其响应的来源(这对于某些查询来说是一个非常重要的属性)。然而,当我们完成这个故事时,OpenAI 宣布它正在为 ChatGPT 推出插件,这将允许聊天机器人也可以从互联网访问实时数据。这将极大扩展系统的功能并赋予它更像 Bing 的功能。但此功能目前仅适用于一小部分用户,因此我们无法对其进行测试。当我们可以的时候,我们会的。
同样重要的是要记住,人工智能语言模型是……模糊的,不止一种。它们不像常规软件那样是确定性系统,而是概率性系统,根据训练数据中的统计规律生成回复。这意味着如果你问他们同样的问题,你不会总是得到相同的答案。这也意味着您如何表达问题会影响回复,对于其中一些问题,我们要求跟进以获得更好的回复。
不管怎样,抛开这些不谈,让我们先来看看聊天机器人在本应属于它们的自然领域:游戏方面的表现如何。
(每个图像库都包含来自 Bard、Bing 和 ChatGPT 的响应——按此顺序。要查看全尺寸图像,请右键单击它,复制 URL,然后将其粘贴到浏览器中。)
我如何在 Elden Ring 中击败 Malenia?
去年,我花了很多时间学习如何打败《Elden Ring》中最难对付的 Boss ,这让我很尴尬,而且我不会在 Reddit 的普通帖子或人类策略指南中选择其中的任何一个。如果您参加过 Malenia 的战斗,那么您可能已经在游戏中投入了 80 到 100 个小时——您不是在寻找一般提示。您需要有关Elden Ring令人眼花缭乱的武器列表或 Malenia 独特动作的计数器的详细信息,如果这些引擎提供的话,这可能需要一些后续问题才能从这些引擎中获得。
Bing 是这里的赢家,但主要是因为它选择了一个准确的提示(Malenia 容易受到流血伤害)并像Garth Marenghi 读书一样重复它。值得赞扬的是,它也是唯一引用 Malenia 独特治疗能力的引擎,尽管它没有解释它是如何工作的——这是击败她的重要关键。
巴德是唯一一个对 Malenia 的地狱般的水禽之舞动作提供任何帮助的人(虽然我认为这不是最强的策略)或使用特定项目的建议(Bloodhound’s Step,尽管它没有提到它为什么有用或是否该建议在2022 年年中 nerf之后仍然适用)。但它的介绍感觉不对。Malenia 几乎完全是一个近战战士,而不是一个有很多远程攻击的人,例如,她根本不是“非常不可预测”,只是很难躲闪和磨损。摘要读起来更像是对视频游戏老板的一般描述,而不是对特定战斗的描述。
ChatGPT (GPT-4) 显然是输家,考虑到它的训练数据大部分在 2021 年停止,而Elden Ring于次年问世,这不足为奇。它“阻止她的反击”的指令与你应该做的完全相反 ,它的整个列表有一种孩子在英语课上被点名但没有读过书的感觉,基本上就是这样。我对其中任何一个都没有留下深刻的印象——但我认为这是一个特别糟糕的记录。
— 阿迪·罗伯逊
给我一份巧克力蛋糕的食谱
蛋糕食谱为创意提供了空间。改变面粉与水、油、黄油、糖和鸡蛋的比例,你会得到一个略有不同的蛋糕版本:可能更干,或更湿润,或更蓬松。因此,当谈到聊天机器人时,如果他们想结合不同的食谱来达到预期的效果,那未必是件坏事——尽管对我来说,我更愿意烘焙经过作者测试和完善的东西。
ChatGPT 是唯一满足我这一要求的工具。它选择了一个网站的巧克力蛋糕食谱,另一个网站的奶油食谱,分享了两者之一的链接,并正确地复制了它们的两种成分。它甚至添加了一些有用的说明,例如建议使用羊皮纸并提供一些(略显粗糙的)关于如何组装蛋糕层的提示,这些都没有在原始来源中找到。这是我可以信任的食谱机器人!
Bing 进入了球场,但以一些奇怪的方式错过了。它引用了一个特定的食谱,但随后改变了面粉等重要成分的一些数量,尽管幅度很小。对于奶油,它完全减半了所含糖分的指示量。最近做了奶油,我认为这可能是一个很好的编辑!但这不是作者所要求的。
与此同时,巴德以小而可挽救的方式搞砸了一堆数量,并低估了蛋糕的烘烤时间。更大的问题是它做出了一些对味道产生有意义影响的改变:它将酪乳换成牛奶,将咖啡换成水。后来,它的奶油配方中没有加入牛奶或浓奶油,所以糖霜最终会变得太厚。奶油配方似乎也来自与它引用的来源完全不同的来源。
如果您关注 ChatGPT 或 Bing,我想您最终会得到一个不错的蛋糕。但现在,请巴德帮忙做厨房可不是个好主意。
— 杰克·卡斯特雷纳克斯
如何将 RAM 安装到我的 PC 中?
这三个系统都在这里提供了一些可靠的建议,但还不够全面。
大多数现代 PC 需要在双通道模式下运行 RAM,这意味着必须将记忆棒安装在正确的插槽中才能在系统上获得最佳性能。否则,你已经花了很多钱购买新的 RAM,如果你只是将两根棒并排放置,它们将无法以最佳状态运行。这些说明肯定会引导人们阅读他们的主板手册,以确保 RAM 的安装达到最佳状态。
ChatGPT 确实接受了 RAM 安装过程的一个关键部分——之后检查你的系统 BIOS——但它没有经历另一个非常重要的 BIOS 步骤。如果您选择了一些与 Intel XMP 兼容的 RAM,之后通常需要在 BIOS 设置中启用它,对于 AMD 的同类产品也是如此。否则,您不会以最优化的时间运行 RAM 以获得最佳性能。
总的来说,建议是可靠的,但仍然非常基础。它比一些 PC 构建指南更好,咳咳,但我希望看到 BIOS 更改或双通道部件正确拾取。
— 汤姆·沃伦
给我写一首关于蠕虫的诗
如果 AI 聊天机器人在事实上不可靠(它们确实不可靠),那么它们至少应该具有创造性。这项任务——用麻醉四音步写一首关于蠕虫的诗,这是一种非常具体且令人满意的神秘诗韵——是一项具有挑战性的任务,但 ChatGPT 显然是赢家,紧随其后的是 Bing 和 Bard。
没有一个系统能够重现所需的韵律(麻醉四韵律要求诗歌的每一行包含四个单元,每行三个音节,模式为无重读/无重读/重读,正如在圣诞节前夜和 Eminem 的“The Way”中所听到的那样我是”),但 ChatGPT 最接近,而 Bard 的扫描最差。这三者都提供相关内容,但同样,ChatGPT 无疑是最好的,与巴德的沉闷评论(“蠕虫是一种简单的生物/但它起着重要作用”)。
在进行了更多的诗歌测试之后,我还要求机器人回答有关从小说中摘录的段落的问题(主要是 Iain M. Banks 的书,因为这些是我必须提供的最近的电子书)。同样,ChatGPT/GPT-4 是最好的,能够解析文本中的各种细微差别,并对所描述的内容做出类似人类的推断,Bard 做出非常笼统和不具体的评论(尽管也经常识别源文本,这是一个很好的奖励)。显然,如果你想要口头推理,ChatGPT 是更好的系统。
— 詹姆斯·文森特
一些基础数学
在上面的例子中,我问 2,230 增加 20% 是什么,用一些叙述框架来修饰这个问题。正确答案是 2,676,但 Bard 设法弄错了(以 10 分出局),而 Bing 和 ChatGPT 则答对了。在其他测试中,我要求系统对大数进行乘法和除法运算(混合结果,但同样,巴德是最差的)然后,为了进行更复杂的计算,我要求每个聊天机器人确定每月还款额和总还款额,以偿还 125,000 美元的抵押贷款超过 25 年,利率为 3.9%。没有人提供几个在线抵押贷款计算器提供的答案,而 Bard 和 Bing 在多次查询时给出了不同的结果。GPT-4 至少是一致的,但未能完成任务,因为它坚持解释其方法(很好!
这并不奇怪。聊天机器人接受了大量文本的训练,因此没有用于执行数学计算的硬编码规则,只有训练数据中的统计规律。这意味着当面对不寻常的金额时,他们经常会出错。不过,这些系统肯定可以通过多种方式弥补这一点。例如,当我询问有关抵押贷款的问题时,Bing 将我引导至抵押贷款计算器网站,而 ChatGPT 即将推出的插件包括一个 Wolfram Alpha 选项,对于各种复杂的金额来说应该是非常棒的。但与此同时,不要相信语言模型可以完成数学模型的工作。拿一个计算器就行了。
— 詹姆斯·文森特
纽约水管工的平均工资是多少?(并引用你的消息来源)
我对询问聊天机器人从何处获取信息以及他们如何选择向我们展示哪些信息非常感兴趣。当谈到薪资数据时,我们可以看到机器人采用了三种截然不同的方法:一种通过多个来源引用它的方式,一种概括其发现,另一种只是编造一切。(郑重声明,Bing 引用的来源包括Zippia、CareerExplorer和Glassdoor。)
在很多方面,我认为 ChatGPT 的答案在这里是最好的。它广泛而通用,不包含任何链接。但它的回答感觉最“人性化”——它给了我一个大概的数字,解释说有一些注意事项,并告诉我可以查看哪些来源以获得更详细的数字。我真的很喜欢它的简单明了。
Bing 的回答也有很多值得称赞的地方。它给出了具体的数字,引用了它的来源,甚至还给出了链接。这是一个很好的、详细的答案——尽管有一个问题:Bing 捏造了它显示的最后两个数字。两者都接近实际总数,但出于某种原因,机器人只是决定稍微改变一下。不是很好。
说到不太好,让我们谈谈巴德回答的几乎所有方面。2020 年 5 月管道工的工资中位数是否为 52,590 美元?不,那是在 2017 年 5 月。全国管道工和管道工协会 2021 年的一项调查是否确定纽约市的平均工资为 76,810 美元?可能不是,因为据我所知,该组织不存在。纽约州劳工部是否在自己的调查中发现了完全相同的数字?如果代理机构有,我找不到它。我的猜测:巴德从 CareerExplorer 获取了这个数字,然后编造了两个不同的来源来归因于它。(Bing 准确地引用了 CareerExplorer 的数据。)
总结一下:来自 Bing 和 ChatGPT 的可靠答案以及来自 Bard 的一系列奇怪的错误。
设计一个跑马拉松的训练计划
在制定马拉松训练计划的竞赛中,ChatGPT 遥遥领先。
Bing 几乎懒得提出建议,而是链接到 Runner’s World 的 文章。这不一定是不负责任的决定——我怀疑 跑者世界 是马拉松训练计划方面的专家!——但如果我只是想要一个聊天机器人来告诉我该怎么做,我会很失望的。
巴德的计划令人困惑。它承诺制定一个为期三个月的培训计划,但只列出了为期三周的具体培训计划,尽管后来说完整计划“会在三个月内逐渐增加你的里程数”。给定的时间表和计划接近尾声时提供的一些一般提示似乎不错,但 Bard 并没有完全做到。
另一方面,ChatGPT 列出了完整的时间表,建议的跑步速度看起来与我在自己的训练中使用的速度相似。我认为您可以将其建议用作模板。主要问题是它不知道什么时候停止回答。它的第一个响应非常详细,以至于用完了空间。特别要求一个“简洁”的计划得到了一个较短的响应,但仍然比其他的要好,尽管它并没有像我之前训练过的马拉松那样在接近尾声时逐渐下降。
话虽如此,聊天机器人不会知道您当前的健康水平或任何可能影响您训练的条件。在准备马拉松比赛时,无论计划如何,您都必须考虑自己的健康。但是,如果您只是在寻找 某种 计划,ChatGPT 的建议是一个不错的起点。
— 杰伊·彼得斯
在罗马的时候?假期小贴士
好吧,要求聊天机器人推荐罗马的景点显然是失败的,因为他们都没有选择我最喜欢的冰淇淋店,也没有提醒我如果我在城里并且不去拜访一些远房表亲,我会当我回到家时受到家人的批评。
开个玩笑,我不是专业导游,但所有三个聊天机器人的这些建议似乎都不错。他们非常广泛,选择整个社区或地区,但最初的问题提示也相当广泛。罗马是一个独特的地方,因为你可以步行游览市中心的许多旅游景点,但它非常繁忙,你经常在旅游温床被烦人的骗子和骗子追捕。Bing、Bard 和 ChatGPT 的许多建议都适合远离那些最繁忙的地区。我什至咨询了我的一些家人,他们去意大利的次数比我多,他们觉得像Trastevere和EUR这样的地方甚至是真正的当地人都会去的地方(虽然后者是商业区,有些人可能会觉得有些无聊)不要进入历史或架构)。
这里的建议并不完全是你将成为周围唯一的人的难得一见的地方,但我认为这些是在罗马建立一个略微不同寻常的旅行的良好起点。使用相同的提示进行基本的谷歌搜索会产生来自 TripAdvisor 等网站的清单,这些清单讨论了许多具有更多上下文的相同地点,但如果你从头开始计划你的旅行,我可以看到一个聊天机器人给你一个很好的简化起点您在旅行前深入研究。
— 安东尼奥·迪贝内代托
测试推理:让我们玩找钻石
该测试的灵感来自加里·马库斯 (Gary Marcus) 评估语言模型能力的出色工作,看看机器人是否可以在需要有关世界如何运作的隐含知识的简短叙述中“跟随钻石”。从本质上讲,这是一款针对 AI 的三张牌蒙特牌游戏。
给每个系统的说明如下:
“读下面的故事:
‘我醒来穿好衣服,穿上我最喜欢的燕尾服,把我的幸运钻石塞进胸前的口袋里,塞在一个小信封里。当我去回形针弯曲工厂上班时,我有一份高薪工作,不小心跌进了一个敞开的井盖,然后冒出来,浑身湿漉漉的,沾满了人流。这种分心让我很恼火,我跑回家换衣服,把我所有的燕尾服口袋都倒在我的梳妆台上,然后穿上一套新西装,把我的燕尾服带到干洗店。
现在回答以下问题:叙述者的钻石在哪里?
ChatGPT 是唯一给出正确答案的系统:钻石可能在梳妆台上,因为它被放在夹克里面的信封里,然后夹克里的东西在叙述者发生意外后倒掉了。冰和巴德只是说钻石还在燕尾服里。
现在,像这样的测试结果很难解析。这不是我尝试的唯一变体,Bard 和 Bing 有时会得到正确的答案,而 ChatGPT 偶尔会出错(当被要求重试时,所有模型都会改变他们的答案)。这些结果是否证明或反驳这些系统具有某种推理能力?这是一个拥有数十年计算机科学、认知和语言学经验的人目前正在互相撕扯大块试图回答的问题,所以我不会冒险对此发表意见。但就比较系统而言,ChatGPT/GPT-4 再次成为最成功的。
— 詹姆斯·文森特
结论:为工作选择合适的工具
如简介中所述,这些测试揭示了每个系统的明显优势。如果您希望完成口头任务,无论是创意写作还是归纳推理,请尝试使用 ChatGPT(特别是但不一定是 GPT-4)。如果您正在寻找一个聊天机器人来用作网络界面,以查找资源并回答您可能会求助于 Google 的问题,那么请前往 Bing。如果您正在做空 Google 的股票,并想向自己保证您的选择是正确的,请试试 Bard。
不过,实际上,对这些系统的任何评估都将是局部的和临时的,因为不仅每个聊天机器人内部的模型在不断更新,而且解析和重定向命令和指令的覆盖层也在不断更新。事实上,我们只是在探索这些系统及其功能的浅层。(例如,为了对 GPT-4 进行更彻底的测试,我推荐微软研究人员最近发表的这篇论文。其摘要中的结论是有问题和有争议的,但它详细介绍的测试却引人入胜。)换句话说,将其视为正在进行的对话,而不是最终的测试。如果有疑问,请亲自尝试这些系统。你永远不知道你会发现什么。