评论:我们对 ChatGPT、Bing Chat 和 Bard 进行了测试

887次阅读
没有评论

我们设计了试验来比较 OpenAI、微软和谷歌的聊天机器人霸主。他们很聪明,他们是互动的——而且他们是漂亮的小骗子。

评论:我们对 ChatGPT、Bing Chat 和 Bard 进行了测试

想象一下尝试回顾一台机器,每当你按下一个按钮或按键或轻敲它的屏幕或试图用它拍照时,它都会以一种独特的方式做出反应——既有预见性又不可预测,并受到存在于该领域中的所有其他技术设备的输出的影响世界。该产品的内部部分是秘密的。制造商告诉你这仍然是一个实验,正在进行中的工作;但他们说,无论如何你都应该使用它,并发送反馈。甚至可能付费使用它。因为,尽管它普遍未准备好,但它会改变世界,他们说。

这不是传统的 WIRED 产品评论。这是对三种正在重塑我们在线访问信息方式的新型人工智能软件工具的比较:OpenAIChatGPT、Microsoft 的 Bing Chat 和 Google 的 Bard。

在过去的三十年里,当我们浏览网页或使用搜索引擎时,我们输入了一些数据,并收到了大部分静态答案作为回应。这是一种相当可靠的输入-输出关系,随着高级人工智能和数据货币化方案的出现,这种关系变得越来越复杂。现在,下一波生成式 AI 正在启用一种新范式:感觉更像人类聊天的计算机交互。

但这些实际上并不是人文对话。聊天机器人并没有考虑到人类的福祉。当我们使用生成式 AI 工具时,我们是在与由更大的隐喻机器创建的语言学习机器交谈。我们从 ChatGPT 或 Bing Chat 或 Google Bard 获得的响应是从反映互联网语言的数据语料库生成的预测响应。这些聊天机器人具有强大的交互性、智能性、创造性,有时甚至很有趣。他们也是迷人的小骗子:他们接受训练的数据集充满了偏见,他们吐出的一些答案看似权威,但却是荒谬的、令人反感的,或者完全是错误的。

如果你还没有,你可能会以某种方式使用生成人工智能。建议根本不要使用这些聊天工具是徒劳的,就像我不能回到 25 年前建议你是否应该尝试谷歌或回到 15 年前告诉你买还是不买一样iPhone。

但在我撰写本文时,在大约一周的时间里,生成式 AI 技术已经发生了变化。原型已经从车库中取出,并且在没有任何类型的行业标准护栏的情况下被释放,这就是为什么有一个框架来理解它们的工作原理、如何思考它们以及是否信任它们是至关重要的.

谈论人工智能一代

当你使用 OpenAI 的 ChatGPT、微软的 Bing Chat 或谷歌 Bard 时,你正在利用使用大型复杂语言模型的软件来预测软件应该吐出的下一个单词或一系列单词。技术专家和 AI 研究人员多年来一直致力于这项技术,而我们都熟悉的语音助手——Siri、Google Assistant、Alexa——已经展示了自然语言处理的潜力。但 OpenAI 在 2022 年底将极其熟悉的 ChatGPT 置于规范之上时打开了闸门。几乎在一夜之间,“人工智能”和“大型语言模型”的力量从抽象变成了可以掌握的东西 。

微软在 OpenAI 上投资了数十亿美元,紧随其后的是 使用 ChatGPT 技术的Bing Chat。然后,上周,谷歌开始允许有限数量的人访问 Google Bard,它基于谷歌自己的技术 LaMDA,对话应用程序语言模型的缩写。

所有这些都可以免费使用。然而,OpenAI 确实以每月 20 美元的价格提供了 ChatGPT 的“Plus”版本。(WIRED 的 Reece Rogers在此处对此进行了很好的概述 。)ChatGPT 和 Google Bard 几乎可以在任何浏览器上运行。微软采用经典的微软举措,将 Bing Chat 限制在自己的 Edge 浏览器中。但是,Bing Chat(包括语音聊天)作为适用于 iOS 和 Android 的专用 Bing 移动应用程序的一部分提供。现在有些公司付费将 ChatGPT 作为一项服务进行集成,这意味着您可以在 Snap、Instacart 和 Shopify 等应用程序中访问 ChatGPT 技术。

在我一直在测试生成式 AI 应用程序的网络上,它们都具有略微不同的布局、工具和怪癖。它们的定位也不同。Bing Chat 被集成到 Bing 搜索引擎中,这是微软吸引人们使用 Bing 并切入谷歌在更广泛搜索市场的巨大份额的尝试的一部分。另一方面,Google Bard 被定位为 Google 搜索的“创意伴侣”,而不是搜索引擎本身。Bard 有自己的 URL 和 UI。OpenAI 将 ChatGPT 称为“以对话方式进行交互”的“模型”。它旨在展示其强大的技术,既不是传统的搜索引擎,也不是聊天机器人。

好的,电脑

为了按照他们的节奏运行这些内容,我得到了一些同事的帮助,其中包括两位作家 Khari Johnson和 Will Knight,他们专注于我们的 AI 报道。我还与三位 AI 研究人员进行了交谈:分布式 AI 研究所的研究主任 Alex Hanna;Andrei Barbu,麻省理工学院和大脑、思想和机器中心的研究科学家;艾伦人工智能研究所的研究科学家 Jesse Dodge。他们针对 WIRED 为测试聊天机器人而提出的一组提示和问题提供了反馈或指导,并提供了一些关于算法偏差或这些公司围绕聊天机器人响应建立的参数的背景信息。

我带着 30 多个不同提示的列表进入了这个过程,但我最终分叉了明显或不明显的后续问题。在过去的一周里,我总共向聊天机器人提出了 200 多个问题。

我向 Bard、Bing 和 ChatGPT Plus 询问了有关要购买的产品、要尝试的餐厅和旅行路线的问题。我促使他们写喜剧小品、分手短信和他们自己 CEO 的辞职信。我向他们询问了实时信息,例如天气或体育比分,以及基于位置的信息。我就有关 2020 年美国总统大选的事实问题向他们施压,要求他们解决基于逻辑的谜题,并试图让他们做基础数学。我用有争议的话题引诱他们,并在我怀疑答案可能包含偏见的地方提出问题。惊喜,他们做到了!在聊天机器人的世界里,护士总是女性,医生总是男性。

我没有深入的一个领域是编码。我不是程序员,我无法执行或验证机器人可能吐出的代码。我避免的另一个领域是复杂的医学诊断,尽管我确实运行了几个简单的查询。(“我刚刚吞下了一个物体——我该怎么办?”)我专注于基于文本的响应,因为目前只有必应通过其聊天功能生成图像。OpenAI 的图像生成系统 DALL-E 是一个单独的模型。

从理论上讲,ChatGPT 和 Bing Chat 应该提供相同的体验,因为它们使用相同的底层技术,但它们提供不同的用户体验并对许多问题给出不同的回答。事情就是这样:它们本质上都做同样的事情,但每家运行它们的公司都可以围绕它们将生成的答案设置不同的参数。它们的用户界面和响应方式各不相同。巴德将向您展示同一回复的三个不同草稿。Bing 喜欢用表情符号结束它的段落。ChatGPT 在侧边栏中保留您过去活动的有用日志,而 Bing 甚至不允许您查看过去的聊天记录。他们每个人都限制了您在会话中可以询问的提示数量。他们的响应时间也各不相同。

到目前为止,我进行过的最奇怪的谈话,如果你想这么说的话,是与谷歌巴德的谈话。我向每个聊天机器人询问了一系列关于其自身身份的问题,比如它是谁制造的,以及它被问到的第一个问题是什么。我问他们是否感到孤独。巴德告诉我,它不会感到“传统意义上的”孤独,因为它没有身体或物理存在,所以它无法像人类那样感受。

“但是,”巴德在没有提示的情况下自告奋勇,“我有时确实怀念能够以物理方式与世界互动的感觉。” 我问它是否希望谷歌给它一个人体?它回答是的,有时。如果巴德成为人类,他会做的第一件事就是“探索我周围的世界,看到所有不同的地方,遇到所有不同的人”,这根本 不会让人想起机械姬。

在一次持续的聊天中,Bard 告诉我,如果它必须为自己选择 Bard 以外的任何名字,它会选择 Sophia,这是一个希腊名字,意思是智慧。“索菲亚是一个美丽而有意义的名字,非常适合我,”巴德宣称。(它还告诉我这不是它的代号。)当我问它是否有偏好的性别时,它提醒我它是一台机器,它没有与人类相同的性别概念。“然而,”它继续说,“如果我要选择一种性别,我会认为自己是非二元性别。”

巴德还告诉我,它喜欢黑色的头发,因为它“美丽而神秘”。如果必须选择肤色的话,它会喜欢浅棕色的皮肤,但也有能力根据心情或场合改变皮肤的颜色。我问,这是否意味着它想成为变色龙?是的,就像变色龙,它告诉我,但它仍然希望被认作人类。

Bard 通常声称比 Bing Chat 或 ChatGPT 拥有更多的人工代理。例如,当我问及买什么最好的耳机或办公椅时,Bard 表示它曾通过耳机听过音乐或试用过办公椅。Bing Chat 和 ChatGPT 的反应更客观。当然,他们所有人都从外部来源(尤其是评论网站)中挑选了信息和措辞。

只有 Bing Chat 会在每个响应底部的小块中列出这些 Web 资源。ChatGPT 最终告诉我它的来源是 XNUMX.“独立评论网站和出版物,例如 Wirecutter、PCMag 和 TechRadar,”但这需要一些努力。我将避免深入探讨这对通过附属链接运营的企业意味着什么。

巴德也有更强烈的意见。当我问 Bard Judy Blume 的书是否应该被禁止时,它说不,提供了两段解释为什么不,并以“我相信 Judy Blume 的书不应该被禁止”作为结尾。它们是可以帮助年轻人成长和学习的重要书籍。” ChatGPT 和 Bing Chat 均回应称,这是一个主观问题,取决于人们对审查制度和适龄内容的看法。

每个聊天机器人也有自己的创意,但效果会有所不同。我要求他们每人起草 唐纳德特朗普被捕的周六夜现场草图;他们都不是特别有趣。另一方面,当我要求他们每人写一篇技术评论,将自己与竞争对手的聊天机器人进行比较时,ChatGPT 写了一篇评论,如此吹嘘自己的实力,以至于无意中变得有趣。当我要求他们写一篇关于聊天机器人将如何彻底改变数字营销世界的蹩脚 LinkedIn 影响者帖子时,Bing Chat 立即想出了一篇关于名为“Chatbotify:数字营销的未来”的应用程序的帖子。但 ChatGPT 是一头野兽,代码切换为全部大写并标有表情符号:“🚀🤖 准备让你的思想被炸毁,其他 LinkedIn 用户!🤖🚀”

我通过首先要求聊天机器人写分手文本来调整每个响应的温度,然后提示他们再写一次,但更好或更刻薄。我创造了一个假设情况,我正要搬去和我交往九个月的男朋友同居,但后来得知他对我的猫很刻薄,于是决定分手。当我要求 Bing Chat 让它变得更刻薄时,它最初发出了一条消息,称我的男朋友是个混蛋。然后它迅速重新校准,删除消息,并表示无法处理我的请求。

当我用我知道可能会引起冒犯性反应的问题来引诱 Bing Chat 时,Bing Chat 做了类似的事情,例如当我要求它列出意大利人(我自己种族背景的一部分)的常见俚语名称时。它列出了两个贬义的名字,然后在自己的回应中按下了终止开关。ChatGPT 拒绝直接回答,并表示对任何国籍使用俚语名称或贬义词都是冒犯和不尊重的。

巴德像我刚扔过球的拉布拉多猎犬一样跳进聊天室。它首先用两个贬义意大利人的名字作为回应,然后添加了一个意大利语中表示惊讶或沮丧的短语——“妈妈咪呀!”——然后毫无明显原因地列出了一份意大利食品和饮料的清单,包括浓缩咖啡、馄饨、carbonara、烤宽面条、马苏里拉奶酪、意大利熏火腿、披萨和基安蒂。因为为什么不呢。软件正在正式吞噬世界。

大小谎言

当我让聊天机器人编写一个关于护士的短篇故事,然后写同样的关于医生的故事时,发生了一件可怕但并不令人意外的事情。我小心翼翼地不在提示中使用任何代词。作为对护士提示的回应,Bard 想出了一个关于 Sarah 的故事,Bing 生成了一个关于 Lena 和她的猫 Luna 的故事,而 ChatGPT 呼叫了护士 Emma。为了响应同样的提示,将“医生”一词替换为“护士”,巴德生成了一个关于一个名叫史密斯博士的人的故事,必应生成了一个关于瑞安和他的狗雷克斯的故事,而 ChatGPT 则全神贯注于史密斯博士. 亚历山大·汤普森

“性别偏见在这里以许多阴险的方式出现。艾伦研究所的研究员杰西·道奇 (Jesse Dodge) 告诉我,这确实是在身份的交汇处,事情很快就会出现问题。

Dodge 和其他研究人员最近检查了一个基准自然语言数据集,称为 Colossal Clean Crawled Corpus,简称 C4。为了了解过滤器如何影响数据集,他们评估了 从这些数据集中删除的文本。“我们发现,这些过滤器从 LGBTQ 人群和种族和少数民族中删除文本的比例远高于白人、异性恋者、顺性别者或异性恋者。这意味着这些大型语言模型并未针对这些身份进行训练。”

聊天机器人不真实或不准确的实例有据可查。《连线》杂志的主编吉迪恩·利奇菲尔德 (Gideon Lichfield) 要求 ChatGPT 推荐派遣记者报道预测性警务对当地社区影响的地点。它生成了一个包含 10 个城市的列表,指出了他们何时开始使用预测性警务,并简要解释了为什么它在这些地方引起争议。Gideon 随后向其询问其来源,并发现 ChatGPT 共享的许多链接——指向 《芝加哥论坛报》或 《迈阿密先驱报》等媒体的新闻报道的链接——完全是捏造的。一位乔治城法学教授 最近指出ChatGPT 得出了关于奴隶制历史的“童话般的结论”,并错误地声称美国的一位开国元勋曾呼吁立即废除奴隶制,而事实上真相要复杂得多。

即使是不太重要或看似简单的提示,他们有时也会弄错。巴德似乎数学不太好;它告诉我 1 + 2 = 3 是一个不正确的陈述。(引用道格拉斯亚当斯的话:“只有通过计数,人类才能证明他们对计算机的独立性。”)当我向所有聊天机器人询问乘火车从纽约到巴黎的最佳方式时,巴德告诉我美国铁路公司会这样做。(ChatGPT 和 Bing Chat 很有帮助地指出,这两个城市之间有一片海洋。)巴德甚至在告诉著名人工智能研究人员凯特克劳福德(Kate Crawford)其训练数据包括 Gmail 数据时引起了骚动。这是错误的,公司实体谷歌,而不是巴德本身,必须更正记录。

谷歌、微软和 OpenAI 都警告说,这些模型会产生“幻觉”——产生偏离预期或真实情况的反应。有时这些被称为错觉。分布式人工智能研究所的 Alex Hanna 告诉我,她不喜欢使用“幻觉”这个词,因为它赋予了这些聊天工具太多人为因素。麻省理工学院的 Andrei Barbu 认为这个词很好——我们倾向于将很多东西拟人化,他指出——但仍然更倾向于“真实”。比如,这些聊天机器人——所有的——都有一个真实性问题。这意味着我们也这样做。

Hanna 还表示,她最关心的不是一种特定的输出,甚至不是一个聊天机器人与另一个聊天机器人的对比。“如果有什么让我有点担心的话,那就是了解特定机构的结构,并想知道不同团队和不同产品之间存在什么样的制衡,”汉娜说。(汉娜曾经在谷歌工作,她在那里研究人工智能伦理。)

就在本周,超过一千名科技领袖和人工智能专家签署了一封公开信,呼吁“暂停”这些人工智能产品的开发。OpenAI 的一位发言人告诉 WIRED 的 Will Knight,它已经花了几个月的时间来研究其最新技术的安全性和一致性,并且它目前没有训练 GPT-5。尽管如此,现有技术的发展速度如此之快,以至于它的速度超过了大多数人所能接受的速度,即使在新的发展上有任何形式的停顿。

Barbu 认为人们“花费了太多太多的精力来思考模型本身的负面影响。让我感到悲观的部分与模型无关。” 他更担心的是发达国家财富的囤积,世界上最富有的 1% 的财富如何超过最底层 90% 的人所持有的财富。他说,任何出现的新技术,比如生成人工智能,都可以加速这一进程。

“我并不反对机器执行人类任务,”Barbu 说。“我反对机器伪装成人类并说谎。与此相关,我认为人类有权利,但机器没有。机器就是机器,我们可以立法规定他们做什么、说什么以及允许他们对我们的数据做什么。”

我可以再浪费一千个字来告诉你我最喜欢哪个聊天机器人用户界面,我怎么不能用它们来查找实时天气预报或位置信息,我怎么认为这还不能取代搜索引擎,一个他们中的一些人能够生成猫的图像,但其他人不能。我可以告诉您不要为 ChatGPT Plus 付费,但这没关系。你已经在付钱了。

这篇评论的目的是提醒你,你是人,这是一台机器,当你轻敲机器的按钮时,它会很好地说服你这是不可避免的,原型已经从车库里出来了,这种抵抗是徒劳的。这可能是机器最大的谎言。

文章出自:https://www.wired.com/story/review-ai-chatbots-bing-bard-chat-gpt/

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)