世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了

1,064次阅读
没有评论

世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了

3 月 4 日,被称为 OpenAI 最强竞争对手的大模型公司 Anthropic 宣布推出 Claude3 系列模型,与 Gemini 类似,模型按照大小分为三个:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。Opus 目前在官方发布的测试成绩中全方位超越 GPT-4 与 Gemini Ultra。

注:Claude 3 系列的命名采用了文艺作品体裁名,日本俳句 Haiku、英文十四行诗 Sonnet 和古典乐作品集 Opus。

值得注意的是,这次发布的 Claude 3 系列都支持了图像识别能力,以及 200K 的上下文窗口,特定场景还能提供 1M tokens 的长文本输入能力。

Opus 和 Sonnet 现在已经可以在 Claude.ai 官网和现在 159 个国家的 Claude API 中使用。Haiku 很快也将上线。

文章来源于 Anthropic 官方博客,Founder Park 有所删减。

世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了

2014 年就成立的 AI 科技公司——商汤科技,在大模型之外,带来了他们对于大模型生产力工具产品的新思考。「小浣熊家族」是基于商汤大语言模型打造的系列智能助手,目前已经推出代码小浣熊、办公小浣熊两款分别面向软件开发、日常办公场景的 AI Native 生产力系列工具。

本期 Workshop,我们特别邀请了商汤科技 Copilot 产品负责人、资深产品专家贾安亚,她将分享基于商汤大语言模型打造的「小浣熊家族」智能助手系列的背后,商汤对于 AI 工具产品的思考和实践。

点击【阅读原文】或者扫描二维码即可报名。

01

目前最强大模型,视觉能力追平 Gemini Ultra

Cluade Opus,在大多数 LLM 评估基准上胜过同行,包括 MMLU、GPQA、GSM8K 等。所有 Claude 3 模型在数据分析和预测、内容创作、代码生成以及用西班牙语、日语和法语等非英语语言交流方面显示出更强的能力。

世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了

更快的反应速度

Claude Haiku 是目前市场上同类 LLM 中性价比最高且响应最快的。它能在短短不到三秒钟内,阅读并理解 arXiv 上一篇包含图表和图形的信息量和数据密集型研究论文(大约 10k Token)。在产品发布之后 Anthropic 将进一步提升它的性能表现。

就绝大部分工作而言,Sonnet 的速度是 Claude 2 和 Claude 2.1 的两倍,且能力更高。在需要迅速回应的任务,如快速信息检索或销售自动化方面,它的表现尤其出色。Opus 的速度与 Claude 2 和 2.1 相当,但其智能程度要高得多。

世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了

强大的视觉能力

Claude 3 模型具有与其他领先模型相媲美的复杂视觉能力。它们可以处理各种视觉格式,包括照片、图表、图形和技术图纸。我们特别兴奋地为我们的企业客户提供这种多模态能力,特别是对那些知识库中高达 50% 的内容以 PDF、流程图或演示文稿幻灯片等不同格式存在的客户而言,这将非常有价值。

世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了

减少对用户的拒绝

以往的 Claude 模型通常会不必要地进行拒绝,这表明了它对上下文的理解不足。

与前几代模型相比,Opus、Sonnet 和 Haiku 大幅降低了对可能触及系统安全限制区域的问题进行拒绝回应的可能性。正如下面展示的那样,Claude 3 模型对于请求表现出了更精细的理解能力,能够识别真正的风险,并且明显减少了对无害提示的拒绝。

世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了

02

更少幻觉、更长的长文本

准确性更高

为了评估这一点,Anthropic 采用了一大组复杂且基于事实的问题,这些问题是为了测试当前模型所存在的一些已知弱点。根据模型的回复将其分类为正确答案、错误答案(或称为「幻觉」)以及承认不确定性的情况,即模型宣称不知道答案,而不是提供错误的信息。与 Claude 2.1 相比,Claude Opus 在这些困难的开放式问题上展示了两倍的准确性提升,并且减少了错误回答的比例。

除了提供更可靠的答案外,Anthropic 宣布还将在 Claude 3 模型中启用引用(citations)功能,使其能够指向参考材料中的确切句子来核实它们的回答。

世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了

更长的长文本和近乎完美的召回

在最初发布时,Claude 3 系列模型将提供 200K token 大小的上下文窗口。不过,这三个模型都能够处理超过 100 万 Token 的输入,这一能力提供给那些需要更强大处理能力的特定用户。

为了有效处理长文本的上下文提示,模型需要拥有出色的记忆回溯能力。大海捞针(NIAH)测试是用来测量模型从海量数据中准确提取信息的能力。对每个提示采用 30 对随机挑选的问题/针对进行一次,并在一个包含多样化文档的众包语料库上进行测试,来提高这一评估标准的稳健性。

Claude 3 的 Opus 不但实现了几乎完美的信息回忆能力,准确率超过了 99%,还能在一些情况下识别评估本身的局限性,比如它能辨认出某个句子看起来像是人为添加进原始文本中的。

世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了

更安全、更好用

为了确保 Claude 3 的安全性,针对虚假信息,儿童性虐待材料(CSAM)、生物误用、选举干预,以及自主复制技术等。Anthropic 持续开发各种方法,比如宪法人工智能(Constitutional AI),来提升模型的安全性和透明度,用来对抗可能由新模式引起的隐私问题。

Anthropic 宣称,虽然在生物学知识、网络安全知识和自主性方面的关键指标上 Claude 3 系列模型比以前的模型有了进步,但根据他们的负责任规模扩展*政策,它仍然处于人工智能安全等级 2(ASL-2)。这些模型目前几乎没有带来灾难性风险的可能。

* https://www.anthropic.com/news/anthropics-responsible-scaling-policy

此外,Claude 3 模型在遵循复杂的、多步骤的指令方面表现更出色。它们特别擅长遵守品牌风格。此外,Claude 3 模型在生成常见的结构化输出(如 JSON 格式)方面表现更佳,这使得使用 Claude 进行自然语言分类和情感分析等用例时更加简单。

03

Claude 3 性能及价格介绍

Claude 3 Opus

能力最强,在高度复杂的任务上表现出了市场上最好的性能。它能够轻松应对各种开放式提示和未知场景,并以出色的流畅度和人类般的理解能力完成任务。Opus 展示了生成式 AI 所能达到的极限。

Claude 3 Sonnet

在能力和速度之间取得了理想的平衡—尤其适用于企业级工作负载。与其他同类产品相比,它在提供强大性能的同时成本更低,并且经过优化,能够在大规模 AI 部署中长时间稳定运行。

Claude 3 Haiku

目前最快速、最轻便的模型,能够提供几乎即时的响应能力。它可以极快地解答简单的问题和响应请求。用户将能创建流畅的 AI 体验,仿佛是与真人互动一般。

世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了

Opus 和 Sonnet 现已在 Anthropic 的 API 中开放使用,现阶段已对外开放,开发者可以注册并立即开始使用这些模型。Haiku 将很快推出。

在 Claude.ai 网站上,Sonnet 正在提供免费体验,同时 Opus 已面向 Claude Pro 订阅用户开放。

Sonnet 也已在 Amazon Bedrock 上线,同时在 Google Cloud 的 Vertex AI Model Garden 中开始私密预览(private preview)——不久的将来,Opus 和 Haiku 也将在这两个平台上推出。

如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。
世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了
更多阅读

月之暗面杨植麟专访:AI不是接下来一两年找到PMF,而是接下来十到二十年如何改变世界

具身智能要来了!OpenAI、英伟达投资,机器人公司Figure AI估值26亿成新独角兽

DeepMind CEO Demis Hassabis 专访:2030年有望达到AGI、AI会带来革命性的全民普惠

2023年,被用户放弃了的 Top AI 产品有哪些?

创业者聊 Sora:可复刻吗、如何产品化、创业公司的机会在哪里?

转载原创文章请添加微信:geekparker

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy