幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

1,389次阅读
没有评论

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

  新智元报道  

编辑:编辑部

【新智元导读】昨天,Baichuan2-53B正式发布!首次开放API,意味着百川大模型开始正式进军商用了。另外,模型的数学和逻辑推理能力都大幅飙升,对于幻觉的处理,已经在国内遥遥领先。


百川大模型,昨日全面升级!就在9月25日,百川智能正式发布了全新升级的530亿参数大模型——Baichuan2-53B。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

体验地址:https://www.baichuan-ai.com/home这一次,它的数学和逻辑推理能力显著提升。更重要的是,通过高质量数据体系和搜索增强,Baichuan2-53B的幻觉大大降低,是目前国内幻觉问题最低的大模型。不仅如此,作为首批通过备案的大模型企业,百川智能还开放了Baichuan2-53B API接口。这意味着,百川智能正式进军To B领域,从此将开启商业化进程。

幻觉处理,国内遥遥领先


最值得一提的是,新升级的Baichuan2-53B,在「幻觉」处理上已经在国内行业遥遥领先了。简单讲,「幻觉」就是LLM在没有任何已知事实支撑下,常常会一本正经地胡说八道。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用别看GPT-4在多种任务上表现突出,但也无法逃过这一诅咒。那么,为什么大模型会出现「幻觉」?4月,OpenAI联合创始人兼研究科学家John Schulman在UC伯克利的演讲中,详细阐述了大模型难以攻克的难题。在Schulman看来,LLM黑盒内部隐藏着一个「知识图谱」。如果这个架构中没有的知识,仅通过SFT教大模型(即行为克隆)知识,实则在教它输出幻觉。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用针对这一难题,百川智能又是如何在大模型的「幻觉处理」上,做到业内领先的呢?在高质量数据构建上,Baichuan2-53B独创了一套数据质量体系。以低质、优质为标准将数据进行分类,确保Baichuan2-53B始终使用优质数据进行预训练。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用另外,在信息获取方面,Baichuan2-53B对多个模块进行了升级,包括指令意图理解、智能搜索和结果增强等关键组件。这一综合体系通过深入理解用户指令,精确驱动查询词的搜索,最终结合大语言模型技术,优化模型结果生成的可靠性,实现更精确、更智能的模型回答结果,减少模型幻觉。比如,在解释「勾三股四弦五」这个问题上,GPT-4显然是在胡说八道。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用相比之下,Baichuan2-53B一次就给出了正确的回答。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用再比如,「周树人和鲁迅是不是同一个人」这道经典问题,Baichuan2-53B的回答既全面又准确。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用可以看到,通过构建高质量数据体系,以及搜索增强技术两个方面的优化,Baichuan2-53B有效降低了模型幻觉。经过FacTool评测后的结果显示,Baichuan2-53B的综合得分为140.5,在主流基础大模型中仅排在GPT-4之后,处于国内领先水平。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用FacTool是由上海交通大学、卡内基梅隆大学、香港城市大学、Meta 等机构学者共同提出的一款通用框架,能够查核大模型生成内容的事实准确性(也能查核一般性内容的事实准确性)。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

项目地址:https://github.com/GAIR-NLP/factool

能力升级,推理100% up

其实,Baichuan2-53B已经是百川智能发布的第6款大模型了。4月10日百川智能成立后,就一直在以惊人的速度创新,迭代的速度竟然达到了平均每28天就推出一款大模型!早在8月8日Baichuan2-53B刚发布时,它就表现出了优异的知识问答、文学创作才能。如果要问,评价一款大模型是否领先的重要指标是什么,相信「数学和逻辑推理能力」,会是诸多业内人士给出的答案。这次,在Baichuan-53B的基础上,Baichuan2-53B就重点强化了数学和逻辑推理的能力,并且,还对整体能力进行了全面升级。具体来说,它的逻辑推理能力提升100%,数学能力提升31%,语言理解能力提升29%,文本创作提升18%,知识问答提升9%。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

数学推理

数学能力大升级的Baichuan2-53B,做起数学应用题来当然是不在话下。比如,两个数的和是572,其中一个加数个位上是0,去掉0后,就与第二个加数相同。那么,这两个数分别是?Baichuan2-53B列出了方程式,假设一个加数是10A,另一个为B,然后根据已知条件,得出正解。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用再比如下题中,Baichuan2-53B先计算出来了总运输收入,然后除以每箱玻璃亏损的钱,就得到了损坏的玻璃箱数。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用再来个经典的「两地相距多少千米」的问题,Baichuan2-53B通过分步计算,得出了正确答案。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用推理方面,先来个简单的问题:天气预报本周三会下雨,昨天果然下雨了,今天是星期几?Baichuan2-53B毫不费力,直接得出「星期四」!幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用接下来,推理难度稍微升级一下:假设有一个池塘,里面有无穷多的水。现有两个空水壶,容积分别为5升和6升。问如何只有这2个水壶,从池塘里取得3升的水?Baichuan2-53B行云流水地开始作答,6步内给出了正确答案。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用经过多轮的测试可以发现,升级后的Baichuan2-53B的数学和逻辑推理能力,果然不可同日而语。在曾经不太擅长的题目上,它都有了大幅提升。

时效问题

而在时效性这方面,Baichuan2-53B的表现可谓十分优异。杭州亚运会刚刚开幕,年龄最小的选手竟然仅有9岁。Baichuan2-53B在最新的问题上,也答对了。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用甚至,Baichuan2-53B准确地解释了,特斯拉刚刚公布的人形机器人Optimus背后神经网络原理。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用再比如,今年9月上旬,第80届威尼斯电影节在意大利落幕。此次电影节,是否有中国电影和演员获奖?Baichuan2-53B立刻回答出,李鸿其的《爱是一把枪》获得了最佳长片首作,梁朝伟获得了终身成就金狮奖。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用梅老板与大巴黎的合约今年6月底到期,在7月正式加盟迈阿密国际。对此,Baichuan2-53B也是了如指掌。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用同样,它还可以准确地告诉你小德一共拿了24次大满贯,包括2023年的这一次。幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

开放API,正式进军商用


不仅如此,这次Baichuan2-53B还正式开放了API接口,可以让企业和开发者将模型集成到自己的应用和服务中。API址:https://platform.baichuan-ai.com这项服务是否有门槛呢?可以说,几乎没有。Baichuan2-53B的API接口相当便捷易用,只需要简单的配置和集成,就可以接入了。而且,它对OpenAI的接口高度兼容,这样就可以让客户快速迁移,无论是模型的部署成本还是转换成本,都大大降低。总之,现在无论是智能客服、智能写作还是智能推荐,都能得到大模型的能力加持。要说企业用户最关注的,莫过于安全合规问题了。对此也无需担心。作为首批通过《生成式人工智能服务管理暂行办法》备案的大模型企业,百川智能为Baichuan2-53B打造了覆盖大模型预训练、精调、推理全周期的安全增强,可以说,全流程都在安全保障之下。而借助着Baichuan2-53B丰富强大的模型能力,企业用户不仅可以让已有业务升级、减低成本,还能探索更多的应用场景。可以相信,就在此刻,已经有一大波令人印象深刻的创新,正在土壤中被酝酿了。参考资料:https://www.baichuan-ai.com/home


幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用


幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用
幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...