讯飞星火,AI燎原or熄灭?

1,415次阅读
没有评论

本篇文章作者将从文本、问答、翻译、逻辑、代码编写和计算能力等几个方面,对比讯飞星火和ChatGPT两个应用的差别 ,希望这篇文章能对你有所帮助。

讯飞星火,AI燎原or熄灭?

讯飞星火6月9日迭代在即,一起来看看它是否能成为真的中文ChatGPT?本文将从多种指令角度,全面对比并评测下讯飞星火认知模型与ChatGPT的差异。

讯飞星火:继百度文心一言与众多国内AI平台发布后,讯飞星火发布的一款认知大模型,主要能力包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。

笔者有幸成为讯飞星火体验的受邀人员,以普通工作者的身份,接下来分别从“文本生成、问答能力、语言翻译、逻辑推理、代码编写、数学计算能力”这几个方面进行评测对比。

(注:ChatGPT测试模型为3.5版本)

一、文本生成

讯飞星火在中文语言理解能力一定程度上是优于ChatGPT的。

可以看到下方对“七言绝句”的处理结果明显好于对方;但是对于日常工作的文本生成,ChatGPT文本更为自然。

对于文学小说故事的生成,讯飞理解更为透彻,而ChatGPT更像是生硬的文字联想堆积而成。整体上,中文的理解能力星火略胜一筹,但普通文本生成的自然度,ChatGPT大部分情况下更为优秀。

关于生成诗词与邮件的对比:

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

二、问答能力

  • 工作上常规问题回答,讯飞星火更为通用化些,ChatGPT更为细致化,从匹配度上说,ChatGPT的参考价值会高些。
  • 都能理解普通的上下文记录。ChatGPT的记忆能力略强。
  • 中文常识问题,特别涉及到历史文化文学,星火对信息的检索与分析明显优于ChatGPT。

工作问题1:

讯飞星火,AI燎原or熄灭?

以下是讯飞星火:

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

工作问题2:

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

表格与数据检索的处理看起来星火更为厉害,获取了数据,但是数据并不真实,二次让它回答直接变成负增长。虽然ChatGPT无法获取准确数据,但至少不会提供假数据给用户,这点星火急需改进。

讯飞星火,AI燎原or熄灭?

常识问题:

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

三、语言翻译

两者都具有直译能力,但是涉及到中文的理解力,星火翻译的更有感染力一些.

例如下图示例中,ChatGPT使用的是“sprouting up”-发芽;而星火使用的是“emerging in droves”-“涌现”,明显字意表达更为贴切。

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

四、逻辑推理

  1. 逻辑陷阱。例如询问“爸妈结婚为啥不叫我”类似问题时,国内大部分语言模型都无法正确处理,ChatGPT的答案更为全面,星火直接选择不答。
  2. 基础的逻辑能力两者都具备。对于复杂的逻辑题目,两者回答的出错率都很高
  3. 逻辑分析的广度、深度总体ChatGPT优于星火。但ChatGPT这类语言模型只要脱离了常见的“常见区域”基本都会犯错,只是在错误中,ChatGPT的错误概率或者出错的离谱度小于星火。

逻辑问题1:

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

正确答案:

讯飞星火,AI燎原or熄灭?

逻辑问题2:

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

可以看到此时ChatGPT就已经出现错误了,但仍然有一定的正确率。

再看星火,从第二个问题开始,“cpu”就已经被干烧了。

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

五、代码编写

两者都具备一定的代码编写能力,包括代码编写、代码注释、代码debug能力。

由于笔者不是专业开发人员,不能实际验证是否能真实编译但是从外部资料和输出结果看,讯飞星火对比刚发布时代码编写能力有一定提升,找错的准确度也更好于之前。

咨询过很多开发同学,ChatGPT整体实力上还是比星火优秀。

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

以上是星火纠错的一个实例。

六、数学计算能力

对于数学计算,所有的语言模型都存在短板,高难度的数学问题是十分严谨的,只要其中一个步骤出错答案就会出错。

计算机语言并不能人性化去理解一些含义,比如说可能会把“10”理解为“1”和“0”。而且大部分数学问题伴随着很多推理逻辑,计算机再处理这些“定量推理”问题是十分的棘手的。

可以看下星火的数学计算实例:

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

讯飞星火,AI燎原or熄灭?

可以看到,星火连题意都没理解清楚,但ChatGPT至少举例了一种情况。

七、总结

在全面体验讯飞星火后,同时将其与其他产品在工作中使用的情况进行对比,我发现在问题处理和多次prompt的情况下,ChatGPT提供的答案在参考价值和回答广度方面仍然更优。

但作为国内的AI模型,自从百度文心一言以来,讯飞星火目前是我使用过的最好、最流畅的产品。可以说它完全配得上“星星之火”的称号。

然而,与OpenAI技术相比,仍存在一定差距。同时,作为生产力工具,它的实用性稍弱一些。但在中文语言理解和特定常识问题方面,它具有一定的优势。

客观地说,讯飞已经取得了很大的进步,希望国内的互联网科技公司能够加紧追赶,不要让“西方成为潮流”,让“华流才是最吊的”。

本文由 @旺仔产品笔记 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 6 月
 1234
567891011
12131415161718
19202122232425
2627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别 量子位的朋友们 2025-1...