首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化丨开源

568次阅读
没有评论

首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化丨开源

阿里国际&上海AI Lab&北语

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

AI替咱打工搞翻译,到底谁家最好用?

终于,有人来统一翻译江湖的标准了:首个应用型AI翻译测评榜单TransBench在OpenCompass上线

它由阿里国际AI Business团队联合上海人工智能实验室、北京语言大学共同发布。

首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化丨开源

与传统的翻译测评体系相比,TransBench增加了幻觉率、文化禁忌词、敬语规范等指标,专门针对大模型翻译最容易出错的关键问题进行实战考核。

比如:

  • 翻得挺溜但张口就编,这就得算“幻觉”;
  • 翻得准确却冒犯了当地文化,那也是“翻译事故”;
  • 甚至你在客服场景里少说一句“please”,都可能让用户不爽。

这是首次针对行业的细分领域构建评测数据和评测方法。这些指标均来自真实场景的使用反馈,由此来测评大模型是否符合大规模应用的标准。

目前,TransBench评测方法与数据集已全面开源,也已发布了首期测评结果。

欢迎各个AI翻译机构去打榜,一较高下~

GPT-4o稳坐“翻译AI天花板”

官网表示,TransBench数据集中涵盖中、英、法、日、韩、西班牙等多种语言。

此外,还在不断持续更新海量小语种。

TransBench评测体系中的数据集,根据“通用标准”“电商文化”“文化特性”三个大类,整理了不同的数据集。

首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化丨开源

目前,TransBench多语言翻译评测榜单首期已经出炉。

评测榜单从“综合得分”“通用标准”“电商文化”“文化特性”四个维度来给每个模型的翻译能力打分。

其中,综合得分是模型在评测数据集的三大维度的综合平均得分。为了保证数值可被平均,榜单对不同得分进行了数值缩放。

我们查看并整理了“英语翻译为其它语言”和“中文翻译为其它语言”两个榜单的模型能力。

英语翻译为其它语言

这个条件下,综合得分通用标准的得分前三,都分别是:

  • 第一:GPT-4o
  • 第二:DeepL Translate
  • 第三:GPT-4-Turbo

其中比较特别的是DeepL Translate,上个月底刚刚发布。

和前三名的另外两位不同,这是一个专门的机器翻译(MT,Machine Translation)模型,而不是通用大语言模型。

首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化丨开源

电商行业,DeepSeek-R1的翻译能力杀入榜单前三:

首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化丨开源

而在文化特性方面,Qwen系列一马当先。

Qwen2.5-0.5B-Instruct和Qwen2.5-1.5B-Instruct分别位居第一第二,同时第三名花落EuroLLM-1.7B-Instruct。

大家可能对EuroLLM-1.7B-Instruct相对陌生,它是由多个欧洲研究机构联合开发的开源多语言大模型,涵盖35种语言,旨在支持所有欧盟官方语言以及其他主要语言。

首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化丨开源

中文翻译为其它语言

同样,在中文翻译为其它语言这条赛道上,综合得分通用标准的排名相同:

  • 第一:GPT-4o
  • 第二:DeepSeek-V3
  • 第三:Claude-3.5-Sonnet
首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化丨开源

电商行业,拿下第一的是均值得分4.420的DeepSeek-V3。

紧随其后的才是Gemini-2.5-Pro和Claude-3.5-Sonnet。

首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化丨开源

最后一项文化特性,Qwen系列的表现同样出色。

榜单前三分别是Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct。

首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化丨开源

三大维度打造翻译大模型实战考卷

随着AI大模型加速落地,翻译模型也进入“比谁更好用”的时代

相应的,业内也对大模型翻译效果有了更高的要求,比如要符合不同地区的文化特性、能体现不同行业的语言特色等。

但问题来了——怎么判断一个AI翻译模型到底好不好用?

传统的翻译测评维度,主要关注通用质量(如BLEU、COMET),难以反映真实使用场景中对语义准确性、文化合规性、用户体验的高要求。

并且,大模型时代的AI翻译往往面临幻觉等更多问题。

也就是说,传统的翻译测评维度在今天已经不适用了

为此,阿里国际AI Business团队联合上海人工智能实验室、北京语言大学一起,构建了更全面、最新的评测标准和规范TransBench。

它从三大维度,重新定义翻译测评:

第一,全面的通用标准

不仅包括通用质量,还新增幻觉率和鲁棒性评测。

第二,行业垂直标准

这是首次针对行业的细分领域构建评测数据和评测方法,数据均来自行业细分领域真实数据,并利用语言专家在应用中的标注数据训练面向行业的打分模型。

第三,跨文化特性标准

首次提出文化禁忌和敬语规范的评测数据和评测方法。

举个例子!

电商场景下的用户投诉,通常与敬语、禁忌语等相关。

这些翻译结果从字面意思看无误,但会直接影响到对话人的体验,应该被纳入到测评的范围中。

从阿里国际自研翻译大模型真实用户反馈中总结提炼

其实,早在去年10月,阿里国际的AI Business团队就发布了首个大规模商用的翻译大模型Marco MT,其效果赶超Google、DeepL等头部AI翻译工具。

截至目前,Marco MT的日均调用量为6亿次,是电商领域使用量最大的翻译大模型。

TransBench的测评体系,正是基于Marco MT在全球真实用户反馈中总结提炼而来

因此,构建TransBench这件事中有阿里国际的身影就很好理解了。

当然,除了有业界认可的领先技术外,业务需求也是其中原因之一。

阿里国际旗下有Aliexpress、Lazada、Alibaba.com、Trendyol及Daraz等电商业务,覆盖全球200多个国家和地区,多语言翻译是助力业务发展的重要一环。

根据公开信息,2023年3月,阿里国际成立了AI Business,基于全球化电商场景探索AI技术。

现在,阿里国际的所有电商平台均已广泛应用AI能力,已服务了超50万卖家,形成了以服务中小企业出海为核心,覆盖全球多元市场、多种电商模式的规模级AI应用。

目前,TransBench的测评方法进行了开源,评测结果也将持续更新。

BTW:

最近启动的2026届校招中,阿里国际放出的岗位,80%是AI岗位,包括AI算法、研发、AI产品经理等。

有兴趣的同学欢迎投递~

测评网址:

https://transbench.com/#/?lang=zh-cn

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...