谷歌AI攻克亚洲语言难题,2300种语言数字化计划正在推进
亚洲拥有全球三分之一的语言,却在数字世界里”失声”了
亚洲拥有全球三分之一的语言,却在数字世界里”失声”了!
最新数据显示,亚洲大陆上存在着超过2300种本土语言,占全球现存语言的32%。然而这些语言在数字化呈现方面却存在着巨大的鸿沟。谷歌正在通过一系列AI项目改变这一现状,从印度的773个地区到东南亚的1200种语言,再到日本喜剧的全球化传播,一场覆盖整个亚洲的语言数字化变革正在展开。
21500小时语音数据:Project Vaani深入印度腹地
三年前,谷歌与印度科学研究所联手启动了Project Vaani项目。这个项目的野心相当大:要覆盖印度全部773个地区的语言变体。
目前的成果已经相当惊人。项目已经收集了近21500小时的语音音频和835小时的转录语音数据,涵盖86种独特语言。这些数据来自印度22个邦120个地区的112000多名发言者。更重要的是,这些数据已经通过印度国家语言任务Bhashini和开源平台HuggingFace向公众免费开放。
为什么要覆盖所有773个地区?项目负责人在问答环节解释道:”人们通常认为一个邦内的语言是统一的,但事实并非如此。以比哈尔邦为例,那里就有超过100种不同的语言及变体。”印度人口流动频繁,当一个人从一个邦迁移到另一个邦,他们说母语的方式会产生变体和细微差异。要让技术真正服务于全国所有人,捕捉这些自然存在的变体就成了必要条件。
目前项目正在发布第一阶段和第二阶段的数据,已经覆盖了160个区县。谷歌正在与Megdap、Karya等合作伙伴携手,继续推进这项庞大的工程。
Aquarium平台:为东南亚1200种语言建立数据库
东南亚的语言环境复杂程度不亚于印度。这个拥有11个国家、6.5亿人口的地区,四大不同语系涵盖了约1200种语言。仅印度尼西亚一国就有超过700种语言。
谷歌与AI Singapore合作推出的Project SEALD,专门应对这种复杂性。项目的核心是Aquarium平台——一个面向东南亚语言数据集的综合性资源库。
Aquarium的目标很明确:构建一个全面的东南亚数据集目录,让社区中的任何人都能获取和贡献数据,助力开发出能真正反映地区生态的AI模型。最终目标是打造出更出色的工具和解决方案,以当地语言满足东南亚的特定应用场景需求。
面对低资源或濒危语言的挑战,SEALD团队采取了独特的策略。项目负责人William介绍:”我们始终与当地机构合作,通过他们找到这些鲜为人知的方言。”这些资料通常是非数字化的,需要转化为可用数字格式并请当地人员进行校验。在某些特定情况下,如果某种语言确实濒临灭绝且完全没有相关资源,团队会向该语言的母语使用者分享图像提示或文本提示,收集他们的音频数据并进行转录,然后将这些数据作为语料库的一部分。
90%准确率:吉本兴业用AI让日本喜剧走向世界
语言AI的应用不仅限于保护濒危语言。日本最大的娱乐经纪公司吉本兴业正在用谷歌的AI技术解决一个特殊问题:如何让全世界理解日本喜剧。
吉本兴业成立于1912年,管理着6000多名艺人,每年制作5000多部作品。但日本喜剧的全球扩张面临两大挑战:许多笑点依赖于高语境化的表达,涉及大量文化细节与典故,对外来观众难以理解;语言障碍依然显著,日本英语普及率较低,阻碍了与全球观众建立联系。
2014年开始,吉本兴业与谷歌合作开发了CHAD 2系统——一个由Gemini 2.0 Flash驱动的AI翻译系统。这个系统专为喜剧设计,能将日语视频翻译成英语、中文和韩语。只需上传电影文件,系统便会自动生成字幕文件。
最令人印象深刻的是准确率。CHAD 2的转录和翻译准确率约为90%,大幅领先于其他模型60%-75%的准确率。更重要的是,翻译时间从数月缩短至几分钟。
系统还包含了一个专门为”Owarai(日本喜剧)”量身定制的自定义词典,目前包含超过200个条目。如果要将系统调整为其他内容类型,比如动漫、电视剧或体育,只需额外添加针对特定类型的词典,核心提示无需进行任何特殊调整。
吉本兴业的代表表示:”我们的终极愿望是创建一个无论何时何地,任何人都能实时理解日本喜剧的世界。”目前CHAD 2还在内部使用阶段,但公司正在加速推进外部商业化销售,并持续提升翻译质量与新增语言支持。
这些项目展示了AI技术在语言保护和文化传播方面的巨大潜力。从印度腹地的方言到东南亚的濒危语言,再到日本喜剧的文化细节,谷歌正在用技术弥合亚洲语言的数字鸿沟。随着更多数据的收集和技术的进步,亚洲2300种语言在数字世界获得应有地位的那一天,或许并不遥远。
