01
研究动机
机器翻译质量评估(Quality Estimation, QE)任务是指在没有参考译文的情况下,仅依靠源语句(Source)评估机器翻译句子(MT)的质量。表1展示了QE词级别和句子级别任务,对于词级别任务,每个词语被标记为了OK或BAD,表示是否需要进行修正;对于句子级别任务,评分HTER衡量了需要人工修改机器翻译输出的比例。通过使用TER工具将机器翻译输出与其后编辑结果进行匹配,可以得到这些标签。
表1:QE数据样例
然而,QE数据的收集成本较高,制约了QE模型的性能。因此,许多研究着重于利用平行语料对生成伪数据,从而缓解QE数据稀缺的问题。图1展示了BSQE方法,该方法使用了基于束搜索策略的翻译模型生成伪翻译,然后通过TER工具将生成的伪翻译和相应的参考译文匹配获取伪标签。图2展示了DirectQE方法,该方法使用一个翻译语言模型随机替换标准译文中的词语,并将替换掉的词语标注为BAD。
图1:BSQE方法示意
图2:DirectQE方法示意
但是,由于生成噪声的存在,当前伪数据的生成方法仍然存在着诸多问题。BSQE方法会因为同义词而生成假负例,例如,图1中“How”被误认为与参考译文中的“What is the way”不匹配,而错误地被标注为了BAD。DirectQE方法生成的伪翻译有时与真实的翻译存在差异,因为尽管负采样可以生成准确的标签,但相应的伪翻译质量较差。
因此,关键问题在于如何协调好伪标签和伪翻译的质量,如图3所示,星标处是我们改进伪数据的目标。
图3:伪数据生成方法对比
02
贡献
1. 我们提出了一种基于机器翻译模型采用约束束搜索算法(CBSQE,constrained beam search for QE)生成伪QE数据的方法,CBSQE可以协调伪标签与伪翻译质量。
2.经过评估,我们提出的CBSQE方法在有监督和无监督设置下都比基线方法更优越。
3.分析实验表明,CBSQE方法中设计的阈值策略和调整函数都具有着重要的作用,并且,CBSQE方法高效且已经开源了代码。
03
方法
CBSQE方法使用基于受控束搜索策略的机器翻译模型生成伪数据。为了减少生成内容的词汇多样性,CBSQE保留了翻译模型更倾向于生成的参考译文部分。为了减少生成内容的结构多样性,CBSQE保留了参考译文的主要结构。因此,我们可以利用TER工具获得准确的标签。如图4下半部分所示,CBSQE保留了译文中的“What is the way to”,同时也保留了翻译错误“strike”。
图4:BS和CBS生成方案的对比
为了实现上述目标,我们需要回答三个问题。首先,如何保留参考译文中的词语?我们可以通过调整生成概率来保留参考译文中的词语。其次,什么时候保留参考译文中的词语?我们希望在生成具有高概率且连贯的句子的同时,该句子也能反映真实的翻译错误。因此,我们提出了阈值策略,当存在译文中词语的生成概率高于阈值时,才会保留译文部分。第三,应该保留哪些译文中的词语?为了保留参考译文的主要结构,我们设计了一个调整函数,对于更近的参考译文词语分配更高的提升权重。如图5中左侧所示,词语“b”和“d”分别对应于上一步解码到的译文位置和当前正在解码的词语,我们按图5右侧所示分别计算到这两个锚点的距离,调整函数的定义如下:
图5:概率调整示意图
图6描述了整个CBSQE算法,算法11和12行中使用softmax函数对调整的概率进行归一化,并将其与原始概率结合在一起。增量调整也许会相对降低未来的解码概率,因此,我们采用束搜索策略来找到符合约束的最佳候选。
图6:CBSQE完整算法
04
实验
4.1 实验设置
数据集:WMT19(翻译模型黑盒)英语–德语(EN-DE)和WMT20/21(翻译模型白盒)英语–汉语(EN-ZH)数据集。对于每个语言方向,我们随机从WMT QE比赛提供的平行语料中采样了约50万对平行语料对用于实验。
评价指标:句子级任务采用Pearson相关系数(WMT比赛的首要评价指标)。词级别任务采用F1-MULT(WMT19首要评价指标)和Matthews相关系数(MCC,WMT20/21首要评价指标)。F1-MULT为OK与BAD标记F1分数的乘积。所有指标越大表示模型性能越强。
4.2 主实验结果
表2展示了在WMT 19 EN-DE和WMT 20/21 EN-ZH上有监督及无监督的实验结果。无论是在有监督设置还是无监督设置下,CBSQE在性能上都要优于其他方案。
在所有无监督设置实验中,CBSQE方法显著优于强基线。如WMT19 EN-DE实验结果显示,CBSQE将Pearson相关系数提高了3.18分,F1-MULT提高了0.93分;WMT20/21 EN-ZH实验结果显示,CBSQE将Pearson相关系数提高了4.69/7.42分,MCC提高了4.25/2.71分。
在词级别任务中,CBSQE主要提升了F1-BAD得分,这就意味着CBSQE可以减少假负例。
表2:主实验结果
05
分析实验
5.1 改进的伪数据质量分析
我们从两个方面评估伪数据的质量:伪翻译的质量和伪标签的准确性。如表3所示,CBSQE通过减少假负标签获得了比BSQE更高的词级别标签准确性;使用阈值策略和束搜索,CBSQE保留了参考译文中的主要部分且同时只轻微降低了对应的翻译模型生成概率。
表3:不同伪数据对应的生成概率和标签准确度
5.2 消融实验
在消融实验中,我们将阈值设为0以及对每个参考译文中的词语分配相同的调整权重。如表4所示,实验结果表明,阈值策略和调整策略都是至关重要的。
表4:消融实验
5.3 效率分析
我们记录了不同伪数据方法生成所需的时间,如表5所示,尽管CBSQE引入了复杂的约束规则,但生成所需时间并没有增加太多。
表5:不同方法的生成时间对比
图7记录了不同伪数据生成方法的收敛折线,CBSQE方法比DirectQE和BSQE收敛更快且达到了最高性能。
图7:验证集上实验效果随着训练步数的变化折线
图8和图9分别是CBSQE在不同数据规模或在广范围的超参数下的结果,实验结果都优于基线。
图8:不同训练数据规模的实验结果
图9:不同超参下的实验结果
06
总结
我们提出了一种新颖且通用的伪数据生成方法,该方法能够协调伪标签与伪翻译的质量。实验结果表明,我们的方法在有监督和无监督的设置下都表现优越,且在其他自然语言生成评估任务中也具备被拓展应用的前景。分析实验表明,我们设计的阈值策略和调整函数都至关重要,此外CBSQE是高效且开源的。
该工作由南京大学自然语言处理研究组和华为翻译服务中心共同合作完成。
代码链接:https://github.com/NJUNLP/njuqe
参考文献
[1] Yi-Lin Tuan, Ahmed El-Kishky, Adithya Renduchintala, Vishrav Chaudhary, Francisco Guzm.n, and Lucia Specia. 2021. Quality estimation without humanlabeled data. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 619–625, Online. Association for Computational Linguistics.
[2] Qu Cui, Shujian Huang, Jiahuan Li, Xiang Geng, Zaixiang Zheng, Guoping Huang, and Jiajun Chen. 2021. Directqe: Direct pretraining for machine translation quality estimation. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, pages 12719–12727.
[3] Matthew Snover, Bonnie Dorr, Richard Schwartz, Linnea Micciulla, and John Makhoul. 2006. A study of translation edit rate with targeted human annotation. In Proceedings of association for machine translation in the Americas, volume 200. Cambridge, MA.