NAACL(The North American Chapter of the Association for Computational Linguistics)是自然语言处理领域顶级国际会议之一,其涉及领域包括:信息提取、语言生成、机器翻译、对话、多模态等,是CCF-B类国际学术会议。南京大学自然语言处理研究组共有六篇学术论文被NAACL2024录用,其中4篇主会,2篇Findings。以下为本次六篇录用论文的介绍:
01
A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily(主会)
作者:丁鹏,匡俊,马丹,曹雪智,仙云森,陈家骏,黄书剑
作者单位:南京大学,美团
论文简介:大型语言模型(LLMs),如ChatGPT和GPT-4,旨在提供有用且安全的回复。然而,被称为“越狱”的对抗性提示可以绕过安全防护,导致LLMs生成有害内容。探索越狱提示有助于更好地揭示LLMs的弱点,并进一步引导我们确保它们的安全性。现有的越狱方法要么受限于复杂的手动设计,要么需要在另一个白盒模型上进行优化,这影响了越狱的泛化和效率。在本文中,我们将越狱提示攻击泛化为两个方面:(1)提示重写 (Prompt Rewriting)和(2)场景嵌套 (Scenario Nesting)。基于此,我们提出了ReNeLLM,一个利用LLMs自身来生成有效的越狱提示的自动化框架。大量的实验表明,与现有基线相比,ReNeLLM显著提高了攻击成功率,同时大幅降低了时间成本。我们的研究还揭示了当前防御方法在保护LLMs方面的不足。最后,我们从提示执行优先级的角度提供了对LLMs防御失败的详细分析和讨论。我们希望我们的研究能够促使学术界和LLMs开发者朝着提供更安全、更受监管的大型语言模型的方向努力。
02
Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models(主会)
作者:佘帅杰,黄书剑,王星云,周琰轲,陈家骏
作者单位:南京大学
论文简介:大型语言模型(LLM)通常以对话的形式与用户互动,并根据用户的指令生成响应。这自然要求模型能够准确的理解对话,具备对话理解能力。然而,对话理解是一种通用语言能力,难以直接评估。在这项工作中,我们提出借助对话摘要任务,专注于评估事实一致性问题。除了评估和分析不同LLMs的对话摘要性能(DIAC-SUM),我们还针对生成摘要中的不一致构造事实性问题(DIAC-FactQA),作为一种更灵活的对话理解评估方法。我们的评估结果显示,LLM生成的摘要中平均有26.8%包含事实不一致。即使是评估中最强大的模型ChatGPT,其摘要中也有16%存在错误。在回答更具挑战性的事实性问题时,所有评估LLMs的平均错误率为36.1%。这两个结果都揭示了现有大模型的严重对话理解能力缺陷。详细分析显示,理解对话中的主体/客体仍然是LLMs面临的严峻挑战之一。为了激发和增强LLMs的对话理解能力,我们提出了一种以自动构建的多任务数据为基础的微调范式,该范式在DIAC-FactQA上实现了11%的相对错误率降低。
03
Multilingual Pretraining and Instruction Tuning Improve Cross-Lingual Knowledge Alignment, But Only Shallowly(主会)
作者:高长江,胡洪达,胡鹏,陈家骏,李吉星,黄书剑
作者单位:南京大学,香港城市大学
论文简介:尽管当前的大型语言模型在英语知识检索方面有着强大的能力,但它们在不同语言之间表现出明显的失衡。为解决这一问题,研究者提出了两种方法:多语言预训练和多语言指令微调。然而,这些方法是否以及如何为模型内部的跨语言知识对齐做出贡献还有待探究。在本文中,我们提出了一个系统性框架CLiKA,用于评估大型语言模型在性能、一致性和传导性三个层面上的跨语言知识对齐度,并探索了多语言预训练和指令微调对知识对齐程度的影响。结果表明:虽然多语言预训练和指令微调对跨语言知识对齐都有利,但训练策略的设计需格外小心。继续预训练虽然提高了目标语言的对齐度,但以牺牲其他语言为代价;而混合预训练则对其他语言的影响较小。另外,所有受测大型语言模型的整体跨语言知识对齐度(尤其是传导性层面)都不尽如人意;无论是多语言预训练还是指令微调,都无法从根本上改善跨语言知识传导能力。
04
MT-Patcher: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation(主会)
作者:李家欢,程善伯,黄书剑,陈家骏
作者单位:南京大学,字节跳动
论文简介:知识蒸馏是一种有效地将知识从计算开销大的教师模型传输到轻量化的学生模型的方法。然而,当学生/教师模型是大型语言模型时,传统的知识蒸馏方法会忽略了学生和教师模型本身的能力,导致蒸馏过程重复教导学生模型他们已经学到的知识,并无法扩展到新的知识和上下文。在本文中,我们提出了一种名为MT-Patcher的框架,寻求有选择性、全面的和可外推的知识蒸馏方法。MT-Patcher框架利用教师模型的能力为学生模型的输出提供反馈,从中选取学生模型犯错的部分进行知识传输。为了提升蒸馏过程的外推能力,MT-Patcher 进一步根据识别出的错误,利用教师模型预测学生可能出现的更多潜在错误,并合成多样的上下文供学生模型学习。我们以翻译任务为例,验证了MT-Patcher的效果。在翻译特定语言现象和通用MT基准的实验结果表明,对约10%的例子进行微调的MT模型可以达到与传统的知识蒸馏方法相当的结果,并且合成的潜在错误和不同的上下文进一步提高了MT模型在未见上下文和词汇上的表现。
05
Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis(Findings)
作者:朱文昊,刘泓轶,董青秀,许晶晶,黄书剑,孔令鹏,陈家骏,李磊
作者单位:南京大学,上海人工智能实验室,上海交通大学,北京大学,香港大学,加州大学圣巴巴拉分校
论文简介:在本文中,我们对大语言模型多语言机器翻译能力进行了系统地研究,尤其对以下两个问题进行了深入地探究:1)大语言模型多语言机器翻译水平如何?2)哪些因素会影响大语言模型的翻译表现。为了探究这些问题,我们分析了包括ChatGPT和GPT-4在内的八种最流行的大语言模型。我们的研究结果显示大语言模型的翻译能力正在不断进化。在40.91%的翻译方向上,GPT-4已经超过最强的传统有监督多语言机器翻译模型NLLB。但是,我们也发现GPT-4距离商用机器翻译系统Google Translate仍然存在较大差距,尤其是在低资源语言的翻译表现上。在进一步的深入分析中,我们发现大语言模型在进行多语言机器翻译时存在一些全新的工作模式:首先,在给定上下文示例时,指令语义常常会被忽略;另外,对于低资源语言翻译,使用跨语言示例往往可以比非跨语言示例起到更好的效果;我们还发现,大语言模型可以非常高效地从无监督数据学习中获得翻译能力,即使在部分零资源语言上也可以取得不错的翻译表现。
06
Emotion-Anchored Contrastive Learning Framework for Emotion Recognition in Conversation(Findings)
作者:余方续,郭俊杰,吴震,戴新宇
作者单位:南京大学
论文简介:对话中的情绪识别(ERC)涉及检测对话中每一句话背后的潜在情绪。有效地生成话语的表示仍然是这项任务中的一个重大挑战。最近的工作提出了各种模型来解决这个问题,但他们仍然难以区分类似的情绪,如兴奋和开心。为了缓解这个问题,我们提出了一种基于情绪锚点的对比学习框架(EACL),该框架可以为相似的情绪生成更可区分的话语表示。为了实现这一点,我们利用标签编码作为锚来引导话语表示的学习,并设计了一种辅助损失函数来确保相似情绪锚点的有效分离。此外,本文还提出了一种额外的自适应过程来调整锚点作为有效的分类器以提高分类性能。在广泛的实验中,我们提出的EACL实现了最先进的情绪识别性能,并在类似情绪上表现出优异的性能。