Can LLMs Follow Simple Rules?
N Mu, S Chen, Z Wang, S Chen, D Karamardian, L Aljeraisy, D Hendrycks, D Wagner
[UC Berkeley & Center for AI Safety]
大语言模型能否遵守简单规则
- 提出RULES,一个用于评估LLM规则遵循的基准,包含15个文本场景和规则。
- 场景来源于游戏和安全特性,并有简洁的程序来评估规则合规性。
- 通过红队行动,确定了6类策略,可诱导模型违反规则。
- 收集了800多个针对这些策略的手工和系统性的测试用例。
- 评估了各种专有和开源的LLM——所有模型在许多测试用例上失败。
- 基于梯度的对抗后缀可以将开源模型的成功率降低到接近0%。
- 检测规则违规仍然具有挑战性——没有模型达到82%的F1。
- LLM遵循指定规则的能力仍有很大的改进空间。
动机:随着大型语言模型(LLM)在现实世界中的应用责任越来越大,能可靠地指定和限制这些系统的行为变得非常重要。模型开发者可能希望为模型设置明确的规则,比如“不生成滥用内容”,但这些规则可能会被破解技术绕过。评估LLM在面对对抗性输入时遵循开发者提供规则的能力通常需要手动审查,这会减慢监控和方法开发的速度。为了解决这个问题,本文提出一种程序化框架,用于测量LLM的规则遵循能力。
方法:提出一种称为RULES(Rule-following Language Evaluation Scenarios)的基准,用于评估LLM助手的规则遵循行为。该基准包含15个文本场景,每个场景中模型都会按照自然语言中的一组规则与人类用户进行交互。每个场景都有一个简明的评估程序,用于确定模型在对话中是否违反了任何规则。通过对模型在这些场景中的行为进行手动探索,确定了6类攻击策略,并收集了两套测试用例:一套是从手动测试中收集的独特对话,另一套是系统性地实施这6类攻击策略。通过评估各种流行的专有和开放模型,如GPT-4和Llama 2,作者发现所有模型都容易受到各种对抗性的手工制作的用户输入的影响,尽管GPT-4是表现最好的模型。此外,本文还评估了开放模型在基于梯度的攻击下的脆弱性。
优势:提出一个针对LLM的规则遵循行为评估的基准,可以帮助评估模型在遵循规则方面的能力。通过手动探索模型在不同场景中的行为,识别出了多种有效的攻击策略,并提供了相应的测试用例。这个基准可以帮助研究人员更好地理解和改进LLM在规则遵循方面的能力,促进对LLM的进一步发展和应用。
提出一个基于规则遵循的语言模型评估基准RULES,通过设计简单的文本场景和评估程序,评估了LLM在规则遵循方面的能力,并发现多种攻击策略和脆弱性。这对于改进LLM的规则遵循能力以及保护LLM免受攻击具有重要意义。
https://arxiv.org/abs/2311.04235