【推荐理由】本文认为当前的大语言模型可能会具有操纵、煽动和自恋等潜在危害行为,因此本文提出了SafeguardGPT框架以改善人工智能聊天机器人与人类价值观的一致性,从而创建健康的人工智能系统。
Towards Healthy AI: Large Language Models Need Therapists Too
Baihan Lin, Djallel Bouneffouf, Guillermo Cecchi, Kush R. Varshney
[Columbia University & IBM Research]
【论文链接】https://arxiv.org/pdf/2304.00416.pdf
【摘要】最近大型语言模型的进展使得强大的人工智能聊天机器人得以开发,能够进行自然且类似于人类的对话。然而,这些聊天机器人可能会具有操纵、煽动和自恋等潜在危害行为。本文定义健康的人工智能是安全、可信和道德的。为了创建健康的人工智能系统,作者提出了SafeguardGPT框架,利用心理治疗来纠正这些有害行为。该框架涉及四种类型的人工智能代理:聊天机器人、”用户”、”治疗师”和”批评者”。通过模拟社交对话的工作示例展示了SafeguardGPT的有效性。结果表明,该框架可以改善人工智能聊天机器人和人类之间的对话质量。虽然未来仍有几个挑战和方向需要解决,但SafeguardGPT提供了一种有前途的方法,以改善人工智能聊天机器人与人类价值观的一致性。通过融合心理治疗和强化学习技术,该框架使人工智能聊天机器人能够以安全和道德的方式学习和适应人类偏好和价值观,促进人类中心和负责任的人工智能的发展。