Open AI发布ChatGPT安全方法

1,750次阅读
没有评论

4月6日凌晨,Open AI在官网发布了《Our approach to AI safety》,以确保安全、可靠地为全球用户提供ChatGPT服务。https://openai.com/blog/our-approach-to-ai-safety   

目前,ChatGPT的安全问题受到了全球多数国家的高度关注。意大利则直接禁用ChatGPT,欧洲多数国家也开始纷纷重视ChatGPT是否侵犯数据隐私等。一时间生成式AI的数据安全成为热门话题。

Open AI在这关键节点发布安全方法,这对其未来发展乃至整个AIGC行业都起到了关键的保护和稳定军心的作用。

OpenAI致力于保持强大的人工智能安全且广泛有益。我们知道我们的人工智能工具为当今的人们提供了许多好处。我们世界各地的用户告诉我们,ChatGPT有助于提高他们的生产力,增强他们的创造力,并提供量身定制的学习体验。我们还认识到,像任何技术一样,这些工具都存在真正的风险——因此我们努力确保安全内置到我们各级系统中。

Open AI发布ChatGPT安全方法

构建越来越安全的人工智能系统

在发布任何新系统之前,我们会进行严格的测试,聘请外部专家提供反馈,努力通过人工反馈强化学习等技术来改进模型的行为,并建立广泛的安全和监控系统。

例如,在我们的最新型号GPT-4完成培训后,我们花了6个多月的时间在整个组织中工作,在公开发布之前使其更安全、更一致。

我们认为,强大的人工智能系统应该接受严格的安全评估。需要监管以确保采用此类做法,我们与政府就此类监管的最佳形式积极合作。

从现实世界的使用中学习来改善保障措施

我们努力在部署前预防可预见的风险,然而,我们在实验室里能学到的东西是有限的。尽管进行了广泛的研究和测试,但我们无法预测人们使用我们技术的所有有益方式,也无法预测人们滥用技术的所有方式。这就是为什么我们认为,随着时间的推移,从现实世界的使用中学习是创建和发布越来越安全的人工智能系统的关键组成部分。

我们谨慎地逐步发布新的人工智能系统——并采取实质性的保障措施——以稳步扩大人群,并根据我们学到的经验教训不断改进。

我们通过自己的服务和API提供我们最强大的模型,以便开发人员可以直接将这项技术构建到他们的应用程序中。这使我们能够监测滥用并采取行动,并不断制定缓解措施,以应对人们滥用我们系统的真实方式——而不仅仅是关于滥用可能是什么样子的理论。

现实世界的使用也导致我们制定了针对行为的越来越细致入微的政策,这些行为对人们构成了真正的风险,同时仍然允许我们技术的许多有益用途。

至关重要的是,我们认为社会必须有时间更新和适应越来越强大的人工智能,每个受这项技术影响的人都应该在人工智能如何进一步发展方面拥有重要的发言权。迭代部署帮助我们让各种利益相关者更有效地参与到关于采用人工智能技术的对话中,而不是他们没有这些工具的第一手经验。

保护儿童

我们安全工作的一个关键重点是保护儿童。我们要求人们必须年满18岁,或经父母批准,年满13岁才能使用我们的人工智能工具,并正在研究验证选项。

我们不允许我们的技术用于生成仇恨、骚扰、暴力或成人内容等类别。与GPT-3.5相比,我们的最新型号GPT-4响应不允许的内容请求的可能性降低了82%,我们已经建立了一个强大的系统来监控滥用情况。GPT-4现在可供ChatGPT Plus订阅者使用,我们希望随着时间的推移向更多人提供。

我们做出了巨大努力,以尽量减少我们的模型产生伤害儿童的内容的可能性。例如,当用户尝试将儿童安全虐待材料上传到我们的图像工具时,我们会将其阻止并报告给国家失踪和受剥削儿童中心。

除了默认的安全护栏外,我们还与非营利性Khan Academy等开发人员合作,Khan Academy建立了一个人工智能驱动的助手,既可以作为学生的虚拟导师,也可以作为教师的课堂助手,为他们的用例提供量身定制的安全缓解措施。我们还在开发一些功能,这些功能将允许开发人员为模型输出设置更严格的标准,以更好地支持想要此类功能的开发人员和用户。

尊重隐私

我们的大型语言模型是在广泛的文本语料库上训练的,其中包括公开可用的、许可的内容和人类评论员生成的内容。我们不使用数据来销售我们的服务、广告或建立人们的个人资料——我们使用数据来使我们的模型对人们更有帮助。例如,通过进一步培训人们与它的对话来改善ChatGPT。

虽然我们的一些培训数据包括公共互联网上提供的个人信息,但我们希望我们的模型了解世界,而不是私人。因此,我们努力在可行的情况下从培训数据集中删除个人信息,微调模型以拒绝对个人个人信息的请求,并回应个人从我们的系统中删除其个人信息的请求。这些步骤将我们的模型可能产生包括个人个人信息在内的响应的可能性降到最低。

提高事实准确性

今天的大型语言模型根据他们以前看到的模式预测下一个系列单词,包括用户提供的文本输入。在某些情况下,下一个最可能的单词可能不准确。

提高事实准确性是OpenAI和许多其他人工智能开发人员的一个重要关注点,我们正在取得进展。通过利用用户对标记为不正确的ChatGPT输出的反馈,我们提高了GPT-4的事实准确性。GPT-4产生事实内容的可能性比GPT-3.5高40%。

当用户注册使用该工具时,我们努力尽可能透明,因为ChatGPT可能并不总是准确的。然而,我们认识到,还有更多的工作要做,以进一步减少幻觉的可能性,并教育公众了解这些人工智能工具的当前局限性。

继续研究和参与

我们认为,解决人工智能安全问题的实用方法是投入更多时间和资源来研究有效的缓解措施和对齐技术,并针对现实世界的滥用进行测试。

重要的是,我们还认为,提高人工智能的安全性和能力应该齐头并进。迄今为止,我们最好的安全工作来自与我们最有能力的模型合作,因为它们更善于遵循用户的指示,并且更容易引导或“引导”。

我们将对创建和部署更有能力的模型越来越谨慎,并随着人工智能系统的发展继续加强安全预防措施。

虽然我们等了6个多月才部署GPT-4,以便更好地了解其功能、好处和风险,但有时可能需要花费更长的时间来提高人工智能系统的安全性。因此,政策制定者和人工智能提供商需要确保人工智能的开发和部署在全球范围内得到有效管理,这样就不会有人偷工减料来取得进展。这是一个需要技术和机构创新的艰巨挑战,但这是我们渴望做出贡献的。

解决安全问题还需要广泛的辩论、实验和参与,包括关于人工智能系统行为的界限。我们已经并将继续促进利益相关者之间的合作和公开对话,以创建一个安全的人工智能生态系统。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 4 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...