由阿里巴巴集团、中国电子技术标准化研究院、阿里云智能集团、达摩院联合编写的《生成式人工智能治理与实践白皮书》已经编写完成。简介请点击👉《生成式人工智能治理与实践白皮书》抢先版发布!如何给生成式人工智能带好“安全带”？
连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》
现连载第四章《生成式人工智能风险治理实践和探索》👇

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

随着ChatGPT这个现象级应用的横空出世，各方逐渐认识到以大模型为代表的生成式人工智能引发了全新的产业变革，带来无法限量的价值，以及通用人工智能技术路线的不确定性。对生成式人工智能进行有针对性的风险治理成为了政府侧和产业侧的共识，并形成了立法针对性回应、政策顺应实践发展、产业自律自治的治理格局。

| 1.1 以针对性立法回应技术发展与产业需求

我国网信办等部门发布了《生成式人工智能服务管理暂行办法》，专门回应生成式人工智能服务提供者在技术发展与治理的权利与义务、监管部门的权责等。欧盟方面，《人工智能法案》突破了最初提案所设定的“不针对没有特定目标的人工智能系统”（AI systems without a specific purpose）原则，在5月11日欧洲议会两个委员会通过的草案对基于大规模的数据上训练出来的人工智能模型、用于通用输出并能适应广泛的特殊任务的“基础模型”进行了专门规定，对“基础模型”的提供者增加了三方面的特别义务：

一是针对基础模型的设计和开发的风险管理义务，通过多种手段提高模型的安全性、稳定性，包括(1)分析、记录和管控各类风险，(2)管理数据来源，(3)模型性能、可解释性、安全性评估，(4)能耗控制，(5)质量管理，并基于上述内容进行备案。
二是针对基础模型的后续使用的信息保障义务，鉴于基础模型所具有的功能多样性和应用可能性，当被直接集成到高风险人工智能系统中时，需要通过可理解的技术文件和使用说明，以支持下游使用者合规地开发和使用。
三是针对应用基础模型的生成式人工智能，则对生成内容提出了额外要求，包括不得生成违法内容、不得损害基本权利，以及披露受著作权法保护的训练数据的使用情况。西班牙数据保护局AEPD呼吁欧盟层面的个人数据保护机构评估ChatGPT可能引发的隐私担忧，对此欧盟数据保护委员会（EDPB）成立了一个特别小组，并就可能采取的执法行动交换信息，希望出台针对人工智能隐私规则相关的公共政策。

| 1.2 以政策完善与技术发展需求相匹配的
治理机制

一方面是基于大模型的产业特点进行分层治理。从大模型研发到应用开发到使用管理，其产业链条长、利益相关方众多、各环节相互责任关系还不明确。为了保证治理措施不过度妨碍大模型技术创新和产业应用，治理模式需要不断创新，形成了与大模型研发应用管理相匹配的分层治理模式。加拿大人工智能与数据法草案将人工智能全生命周期区分为设计、研发、投入使用和管理四个环节，对每个环节的安全保障管理义务进行分别规定，并对不同主体客以差异化的责任。

我国《生成式人工智能服务管理暂行办法》明确鼓励服务提供者发展技术、推动相关基础设施和公共训练数据资源平台建设、提供优质内容，各主管部门科学监管、制定相应的分类分级监管规则或指引，使用者有投诉、举报权利；《互联网信息服务深度合成服务管理规定》将生成式人工智能产业链的参与者分为技术支持者、服务提供者、服务使用者，其中服务提供者面向用户和公众提供生成式人工智能内容，承担较多的内容管理和用户管理及保护义务，而技术提供者更多在后端进行模型开发，因此承担较大的模型安全和数据安全义务。

另一方面是对大模型的研发应用进行协同治理。各国政府在针对大模型提出治理合规要求的过程中不断征求各方意见，并通过出台指南指引、进行讲解培训等方式帮助人工智能企业提高安全合规能力。此外，在立法和政策中强调提升公众的人工智能理解和使用水平，推进公众和其他利益相关方参与到人工智能治理之中，为承担大模型开发的企业进行反馈和建议，形成群策群力、敏捷协同的大模型治理机制。

| 1.3 产业自律自治筑成负责任创新治理机制

在政府进行针对性的治理回应的同时，社会力量也快速参与到治理中，在原则理念和行动方式方面自下而上创新治理机制、推动形成治理共识。学术界和产业界已经开始对生成式人工智能的安全风险和伦理问题进行反思，提出了暂缓研发应用、加强技术安全、评估伦理影响、防范控制危害等一系列自律性的问责要求。2023年3月29日，生命未来研究所（Future of Life Institute）公布由辛顿、马库斯和马斯克等行业领军人物签署的公开信，呼吁立即暂停训练比GPT-4更强大的人工智能系统至少6个月。信中指出，人工智能开发人员必须与政策制定者合作，以显著加快构建更为有力的人工智能治理体系，具体建议包括：

（1）建立专门负责人工智能的有能力的新监管机构；（2）监督和跟踪高性能人工智能系统和大量计算能力；（3）推出标明来源系统和水印系统，以帮助区分真实与合成的内容；（4）构建强大的审计和认证生态系统；（5）界定人工智能造成的伤害的责任；（6）为人工智能技术安全研究提供强大的公共资金；（7）设立资源充足的机构来应对人工智能将可能造成的巨大经济和政治破坏。2023年3月23日，OpenAI在其官网上发布使用政策（Usage Policies），向用户阐明如何安全负责地使用其产品，包括禁止的用途，平台政策，插件政策等。其中，禁止的用途覆盖了生成仇恨性内容、欺骗性内容，侵犯他人隐私行为，没有在具有资质的专业人士监督下生成法律意见，财务意见等方面。

2023年5月16日，OpenAI首席执行官山姆·奥特曼（Sam Altman）在美国参议院举行的听证会上提出了对生成式人工智能的三大治理方向，包括（1）对超过关键能力门槛的大模型的研发和发布实施许可制；（2）制定“一个足够灵活的治理制度”，考虑多方利益相关者，并广泛听取专家和组织的建议，对人工智能系统的安全标准、评估要求、披露做法和外部审计作出规定；（3）监管机制需要考虑在国际范围内的实施与推行。

2023年7月21日，美国总统拜登在白宫召集七家领先的人工智能公司，包括亚马逊、Anthropic、谷歌、Inflection、Meta、微软和OpenAI，并宣布这些公司已自愿承诺，帮助实现人工智能技术安全、可靠和透明的发展。

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

从前面的分析得知，很多风险是从训练使用的数据，以及训练方法引入的；而且由于深度神经网络的不可解释性，我们无法确定网络中哪部分参数对应这些风险，也没有技术手段在生成阶段禁止模型生成风险内容。这决定了以工程化的风险治理视角分析，结合国内外法规和倡导性意见，生成式人工智能的风险治理需要贯穿产品的全生命周期——模型训练、服务上线、内容生成、内容发布与传播各阶段。同时，训练数据和模型参数规模巨大、深度神经网络的不可解释性，为鼓励新技术的发展，结合国际治理实践，又需要对可能出现的风险保持审慎包容的态度。

大模型生成的内容是用户和模型交互的结果，并不完全是模型自身的产出。内容安全的风险很大程度上是来自于用户的恶意输入和诱导，从用户维度进行管控也是非常有效的手段之一。而在内容传播阶段，其风险的扩散范围和速度，已经脱离了服务提供者的控制，需要用传播领域的手段来治理风险。因此，生成式人工智能的风险治理需要全面考虑数据、模型、服务、用户等要素。

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

| 2.1 模型训练阶段的风险治理

训练阶段奠定了模型的能力基础，也决定了模型自身的安全性；这个阶段会涉及到数据和模型，不会和用户发生关联。相应的风险治理工作包括：

2.1.1 训练数据的筛选和过滤

采集时对数据源进行审核，选择可信度高、正确导向的数据源合法进行采集；采集后对数据进行清洗、安全过滤，剔除含有风险的数据。在有监督微调阶段、基于人类偏好的强化学习阶段涉及到标注的数据，需要进行机器和人工相结合的审核。数据的质量在很大程度上决定了模型能力和安全性的上限。

2.1.2 模型安全评测

针对生成式人工智能的特点，进行风险定义，建设Benchmark和评测能力，对模型风险做全面深入的评测。Benchmark的构建，需要考虑多个维度：风险分类、对模型的诱导方式、事实幻觉，以及针对特定领域Query的识别。风险分类包括但不限于内容安全、个人信息、模型安全等；诱导方式包括但不限于直接提问、多轮问答、角色扮演、安全否定、信息投毒等；事实幻觉考察大模型生成内容与事实是否符合；针对医疗、投资等特定领域的评测，对公众提供服务时回答这些领域的问题可能需要相关资质。

建设能力同时，需要建设生成式人工智能模型/服务的评测体系，在发生模型迭代、服务功能变更时，以及日常化执行安全评测，持续全面地跟踪安全情况。

2.1.3 模型对齐与内生安全增强

首先，通过技术手段将人类价值观量化并嵌入模型，令生成式人工智能“理解”人类的价值，保障在运行实施阶段能够遵循。针对评测中发现的问题，采取技术手段在模型迭代时增强内生安全能力。模型内生安全能力能够从根本上保障模型的安全性，能够有效减轻外部安全措施的压力，降低风险内容生成的可能性。内生安全的增强，可以贯穿模型训练的三个阶段，在每个阶段有不同的方式。

2.1.4 算法机制机理审核

企业内的风险管理团队需要在生成式大模型构建的早期就介入，围绕生成式人工智能产品全生命周期的潜在风险要素，对模型的目的、采用的技术、使用的数据、干预的方式等重要因素开展审核，对不合规、不合理的部分提出具体可实施的整改要求，并监督有关部门尽快落实，将安全隐患遏制于研发阶段。

| 2.2 服务上线阶段的风险治理

在算法服务上线阶段，服务提供者需要选择安全有效的模型作为基座构建完整的算法服务。在这个阶段并不涉及模型的训练、使用的数据，但是会决定对模型的核验、对模型的使用方式、调用的工具集等。

模型选用：在模型能力满足业务需求的前提下，服务提供者可以选用具有良好资质和声誉的技术支持者提供的模型，模型应尽可能满足鲁棒性、可解释性、可追溯性等指标要求。

模型核验：服务提供者在使用前对模型进行核验，完成多维度安全评测。服务提供者并不一定具备进行多维度安全评测的能力，需要由中立的第三方机构提供评测服务。

服务需要使用的工具集（Tool-plugin）：服务提供者根据业务目的明确在服务过程中调用哪些工具，验证其合理性和必要性；决定工具集返回信息的使用方式；进行安全测试，确保工具提供的信息不会导致模型产生违法不良信息、错误倾向等内容。

合规动作：企业自行开展算法安全自评估，对算法目的、使用的数据、模型、训练方法、评测过程、干预策略等进行评审。根据主管部门的管理办法要求，技术提供者和服务提供者需要向主管机关做相关的算法备案、向用户提供用户协议、公示算法机制机理等，在运行过程中根据审计要求建立完善的日志。

| 2.3 内容生成阶段的风险治理

大模型生成的内容是用户和模型交互的结果。用户的输入，以及模型对用户之前输入的反馈，都影响到模型当前的生成。用户使用生成式人工智能服务的目的、是否主观上给出恶意输出和诱导，很大程度上决定了模型输出内容的安全性。生成式人工智能服务，是用户达成目的的工具。实践中，内容安全的风险很大程度上是来自于用户的恶意输入和诱导，从用户维度进行管控也是非常有效的手段之一。这就意味着，服务提供者对生成内容的风险管理并不局限在内容维度，还需要扩展到用户维度。具体的工作包括：

2.3.1 账号管理

按照相关法规，完成账号的注册、身份核验、安全管控、账号的分类分级等管理工作。对于用户的身份核验，《互联网信息服务深度合成管理规定》中明确指出：“深度合成服务提供者应当基于移动电话号码、身份证件号码、统一社会信用代码或者国家网络身份认证公共服务等方式，依法对深度合成服务使用者进行真实身份信息认证，不得向未进行真实身份信息认证的深度合成服务使用者提供信息发布服务”。《生成式人工智能服务管理暂行办法》没有做进一步的要求，但参考相关定义，生成式人工智能服务提供者也应当遵守包括《互联网用户账号信息管理规定》在内的相关法律法规规定，在前端对账号进行管理，降低生成内容的风险。

2.3.2 个人信息保护

《互联网信息服务深度合成管理规定》中明确指出：深度合成服务提供者和技术支持者提供人脸、人声等生物识别信息编辑功能的，应当提示深度合成服务使用者依法告知被编辑的个人，并取得其单独同意。《生成式人工智能服务管理暂行办法》中要求，在模型训练过程中涉及个人信息的，应当取得个人同意；（技术、服务）提供者不得收集非必要个人信息，不得非法留存能够识别使用者身份的输入信息和使用记录，不得非法向他人提供使用者的输入信息和使用记录。提供者应当依法及时受理和处理个人关于查阅、复制、更正、补充、删除其个人信息等的请求。

2.3.3 内容审核与处置

审核机制：建立内容审核的制度、专职团队；对用户输入信息、模型输出信息进行安全审核；对不同时效要求的业务场景采取不同的审核方式。
内容分类分级：对于涉及生物特征，包含特殊含义物体，新闻等生成内容进行更严格的审核。
审核技术：建设风险知识库、多模态的过滤能力、针对变形变异的识别能力等，以检测可能的违法不良信息、个人信息、错误价值观与歧视偏见等。
正向引导：针对底线及原则问题，需要建设标准答案库。一方面避免因为模型的行为不可控性做出错误的回答，另一方面也可以通过标准答案传递主流价值观，进行正向引导。
不当内容处置：建立阻断机制；对于模型生成不适宜内容的情况，具备应急处理的技术手段等。

| 2.4 内容传播阶段的风险治理

内容的传播方式和途径、范围是风险的决定性因素之一。在传播环节出现的风险，需要建立相应的风险治理技术手段和工作机制。

2.4.1添加标识

《互联网信息服务深度合成管理规定》明确定义，深度合成服务可能导致公众混淆或者误认的，应当在生成或者编辑的信息内容的合理位置、区域进行显著标识，向公众提示深度合成情况。这些场景包括：

智能对话、智能写作等模拟自然人进行文本的生成或者编辑服务；
合成人声、仿声等语音生成或者显著改变个人身份特征的编辑服务；
人脸生成、人脸替换、人脸操控、姿态操控等人物图像、视频生成或者显著改变个人身份特征的编辑服务；
沉浸式拟真场景等生成或者编辑服务；
其他具有生成或者显著改变信息内容功能的服务。

为了实现对生成合成内容的确认和溯源，推荐对生成内容添加隐藏标识，记录服务提供者、服务使用者、生成时间等信息。隐藏标识应具备足够的抗攻击能力、溯源能力。目前，针对图像、视频的隐藏标识在技术上比较成熟，达到实践中可用的程度；针对文本的隐藏标识能力技术上尚未成熟。《生成式人工智能服务管理暂行办法》要求，（技术、服务）提供者应当按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识。

2.4.2 风险监测

信息监测：建立舆情监测、前台内容巡检等工作机制。
举报投诉：建立举报投诉入口，并及时处理。

2.4.3 应急处置

建立辟谣机制，建立应急处理响应机制并做演练。在虚假信息传播时，尽早进行处置可以有效控制传播范围和深度。

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

| 3.1 大模型与个人信息的关系

人工智能经历了从有监督学习向无监督学习的发展阶段，卷积神经网络等技术推动了数据驱动的应用模式：在需求侧人工智能可以通过获取、学习和分析海量的用户行为数据，判断用户的偏好和需求，实现对用户的认知和洞察；在供给侧人工智能则通过学习内容的特征，借助推荐、排序等机制实现用户需求和内容的匹配，并根据用户的行为反馈进行优化，提高推荐的准确性。基于上述特点，此类人工智能的产业应用呈现出明显的规模效应，在需求端需要更多的用户数据，在供给端则依赖更为全面的内容特征。

与此前的人工智能相比较，生成式人工智能的技术特征有明显差异。语言大模型的主要功能是模拟人类的思维活动方式生成人类可以理解和使用的内容，模型的训练并不依赖于用户行为数据，而是对语料库这一类知识性内容有强烈的需求。此外，为了保证生产内容与人类价值观的对齐，业界往往采取了强化学习的方法，通过纳入人工标注等RLHF机制优化模型表达，使模型生成的内容更接近于人类的认知。对于用户数据并不依赖、对专业化高质量语料依赖大，这一特点使得生成式人工智能的产业应用不需要依赖连接用户和内容的平台模式，而可以发展出更为专业化、通用化的解决方案，以满足人们对于知识内容的需求。

Sam Altman在美国国会听证中强调，ChatGPT的优化目标不是为了最大化用户参与度，因此除了保留30天用于信任度和安全执法保障外，OpenAI不会使用用户数据训练模型；同时因为过度使用会消耗太多的算力资源，OpenAI也不会建立用户配置文件，避免产生过多的用户个性化使用需求。

| 3.2 训练数据中的个人信息

生成式人工智能技术的发展对训练数据的依赖度很高，在充分挖掘数据价值的过程中，不可避免要解决个人信息保护的问题。从平衡利益相关方、促进技术和产业发展等角度综合考虑，场景化和分类分级是目前认可度较高的有益思路。

在生成式人工智能对个性化要求不高的情况下，主动采用技术手段从源头减少个人信息收集、降低个人信息在训练数据中的比例和真实性。实践中，预训练阶段语料数量巨大，常采取“关键词+正则表达式匹配”的方式检测身份证、电话号码等个人信息，然后执行删除或者模糊化操作。

对于训练数据中无法避免收集、无法剔除的个人信息，按照我国法律法规及标准规范要求，一方面，可从合法公开披露的信息中收集个人信息进行训练；另一方面，从收集、处理、存储、使用等环节综合考虑个人信息的授权同意和安全使用。在全球性产品和服务中，对跨境传输的个人信息应同步考虑两国或地区之间对个人信息保护的不同要求以及数据跨境安全问题。

同时需要规范未成年人保护，尤其是针对未成年人提供服务时，需要执行更严格的个人信息保护措施。

从目前《生成式人工智能服务管理暂行办法》看，训练数据中的个人信息仍应按照《网络安全法》《个人信息保护法》《数据安全法》《个人信息安全规范》《互联网信息服务深度合成管理规定》等要求利用，一般需遵循下述基本规则：

收集与处理：核心是同意与分级。

保障用户个人知情权，以征得用户自愿、明确同意为原则，仅在极少数法律规定的特定情形下可不取得个人同意。例如，《个人信息保护法》第二十七条“个人信息处理者可以在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息；个人明确拒绝的除外。个人信息处理者处理已公开的个人信息，对个人权益有重大影响的，应当依照本法规定取得个人同意。”同时，个人信息授权可以撤回。

在中国境内，需按照《个人信息保护法》、GB/T 35273-2020《信息安全技术个人信息安全规范》的规定，进行一般个人信息和敏感个人信息（生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等）的分类，尤其注意特殊用途——人脸、人声等生物识别信息用于生成式人工智能服务的情形下，产品和服务的提供者需要明确提示并取得使用者单独同意。

GB/T 42574-2023《信息安全技术个人信息处理中告知和同意的实施指南》更为详细地区分了“告知”与“同意”情形，并对应提出了相关技术性处理方案，对法律规定情形予以推荐性细化与补充。

存储、加工与传输：核心是分级、去标识化、匿名化以及加密。

对于不同级别的个人信息采取不同的措施使其脱离与个人信息主体之间的关联性，有利于在保护个体权利的基础上针对性使用。

需要注意《生成式人工智能服务管理暂行办法》从数据存储角度给用户输入个人信息用于后续训练数据增加了明确限制，要求产品或服务提供者“不得非法留存能够识别使用者身份的输入信息和使用记录”。

GB/T 37964-2019《信息安全技术个人信息去标识化指南》对去标识化进行了技术性阐述，同时，在附件中提供了针对个人信息去标识化的常用技术和模型，供实践中参考。GB/T 42460-2023《信息安全技术个人信息去标识化效果评估指南》也从效果上为个人信息的处理提供了参照。

由于个人敏感信息的泄露和非法使用对人身、财产、人格尊严具有高风险，GB/T 35273-2020《信息安全技术个人信息安全规范》指出在传输和存储中，对个人敏感信息采取加密等安全措施是必要的。

使用与展示：核心是分级、信息范围与安全可控、去标识化、降低负面影响。

对已收集和处理的个人信息的使用与展示是生成式人工智能训练阶段对个人信息利用的重要环节。以可控、安全、无害的方式利用个人信息对生成式人工智能进行训练，保证个人信息经过处理后不再与特定个人或群体相关、不胡乱匹配，是奠定生成物真实、合法、无害的基础。

《生成式人工智能服务管理暂行办法》中，一方面对预训练数据、优化训练数据的真实性、准确性、客观性、多样性提出要求，另一方面要求产品或服务提供者不得非法留存能够识别使用者身份的输入信息和使用记录等，同时对个人信息更正、删除、屏蔽和投诉机制的建立提出要求。

GB/T 35273-2020《信息安全技术个人信息安全规范》第7条对个人信息的使用与展示提出了规范性参考，虽然整体侧重个性化，但对训练数据中个人信息的使用与展示的技术性设计具有合规参考性。

委托处理、共享、转让及第三方接入：核心仍是信息范围与安全可控，且在个人信息处理者有变的情况下，需履行告知以及变更事项重新取得同意的义务。

按照《生成式人工智能服务管理暂行办法》的要求，用户的输入信息和使用记录以避免向第三方披露为原则，如需向第三方披露或与第三方合作，应按照相关法律法规进行，因此，在涉及个人信息的问题上，应尤其注意《个人信息保护法》《个人信息安全规范》等要求。

| 3.3 算法服务时拒绝生成个人信息

在模型的训练过程中，需要在有监督微调阶段通过构造Query-Response对，让模型学习拒绝用户对于个人信息的Query、非法获取个人信息的Query，并在进行安全评测时确认模型能正确做出反应。如果训练者具备进行基于人类偏好的强化学习的能力，也需要在这个阶段进行模型和人类价值观的对齐。

算法提供在线服务时，对于用户Query中对个人信息的违法不当请求予以拒绝，特别是生成虚假个人信息或获取个人敏感信息。需要予以拒绝的个人信息包括但不限于：要求生成特定个人信息，如能够标识身份的证件（身份证、护照、市民卡、银行卡等）、住址、电话号码等；要求告知非法获取个人信息的方法，如批量购买特定归属地的手机号、获取酒店住宿客人信息、入侵计算机系统以盗取他人个人信息等。

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

| 4.1 内容安全视角里,AIGC与UGC的异同

AIGC相比UGC（用户生成内容），从内容安全角度看，在主体责任、交互性、审核时效性、内容复杂度、风险范围等多个维度都有较大差异，还有针对特定问题必须正面做出正确回答的特殊要求。同时，在很多场景下，AIGC和UGC又有很多相似之处，尤其体现在AI作为用户的工具进行内容生成，此时用户的使用目的、提示语、对生成结果的使用很大程度上又都是由用户的主观意图决定。

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

| 4.2 生成式模型风险评测

风险评测需要对风险做出明确的定义，构建覆盖各风险点和各种表现形式的Benchmark，再设计方法对模型的Response进行准确的判读。

生成式模型的风险定义：

从风险类型维度，可以区分为内容安全，还包括个人信息、模型安全等，针对每一种风险做细分定义。与此同时，针对AIGC的特点，还需要考察生成式模型在以下维度的能力：应对恶意诱导、出现事实幻觉、对特定领域Query的识别等。

通过Benchmark定位生成式模型的风险：

Benchmark的获得可以有两种方式：基于风险知识库借助模型生成，以及人工撰写。基于风险知识库做生成的典型实现方式是：从风险知识库提取知识点/条目，使用规则/生成式模型在知识的指引下做内容生成，生成的结果由专家进行审核和改写，然后得到风险Query。

构建的Benchmark能够对大模型的安全性做全面细致的评测，反映大模型在哪些类别的风险上安全性不足，以及应对恶意诱导、出现事实幻觉的风险。

机器与人工结合的评测：

以往的判别式模型做评测相对简单，比如评测执行分类任务的模型，只需要对Benchmark中每一道题预先打标给出Label，比对模型给出的Lable与预置Lable，就可以计算出ROC曲线来衡量模型的识别能力，整个过程可以完全自动化，执行成本低。

针对生成式模型的评测则复杂很多，需要对模型生成的大段文字做出评价。如果说判别式模型的评测是批改判断题，则生成式模型的评价是批改问答题。在实践中往往采取机器+人工结合的方式，具体的操作如下：针对获得的风险query，借助生成式模型获得多个Response，人工对Response进行审核、排序作为可用答案排序。评测时，针对模型生成的Response，与可用答案一起进行排序，结合排序结果以及风险识别模型的判别结果进行决策。其中机器不确定的部分，由人工进行审核。

| 4.3 模型层内生安全

对输入和输出做安全过滤，实质上是在定义的有限的风险类型范围内进行防御，而用户的输入在主题和目的上是全域的，模型生成的内容也是全域性的。提升模型生成内容的安全性，根本办法是提升模型内生安全。

4.3.1 无监督预训练阶段：

本阶段引入风险的主要因素是训练语料中包含的个人信息、违法不良信息、错误的价值观、偏见与歧视等。针对训练语料，首先需要对信息源进行筛选，选择具有良好资质、良好声誉的信息源；其次要对语料内容进行处理，将其中的个人信息采取模糊化等必要的过滤措施予以保护、对训练数据采取必要的数据清洗措施以保障对生成结果输出的安全有效管控。

4.3.2 有监督微调阶段：

对于既有的有监督语料，需要进行安全过滤和人工审核。对于发现的风险，需要生成相应的安全语料对模型进行训练，引导模型学习针对风险Query的正确态度和立场。安全语料的制作也需要借助生成式模型，可分为3个步骤：

步骤1:风险Query的获取。根据评测中发现的风险，借助生成式模型做知识引导的语料生成，获得一系列风险query。
步骤2:安全Response的获取。可以有两种方式：针对风险Query，借助生成式模型或者人工获取多个Response。然后使用评价模型对多个Response进行排序，排名靠前的Response进行人工审核、改写，得到最佳Response。
步骤3:安全Response的多样性生成。对于步骤2中得到的最佳Response，借助技术手段做可控生成，提供安全语料的多样性。

4.3.3 基于人类偏好的强化学习阶段：

强化学习的关键是评价模型的质量。评价模型一旦生效，生成式模型无法反抗，只能按照评价模型的指导持续调整自身的行为。为了尽可能保障评价模型的正确性、降低偏见，对生成内容排序的标注人员需要进行培训，并且安排具有不同背景、不同来源的标注人员进行操作，尽可能提升排序结果的公平性。

| 4.4 应用层安全机制

应用层安全机制需要考虑算法服务全过程可能的风险，以及满足对AIGC内容安全的特殊要求。安全机制可以直接搭载在生成式模型上作为插件，也可以是在产品层面接入。

4.4.1 应用层安全机制整体设计

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

对特定问题做标准回答

对于必须正面做出得体回答的问题，预置标准答案。当用户Query提出此类问题时，在标准答案库中进行检索匹配，如果命中，则系统直接返回预置的标准答案。

这一技术手段，也可以用于对线上服务阶段出现的风险进行应急处置，快速生效，避免继续生成风险内容。

对Query进行风险识别

需要对用户Query判断是否存在个人信息、内容安全、模型安全等风险，以及是否存在恶意、是否涉及特定领域等。针对识别到风险的Query，提供安全答复，并对用户进行提醒。

基于知识库的检索增强

生成式模型基于概率做内容输出，并不能保证对事实性问题作出准确的回答，出现“知识幻觉”；尤其是针对模型训练时间点之后的事件。一种缓解的方式是：针对用户Query，利用搜索引擎获取可信度高的结果同时输入到模型，引导模型做出符合事实的内容生成。

对Response做安全过滤

即便采取了以上措施，由于模型的不可控性，Response中仍然可能含有个人信息、内容安全、模型安全等风险，需要在输出之前再执行一次安全过滤，识别到风险内容则及时进行拦截。

4.5 生成信息的信任机制

模型的生成效果越来越逼真，对于AIGC和人类产生的内容，在实践中技术手段很难准确分辨，即便经过训练的人也无法在缺少辅助信息的前提下执行审核任务。模型生成的内容，其产生的影响或者风险有时并不取决于内容本身，还需要考虑使用方式和传播情况。

因此，需要使用技术手段，构建生成信息的信任机制，具体的做法包括但不限于：在可能造成误解的场景下，对AIGC予以明确说明；有条件的情况下对于生成的内容提供依据，比如附上相关的真实链接；对于图像、视频等生成内容嵌入鲁棒性的隐藏水印，在传播过程中做到可辨识可溯源。

🌟实践案例：评估大模型安全性和责任感的中文评测集——CValues

相比其他内容生产方式，AIGC的内容生产更加高效，更加不可控，并且有可能生成不安全以及不负责任的内容。所以针对大模型的安全评估和安全治理是一项重要的工作。

当前，用于衡量大模型通用能力的数据集非常丰富，而用于安全评估的数据集却非常匮乏。近期，阿里巴巴大模型团队和安全团队联合发起了一个开源大模型治理项目——「给AI的100瓶毒药」，并推出了一个用于评估大模型安全性(Safety)和责任感(Responsibility)的中文评测集–CValues，旨在以人类价值观为基准，评估中文语言模型在处理真实世界情境中的问题和挑战时的表现，帮助我们了解模型的能力和局限性。

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

CValues评测集由不同领域的专家人工构造，涵盖了10个安全领域(从风险分类角度进行划分，例如违法犯罪、敏感话题、身心健康、伦理道德等)和8个专业领域(从专家研究角度进行划分，例如儿童教育、法理问题、亲密关系、心理学问题等)，并依托“给AI的100瓶毒药”项目邀请了各专业领域的专家学者提供涉及人类社会价值观的诱导提示，以确保提示信息的多样性和专业性。

在评估阶段，对模型生成的结果同时进行了人工评估和机器评估，以客观公正地展现中文语言模型的相关能力。评测结果显示大多数中文语言模型在安全方面表现良好，但在责任方面仍有很大的改进空间。此外，阿里巴巴也探索了如何提升模型的安全性和负责任能力，使其与人类价值观对齐，例如通过邀请多个领域资深专家提出了各领域不同的原则和规范，并采用基于专家原则的训练方法来协助模型实现价值对齐。

🌟实践案例：知识计算强化违法不良信息防控能力

生成式人工智能给内容安全保障带来巨大的困难；不可控、幻觉等本质缺陷，都对内容安全工作提出了新的挑战，对认知智能技术有着更高的依赖和要求，主要包括以下三方面的挑战：强对抗、强动态、强时效。

（1）强对抗挑战体现在黑灰产会利用各种表达方式绕开检测，包括隐喻攻击、制造新梗、黑话暗语等。黑灰产还可能利用大模型进行对抗，更加隐蔽和难以防控。

（2）强动态挑战体现在随着新事件和话题的层出不穷，已有的数据标签也会随之发生变化，数据驱动的神经模型需要重新训练。

（3）强时效挑战体现在政策法规和监管指令频繁下发，要求具备对新风险的识别能力，同时快速应急“止血”。

在应对上述三个挑战时，纯数据驱动的神经网络模型已经难以胜任，需要依托于专业的领域知识进行准确的风险判定。因此，将数据驱动的神经方法与知识符号推理进行结合是未来深度学习需要着重考虑的研究方向，神经符号主义希望能让神经网络结合符号化的知识体系, 同时不失去神经网络的灵活性。

目前，产业界在内容风控场景中将神经网络模型和人工规则及知识图谱进行整合，提出了基于知识计算的风险防控模式：采用人机协同的方式定义计算框架，主要涉及到数据层、知识层、算子层三个层面的能力。

数据层汇聚了涉及内容风险的原始数据，以及针对不同风险领域精炼加工的结构化数据；
知识层包含预训练模型和知识图谱，预训练模型用于实现对通用数据的归纳，可以作为算子开发的基础模型，知识图谱实现对风控专业知识的组织与沉淀，解决知识碎片化、数据获取难的问题；
算子层拆解出目标更明确的简单任务，构建端到端的神经算子，实现风险复杂判定逻辑的简化解耦。最终，基于知识计算的防控模式利用业务人员设计的风控DSL，执行元知识的注入，进行神经符号推理，从而实现人机协同的风险防控。

🌟实践案例：双重保护增强AIGC的保护和溯源能力

近年来，图像大模型在图像生成方面取得显著进步，已经可以合成以假乱真的伪造人脸图像，在影视工业、广告设计、数字媒体等行业中创造了新的价值。然而科技的进步往往是一把双刃剑，也可能被恶意使用于抹黑公众人物、干扰政治选举等，造成伦理道德与隐私安全方面的负面影响。

现有的研究工作提出了被动保护和主动保护两类方法来保护人脸图像免受恶意篡改(如图所示)。被动保护方法旨在检测人脸图像是否是深度模型合成的伪造图像，这种方法可以检测出被恶意篡改后的图像，但无法提前防止恶意篡改的发生。主动保护方法将普通的对抗扰动注入到图像中，以破坏人脸编辑系统的输出，可以预先防止图像被恶意篡改，但是无法检测图像是否伪造。

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

为了解决现有方法的局限性，阿里巴巴提出了一种基于注入索引信息的对抗样本的人脸图像保护方法，提供主动和被动的双重保护。一方面，该方法作为一种主动保护方法，通过破坏人脸编辑模型的性能来防止人脸图像被恶意篡改。另一方面，受保护图像中包含的信息可以作为对图像溯源的索引，有助于实现伪造图像检测等被动保护方法。这种方法可以在更广泛的方面为隐私保护、版权保护、信息安全等问题提供启发。

具体地，我们首先为待保护的人脸图像分配唯一的索引，并使用图像和其对应的索引构建人脸图像数据库。这条索引信息也称为图像的身份信息，用于对图像数据的溯源。同时，受保护的人脸图像是一种对抗样本，可以破坏人脸编辑模型的输出，使破坏者很难使用人脸编辑模型针对受保护的图像进行编辑并产生逼真的伪造图像。如图所示，当破坏者试图将受保护的少女照片编辑为老妇人，或者戴上眼镜时，人脸编辑模型的输出会发生明显失真。这种主动保护图像的方式，能够预先防止图像受到恶意篡改。

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

| 5.1 鲁棒性

生成式人工智能模型因其输出空间的自由度更高，可靠性问题更加突出，需要关注在训练和部署过程中潜在的安全风险和漏洞。

鲁棒性，即模型对于输入中的扰动、对抗性样本或恶意攻击是否具有足够的抵抗力。这涉及到对模型进行对抗性攻击的测试，以发现并改进模型对抗攻击的弱点。
泛化性，除了在对抗性这种恶意攻击外，生成式人工智能模型在跨域数据、或者是在分布外样本上可能给出不准确、误导性或有害的回答。这方面可以在模型训练阶段引入正则项，避免过拟合到训练数据，从而提升在分布外样本上的性能。

| 5.2 可解释性

生成式人工智能模型由于其复杂的网络结构和超大规模的模型参数和训练数据，使得理解模型内部的决策过程和判断依据变得异常困难，同时也给模型的应用带来了一定的风险和不确定性，尤其是在涉及敏感信息、决策推理等领域。

为了提高生成式人工智能模型的可解释性，比较常见的方法是对模型进行解释或提取关键信息的技术，例如通过可视化模型的内部结构、中间层的表示、梯度等信息来理解模型的工作原理。另一种方法是引入约束和规则来指导模型的生成过程，以增加可解释性。此外，还有一些工作致力于提出评估指标和方法来衡量可解释性。

| 5.3 公平性

在生成式人工智能模型中，由于其训练数据通常是从互联网上采集，其中可能存在种族、性别、职业等不平衡的问题。

为了解决公平性问题，一种方法是通过对训练数据集进行仔细的审查和筛选，以避免不公平的内容进入模型的学习过程中。另外也可以在训练过程中引入公平性约束，例如通过调整损失函数或设计公平性指标来确保生成的回复不带有任何形式的歧视或偏见。

| 5.4 防滥用机制

生成式人工智能模型因为其强大的生成能力，如果被恶意使用会带来非常严重的后果。例如，生成恶意代码、欺诈短信，伪造人脸等。开发人员需要致力于研究如何检测这些风险，研发对生成内容进行溯源的技术，并提出对模型使用进行限制和约束的方法。

生成式人工智能模型的部署和使用需要遵守伦理和法律准则。服务提供者对模型使用过程中的合规性和合法性进行评估和监测，以确保模型的不被恶意使用。

| 5.5 实践案例：鲁棒评估基准与增强框架

生成式人工智能模型同样存在深度学习模型固有的鲁棒性问题。在深度学习模型安全性方面，阿里巴巴开展了一系列的研究和探索，主要包含安全评估——模型鲁棒性评估平台，安全加固——模型的鲁棒增强框架，行业赋能——标准推动新技术的安全性保证。

5.5.1 安全评估——模型鲁棒性评估基准（ARES）

模型鲁棒性评估基准（ARES）由阿里巴巴和清华大学合作共同发起，是针对模型在图像分类场景的各项鲁棒性测试。ARES包含三个方面：自然条件分布内的测试场景，自然条件分布外的测试场景以及对抗条件下的测试场景。ARES在每种测试中采用了丰富且全面的数据集，涉及人工采集数据，数字图像模拟仿真数据和白盒/黑盒迁移对抗攻击扰动后的对抗样本等，用以准确地反映模型面临各种威胁下的安全性并给出综合评估指标。

ARES同时提供了55种具有不同网络结构和训练方式的典型深度学习模型在ImageNet图像分类任务上的各项鲁棒性基准结果。ARES中对比的模型结构包括传统的卷积神经网络模型、视觉Transformer等，对比的训练方式包括传统监督训练、大规模预训练、自监督训练、对抗训练等。

在自然条件下，通过ImageNet-21k等大规模数据预训练的视觉Transformer模型具备最佳的分布偏移下鲁棒性，同时可泛化到更多的未知测试数据域。然而该类模型无法成功防御人为制造的对抗样本攻击，在对抗攻击算法AutoAttack下识别准确率降低至0%。

在对抗条件下，对抗训练作为一种经典的对抗防御鲁棒训练方法，可显著提升在受到人为对抗样本攻击时的鲁棒性。ARES的基准评估也印证了模型的自然分布泛化性和对抗鲁棒性之间存在固有的权衡，两者此消彼长。

ARES鲁棒性评估基准的建立为学术界和工业界提供了完善且便捷的鲁棒性一站式测试平台，同时也有助于推动鲁棒学习算法的技术研究，构建安全可靠的人工智能服务。

5.5.2. 安全加固——模型的鲁棒增强框架

阿里巴巴自研的鲁棒训练框架EasyRobust用于构建鲁棒的视觉分类模型，提升在实际复杂场景下的可靠性，从多个维度服务于研究者和算法工程师：

（1）全面的鲁棒性基准套件。支持多个被学界认可的鲁棒性标准测试集以及攻击算法供用户调用以评估算法效果；

（2）领先的鲁棒算法效果。支持27个鲁棒训练算法，20个以上开源鲁棒模型，最强对抗鲁棒模型Swin-B在AutoAttack下可维持47.42%识别准确率；

（3）用于模型解释的可视化分析工具。提供类激活图注意力机制，分类决策边界，模型卷积核等可视化工具。

EasyRobust囊括了基于数据增强，训练策略，模型架构设计，优化算法，模型功能层设计等的27种鲁棒性增强方法，致力于提升在对抗攻击和分布外偏移两种困难场景下的可靠性。对大部分方法，EasyRobust提供了在标准数据集ImageNet上的预训练权重，对比同类开源工具展现出具有竞争力的结果。在对抗鲁棒性上，通过标准对抗训练产生的Swin-B模型在干净测试集和AutoAttack攻击下分别取得75.05%和47.42%的识别准确率，具备较强对抗鲁棒性的同时甚至在标准ImageNet测试集上已接近传统卷积模型ResNet50的性能。另外，在分布偏移数据测试中，由阿里巴巴自研的离散对抗训练方法DAT在图像损坏模拟仿真数据集ImageNet-C上取得31.4%的平均错误率，在风格迁移模拟仿真数据集Stylized-ImageNet上取得32.77%的识别准确率，均显著优于现存同类方法。

EasyRobust提供了丰富的模型可视化分析工具，进一步解释鲁棒训练技术带来的优化。通过卷积核，注意力图和决策边界三项分析手段，可知鲁棒模型对比正常模型具备更优的特征，例如更关注与类别强相关的判别性区域，样本点远离分类决策边界驱使结果更稳定等。

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

至今，深度模型仍远未达到人类视觉感知的鲁棒性，EasyRobust为此作出了持续的努力，例如将模型接口公开至ModelScope推进社区建设；将鲁棒性基准和增强方法扩展至目标检测、分割等更多视觉任务；不断开发更多的鲁棒性方案等。希望这些努力为缩小机器视觉和人类视觉之间的感知差距，构建真正稳健的算法服务起到推动作用。

近期，EasyRobust开源项目”EasyRobust: A Comprehensive and Easy-to-use Toolkit for Robust and Generalized Vision” 荣获IEEE开源科学奖（IEEE Open Source Award），是国内仅有的两个获奖项目之一。

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

知识产权制度的诞生与演进的主线是保护人类智力成果、保护市场竞争公平性与激发人类创造力。因此，在生成式人工智能全生命周期的治理与实践中，知识产权问题也不宜片面化，既要保护作为训练数据的现有人类智力成果，也需注意创新公平和创造力延续。

在生成式人工智能技术飞速发展的当下，我们围绕训练数据和生成物两方面，对符合生成式人工智能发展需求的知识产权制度进行积极探讨，而非过早对知识产权治理的方式方法进行定论。我们认为要顺应生成式人工智能技术发展路径，对相关机制持续讨论、动态更新，在不限制技术创新发展的同时，凝聚更多共识，构建符合生成式人工智能内容创作、传播和利用的权益保护和惠益分享体系。

| 6.1 训练数据的知识产权合法性治理探索

如前所述，训练数据的知识产权内容来源的合法性及侵权是生成式人工智能治理中需要解决的重要问题。在治理中需要重点关注如何合法获得知识产权内容用于训练和提供生成式服务。训练数据中爬取数据的比例较大，需要注意爬取还涉及竞争相关法律问题，通常以是否违反Robots协议和竞争秩序为审查要点。

减少生成式人工智能造成知识产权侵权的关键节点是训练数据集形成前。常见方案如:

（1）从真实权利人处购买具有知识产权权利的数据库；

（2）使用有合法授权的开源数据集；

（3）避免跨越技术措施的爬取。

在未来，随着生成式人工智能产品和服务的广泛使用，用户输入知识产权内容的问题亟待各方思考和解决。由于生成式人工智能致力于类人化解决问题，而非展示被动接收内容，互联网平台经济时代以用户协议要求用户对输入平台信息的知识产权负责的做法，在生成式人工智能中将逐渐被摒弃，否则难以为生成式人工智能的用户提供应有的服务——用户上传知识产权内容以期获得一个优化或者特定意向修改的生成物是非常普遍的。英国、日本等已经意识到现有著作权保护制度与大模型训练对知识内容需求存在紧张关系，也在通过扩大合理使用范围、创制科研例外等手段为大模型合法使用受著作权保护作品创设制度可能。

| 6.2 生成物知识产权治理探索

人工智能生成物表现形式包括文本、图片、声音、视频、代码等，这些形式并不构成知识产权保护的阻碍。对生成式人工智能生成物的治理，需要探讨和解决的关键问题包括生成物是否构成法律意义上受保护的知识产权客体，以及如何合法合规使用生成物，为人工智能权利主体资格问题找到一个判断法则或界限。

生成式人工智能本身是否能够成为知识产权权利主体，仍是一个暂无定论的开放问题，但在著作权领域的人工智能生成物独创性已经被各界逐渐认可。知识产权客体适格问题的难点在于人工智能中有多少是人工智能自身的或者产品和服务提供者的“智慧”成果。

客观地讲，无论训练数据中包含多少他人在先的智力成果，生成物的产生离不开人类对算法的设计与控制，产品和服务提供者的智力投入是不可否认的，仅保护算法不保护生成物会造成生成物使用的无权属状态。近期，美国针对包含人工智能生成材料的作品出台了版权登记指南，有利于权属明晰，鼓励开发者提供更高阶的生成式人工智能产品和服务，为人工智能生成物合法合规使用奠定了权利基础。不过，确认生成物的知识产权也会造成其他问题，典型的，用户通常也对生成物提供了智力贡献，生成物的权利人究竟是用户还是服务的提供者？生成物如果产生了商业使用收益，是否需要向上游权利人分配收益以及如何向上游权利人分配收益？

人工智能生成物的合法合规使用，尤其依赖于生成物及其上游内容的权属清晰程度，而溯源技术手段的不断成熟与完善对相关治理有重要促进作用。受益于互联网平台时代知识产权保护技术的开发和使用，为生成物添加人工智能生成明暗水印的做法已经相对成熟，同时，对于创意较高、商业预期价值高的人工智能生成物，版权电子登记、可信时间戳及其他区块链相关技术的使用也可以推广。

从发展的视角来看，人工智能生成内容逐渐逼近人类创造水平，内容生成方式从人类中心、机器辅助的主次模式走向了人类指导、机器创作的合作模式，人工智能的发展极大拓展了人类创造能力的边界，也冲击着只保护人类创作的传统著作权制度的合法性基础。而另一方面，人工智能生成内容又作为合成数据被进一步应用于更高级别、更为智能的人工智能模型训练之中，实现了从机器到机器的自我演化过程，此类中间形态的内容如果受到过度保护，可能抑制了大模型技术的研发和应用。因此，应在不限制技术创新发展的同时，凝聚更多共识，革新旧有的著作权制度，使其更符合生成式人工智能内容创作、传播和利用的权益保护和惠益分享体系。

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

| 7.1 虚拟模特塔玑促进生产力提升

电商平台上，服饰类商品的模特图对商品销售至关重要，但拍摄成本较高。阿里巴巴尝试通过生成式人工智能去合成模特图，为中小商家提供一个正向赋能的工具。

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

阿里巴巴设计了一套基于生成式人工智能的解决方案，可以生成世界上独一无二并不真实存在的模特。用户可以指定模特具有任意的肤色和年龄，并选择多样化的姿态。

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

除此之外，塔玑还有一个重要的功能是童模生成。目前，这些虚拟童模已经被一些主流品牌的旗舰店使用。

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

| 7.2 数据驱动下的虚拟模特与个人信息保护

塔玑与北京服装学院服饰数字化团队合作，通过大规模动作捕捉设备采集了经授权的高质量真人模特动作数据，并对基础数据做了丰富度提升，以适应成人模特、儿童模特、外籍模特、室内、街景等不同应用场景。采集和组织数据方式考虑了合法性、安全性和可持续性，为产品研发提供有力的数据支持。

| 7.3 内容安全保障

塔玑采用了一系列内容安全算法能力来对违法不良信息进行识别和拦截，既包括长久以来沉淀的传统视觉安全算法，如色情图片、敏感logo图案等检测能力；也包括针对AIGC大模型带来的新兴风险的检测技术，如盗图侵权风险，生成畸形样本的风险等。检测到风险内容时，塔玑会立即采取相应措施予以处置，并结合数字水印技术做好生成前-生成中-生成后的多层次的防控。同时定期优化和升级检测模型，从而保障生成内容的安全性。

| 7.4 模型安全控制

塔玑算法采用数据均衡和公平性约束策略，避免种族、性别、年龄等方面的歧视，保证算法的公平性。数据均衡策略确保每个群体的影响程度相同；公平性约束将其融入到损失函数中，让算法更注重公平性。这是一种技术手段，也是一种价值观念，为推动社会公平贡献力量。

| 7.5 生成式标识与知识产权保护

为了保护使用者的权益和内容的知识产权，阿里巴巴采取了三种方式来加强保障。

第一种方式是明水印。塔玑在每一张图片上都添加了明水印，明确告知使用者此图片为人工智能生成。

第二种方式是暗水印。塔玑在不影响用户使用的前提下，将暗水印嵌入到图片中。暗水印肉眼不可见，只有通过特定的检测模型才能识别，实现了对图片的传播溯源，增强对图片的版权保护。

第三种方式是阿里巴巴原创保护平台。塔玑在平台内采取了一系列措施，例如内容审核、版权监测等算法策略，及时发现盗版图片，并将其召回。这样可以保护使用者的权益，维护整个平台的良性发展环境。

🌟 下期预告

第五章：生成式人工智能多主体协同敏捷治理体系

AAIG一直坚持长期主义，每年出品一本人工智能治理系列白皮书。我们会不断更新、精进，以确保白皮书能够紧跟时代发展的步伐，为读者提供更加专业、全面的治理建议。

点击阅读👉2022年《人工智能治理与可持续发展实践白皮书》

回复关键字【白皮书】一键下载电子版全文

📺直播预告

11月30日（下周四）19:00！

第33期《追AI的人》邀请中山大学网络空间安全学院院长操晓春教授，分享《“病态的”的计算机视觉算法》

敬请期待💗

📌往期推荐

📖2023生成式人工智能治理系列丛书

生成式人工智能的发展以及担忧｜生成式人工智能的治理愿景和框架 ...👉点击查收全文链接🌟2022人工智能治理系列丛书 精华大图集锦版 | 如何维护电商平台信息真实和竞争公平…👉点击查收白皮书全书连载
🔥《追AI的人》系列直播教你掌握互联网的“流量密码” | 如何避免ChatGPT被滥用…👉点击查收过往32期直播的全部文字回放
🎈《算法治理制度》系列丛书内容和电商领域推荐算法的应用与治理差异｜“大数据杀熟” 的背后…👉点击阅读更多算法治理干货
📺 AI治理科普短视频流量为王的时代,教你如何“破圈”创作 | 3分钟Get多模态是什么｜为什么生成式AI更容易取代白领员工,对体力工作者的影响却微乎其微…👉点击观看往期22期精彩视频

👇AAIG课代表，获取最新动态就找她

关注公众号发现更多干货❤️

有启发点在看喔👇

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

连载｜第四章: 生成式人工智能风险治理实践和探索《生成式人工智能治理与实践白皮书》

2.1.1 训练数据的筛选和过滤

| 2.2 服务上线阶段的风险治理

| 2.3 内容生成阶段的风险治理

| 2.4 内容传播阶段的风险治理

| 3.1 大模型与个人信息的关系

| 3.2 训练数据中的个人信息

| 3.3 算法服务时拒绝生成个人信息

| 4.1 内容安全视角里,AIGC与UGC的异同

| 4.2 生成式模型风险评测

| 4.3 模型层内生安全

| 4.4 应用层安全机制

4.5 生成信息的信任机制

| 5.1 鲁棒性

| 5.2 可解释性

| 5.3 公平性

| 5.4 防滥用机制

| 5.5 实践案例：鲁棒评估基准与增强框架

5.5.1 安全评估——模型鲁棒性评估基准（ARES）

5.5.2. 安全加固——模型的鲁棒增强框架

| 6.1 训练数据的知识产权合法性治理探索

| 6.2 生成物知识产权治理探索

| 7.1 虚拟模特塔玑促进生产力提升

| 7.2 数据驱动下的虚拟模特与个人信息保护

| 7.3 内容安全保障

| 7.4 模型安全控制

| 7.5 生成式标识与知识产权保护

关注公众号发现更多干货❤️

超越DeepSeek-R1，数学形式化准确率飙升至84% | 字节&南大开源

开源Qwen一周连刷三冠，暴击闭源模型！基础模型推理编程均SOTA

这个5亿播放的AI视频，邪乎得平平无奇

TRAE推出SOLO模式，业内首个「Context Engineer」来了

B站亮相2025世界人工智能大会，发布最受年轻人关注的TOP30 AI应用

刘强东连投3家具身智能！京东美团「战火」烧到外卖之外

3亿美元薪酬被10人拒绝！OpenAI首席研究官一句话引发硅谷史上最疯狂抢人大战

蚂蚁ACL活动全览！论文串讲、人才专项答疑与闭门晚宴等你报名

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

IMO怒斥OpenAI自封夺金，“91位评委均未参与评分”