直播回顾
《追AI的人》系列直播第32期邀请了中国科学技术大学张卫明教授分享《人工智能背景下的数字水印》。
以下为直播的文字回放,共计17570字。
📺《追AI的人》往期直播视频回放观看👉B站关注:AAIG课代表
直播简介回顾:AI的数字水印革命:知识产权的未来在哪里?中科大张卫明教授做客《追AI的人》第32期,解读AI背景下的数字水印!
张 卫 明
张卫明,中国科学技术大学 教授、博导,网络空间安全学院副院长。主要研究兴趣包括信息隐藏和人工智能安全。主持基础加强重点项目、国家自然科学基金重点、国家重点研发课题、国家863等项目20余项。获得军队科技进步一等奖、安徽省自然科学奖一等奖、安徽省教学成果特等奖、ACM SIGSOFT杰出论文奖。
分享大纲
🎈水印的历史、分类与应用🎈基于深度学习模型的水印🎈保护深度学习模型的水印🎈大语言模型鉴别溯源水印
今天的课程安排是介绍数字水印,数字水印是多媒体安全中一个经典的分支。经历了多年的研究,随着人工智能的发展,水印技术的能力、应用、内涵和外延都发生了很大的变化。
水印是我们实验室坚持了20多年的研究方向,我邀请了团队中两位年轻老师方涵和马泽华,以及两位博士杨曦和刘畅一起整理了这方面的研究成果。这次汇报大概分为四个环节。
第一个环节将介绍水印的历史、分类以及应用,梳理水印的基本概念。第二部分将讲述深度学习对水印技术的赋能,以及水印技术在能力方面的变化。第三部分将探讨深度学习模型作为重要的数字资产,其版权保护需要水印技术。最后一部分将讨论近期非常火爆的生成式人工智能对水印技术带来的新需求。
首先,我们先来看看水印的历史分类。数字水印是信息隐藏的一个重要分支,它将信息嵌入载体数据中,用于隐蔽通信、版权保护、溯源和完整性认证等方面的技术。信息隐藏有多个分支,其中主要的有数字隐写、鲁棒水印和可逆水印。数字隐写主要用于隐蔽通信,追求隐蔽性;鲁棒水印主要用于版权保护和溯源,需要具备鲁棒性;可逆水印具有可逆性,用于完整性认证。
在一些研究中,很多人将这些概念混用,我们需要将其进行清晰区分。所以先来讨论这些概念的差别。隐写术是信息隐藏中最古老的一个分支,这个概念最早出现在15世纪的一本书中,被称为”Steganography”,意为隐秘书写。此技术在历史上的政治和军事斗争中经常被使用。
例如,在古希腊时期,会让奴隶剃光头,在头皮上写下信息,等他的头发重新长出来时,然后再让奴隶传递。这是一种隐蔽的传输方式。另外,在著名的温泉关大战中,将信息写在木板上,再用蜡覆盖隐藏信息。这也是用于隐蔽通信的,因此属于隐写。
水印的概念起源也比较早。最早是用于追溯纸张和文字作品的真实性,起源于13世纪。我们最熟悉的就是在一些文件中使用的水印,特别是像钱币上的水印。这是水印最原始的概念。
实际上,数字水印的应用也比较早。在上世纪80年代,撒切尔夫人内阁为了追溯文件的泄密来源,使用了文字间距来表达信息,用于追溯。这是数字水印的早期应用之一。
数字水印的广泛应用源于本世纪初的数字时代的到来。数字媒体的应用数数量迅速增长,数字媒体版权保护的迫切需求,刺激了数字水印技术的发展。
什么是可逆水印?我们之前讲过的水印,比如嵌入到图像中的水印,在嵌入水印的过程中,会对载体进行破坏,尽管这种破坏对人眼来说不可察觉,但它是不可逆转的。
在一些特殊应用中,比如医学影像,对于微小的修改也是不能容忍的,因此提出了可逆水印的概念。可逆水印不仅可以提取水印,还能无损地重建载体。可逆水印可以用于特殊场景,尤其是用于完整性认证,比如检验图像是否被篡改,可以使用可逆水印的信息进行验证。当然,如果图像没有被篡改,由于可逆性,可以将其重构回来,所以不会因为水印嵌入破坏图像。
水印有许多拓展应用。例如,大数据时代产生了隐私忧虑,很多人看过舍恩伯格写的《大数据时代》,但他还写个另外一本书《删除》,他意识到大数据时代人类的隐私很难保障,原因是人类丧失了几十万年来拥有的一个能力,遗忘的能力,可以借助删除帮助人类找回遗忘的感觉。删除思想可以产生一些很好的商业应用,比如阅后即焚。阅后即焚曾被选为MIT的十大科技进展之一。
然而,我们对于阅后即焚通过删除是否能真正保护隐私也产生了一些思考。事实上,我们在后面看到一些新闻报道,提到在某些情况下,尽管照片被删除,但实际上仍然存在于服务器中。当服务器被入侵后,会导致更严重的隐私泄露。因此,仅仅依靠删除可能很难保护隐私。
欧洲人的做法是通过立法强制遗忘。著名的《一般数据保护条例》就涵盖了一个引人关注的第十七条——被遗忘权。
如果企业没有删除个人数据,由于法律的保护,可以通过法律诉讼来处罚它们。但是这里面有一个问题,即如何获取证据来让法律发挥作用。实际上,在这种场景下获取证据可能也是困难的。
举个例子,当我们将照片分享到云端时,如果我们决定删除这张照片,可以要求云端服务商删除它。如果云端服务商没有真正删除照片,可以通过法律途径解决这个问题。
但是,还存在另一个问题,就是用户本身可能不是诚信的,他可能仍然拥有这张照片,将其分享到互联网上,并以此来敲诈服务商,声称云服务商泄露了隐私。
因此,在这种情况下,可以尝试使用水印作为一种解决方案。我们提出一种水印协议,其中包括发布水印和取回水印的协议。在发布水印的协议中,我们使用云端的公钥来进行嵌入,然后只有云端的私钥才能解密出带有水印的图片。这张含水印的照片只能由云端拥有,因此在流出后,云端无法否认其存在。
在取回时,我们通过一个反向过程,使用户手上的照片在流出时也无法否认。
通过这个例子,可以得出一个观点,即在互联网上建立信任是困难的。因此,未来我们需要将信任建立在算法和代码之上,这就是所谓的代码即律法。另一个观点是,很多网络安全问题上仅仅依靠算法是难以解决的,我们常常需要依靠法律法规的支持。但是一旦法律法规出台,安全技术的目标就转变为研究如何使法律可执行。
因此,许多安全问题转化为取证和溯源问题,这就是为什么水印可以发挥作用的原因。水印在许多情况下可以用于主动取证和溯源。随着时代的发展和应用场景的变化,水印能够延伸出广泛的应用。在这个例子中,我们借助难删除性来解决确认删除的问题,难删除性恰恰是指鲁棒性。这是水印发挥作用的底层逻辑,水印能否发挥作用取决于其具备足够的鲁棒性。
然而,实现水印的鲁棒性存在困难。这是因为水印技术追求几个特性。首先是透明性,即不能破坏载体(如图像)的质量。例如,在嵌水印时,要确保图像仍具有足够的视觉质量。其次,水印需要具备足够的容量,以编码足够多的信息,以表达精细的溯源信息。然而,这三个指标相互制约。我们不能单纯追求某一个指标,这就是实现鲁棒性的困境。
如何确保水印的鲁棒性?以图像水印为例。图像水印需要经受各种处理,例如压缩、旋转、剪切甚至加噪声等。水印需要能够承受这些操作,保持可提取。传统的水印方法通常是通过人工选择一些具有鲁棒性的区域或特征,在这些区域上表达水印信息。
水印信息可能是某种模式,可以通过空域或频率来表达。传统的水印技术需要依靠人的智慧设计和手工实现。然而,在很长一段时间内,这种方式实现的鲁棒性存在许多局限性,无法满足企业和用户的需求。
在许多场景下,我们需要的鲁棒性很难实现。这就引出了我们今天的主题,即人工智能的发展,尤其是深度学习的发展,为水印技术带来了巨大的变化,使我们能够实现以前很难达到的水印鲁棒性。
在这个领域中,最重要的是2018年的一篇论文,提出了深度学习水印框架。这个框架包含三个关键环节,即Encoder、Decoder和噪声层,因此被称为END框架。这是深度学习用于水印的经典框架。
Encoder用于深度学习如何嵌入水印,并确保嵌入前后图像的质量和透明性保持。Decoder用于保证水印信息可以被提取出来。那么如何保证鲁棒性呢?在水印设计中,我们常常面临各种噪声。
为了对抗这些噪声,可以使用噪声层来表达并纳入深度学习过程中。通过在对抗过程中抵抗噪声,希望水印能够更好地抵御干扰。这是一个经典的深度学习框架,在接下来的几年里,人们在这个框架下不断改进和探索,特别是针对不同应用场景下研究不同噪声层。
透明性和鲁棒性是在这个框架中相互制约的两个关键因素。在研究和设计噪声层时,鲁棒性是最核心的问题。
在最初的论文中,研究者着重研究了一种抵抗JPEG压缩的图像水印方法,称为HiDDeN。其中一个重要的点是,JPEG压缩噪声是不可导的。为了将噪声层和Encoder、Decoder纳入一个统一的优化和训练过程中,要求这个环节是可导的。但是有些噪声是不可导的,如果噪声是可导的,就容易设计噪声。
例如,JPEG是一个经典的数字处理操作,我们希望能够抵抗它,但它并不可导。这篇文章的一个亮点是通过模拟可导的JPEG压缩过程并将其纳入噪声层中,从而使其能够进行端到端的训练,同时优化水印的透明性和鲁棒性。
HiDDeN算法的创新在于将传统的JPEG压缩过程模拟成可导的过程。然而,这个创新点也带来了一定的局限性,因为模拟的JPEG压缩过程与真实的JPEG压缩过程存在一定差异。关键问题是如何将真实的JPEG压缩时间纳入训练过程。
为了解决这个问题,我们提出了一种方法,称为MBRS,它可以小批量地将真实噪声和模拟噪声同时纳入训练框架过程中。MB代表小批量,R代表真实噪声,F代表模拟噪声。
我们的思路是:在每个训练过程的小batch中,我们随机选择三种失真方式,包括无失真、真实的压缩和模拟的压缩。每次随机选择一种失真方式。真实JPEG虽然不可回传梯度,但另两种可导过程却能保证正确的梯度回传方向,并在一定程度上影响和指导整个训练过程。
我们进行了对比实验,并与典型的方法进行了比较。结果表明,使用mini-batch的训练策略能有效地提升算法对于JPEG压缩的鲁棒性,在保持最高PSNR值的前提下,实现了最低提取错误率。同时,对于其他失真也可以得到了最好的结果。
另一方面,透明性对于影响水印的关键在于什么?关键在保持鲁棒性的前提下,尽可能少地进行修改来表达水印信号。换句话说,我们希望嵌入器仅嵌入解码器所需的信号。
然而,在之前的框架中,嵌入器和提取器之间的信号并不是直接交互的,这意味着我们嵌入的内容可能会有一些冗余的修改,从而破坏了透明性。换句话说,由于嵌入器和提取器之间无法很好地耦合,我们的思考方向之一就是如何让嵌入器和提取器更好地耦合在一起,以实现最优的嵌入。
为此,我们提出了一种新的架构,在END架构基础上,在Encoder前面增加了一个Decoder环节。这样,提取器可以在嵌入消息之前先提取出一些用于表达水印的隐藏特征。
然后,我们将这个水印信号与这些隐藏特征级联输入嵌入器,然后进行训练。这样,这两个环节可以共享权重,以更好地实现信号的传递,从而使二者之间达到良好的耦合。实验表明,De-END结构可以将透明性与鲁棒性耦合在一起。
然而,尽管我们在前端添加了一个提取器,嵌入器和提取器仍然使用不同的参数,它们的耦合并不完美。理论上来讲,这两个部分的参数和结构并不一致,这引发了我们的思考。在深度学习中,有一种网络结构叫做可逆网络,比如基于流的可逆网络,其中的许多单元是可逆的,前向和逆向的过程可以共享同一套参数。
我们想到了如果使用可逆网络,可以将其前向过程作为嵌入器,后向过程作为提取器,这样可以在理论上保证它们的完美耦合。实际实验表明,使用这种可逆网络确实可以实现更好的耦合。
然而,在处理噪声层时,我们处理的仍然是经典数字处理过程中的噪声。更具吸引人的进展是随着高分辨率屏幕、摄像头和3D打印机等媒体设备的发展,实体媒体和高质量数字副本之间会引发一些新的版权或信息溯源问题。随着智能手机的发展,手机已经成为我们身体的一部分,大家随手拍照已经变得很普遍。
这也带来了许多与拍照相关的新需求,对于数字水印的需求也随之增加,比如对屏幕拍照、打印的纸质照片以及3D打印等。在这个过程中,我们希望水印能够承受住这些拍照的过程。本质上,从针对数字处理的鲁棒性扩展到了针对物理过程鲁棒性的要求。
虽然在十几年前也有类似需求,但传统的水印技术并没有有效解决这些问题。因此,我们提出使用深度学习水印来提升解决这些问题的能力。
然而,根据我们刚才讲的深度学习水印框架,应对真实的物理失真带来了挑战。其中核心挑战是噪声层。我们希望将真实的物理失真过程纳入噪声层,但这些过程非常复杂,并且大多数不可导,并且很难建模,所以很难将其纳入训练过程,这是核心的挑战。
屏摄鲁棒水印
下面我们以手机拍照,尤其是拍摄屏幕这个例子来说明这个方向的发展。这些年出现了许多因为手机拍照的泄密事件,包括一些公司的技术设计图纸泄露以及一些国家机密的泄露,这些事情也被央视报道过。近年来,我们遇到了许多企业和部门提出的需求,希望对屏幕拍照进行可溯源的水印技术。
那么屏幕拍照水印的目的是什么呢?我们希望在屏幕上添加一些不可见的水印,当有人通过拍照流出这些照片后,我们可以提取水印信息,从而追溯照片的拍摄时间和屏幕来源,实现精准的责任定位。当然,更重要的是达到震慑作用。
实际上,许多企业的员工拍摄屏幕,并不是为了窃取机密信息,很多时候只是为了工作的方便。由于一些敏感电脑无法联网,员工需要分享通知和指南文件的信息给同事们,于是就会通过拍照的方式,并在群里共享,这可能会带来一些问题。这些年来,我们遇到了许多企业和部门对屏幕拍照进行溯源水印的需求。
造成这种情况的原因是我们缺乏相应的管控手段,因此出现了对屏摄溯源水印的需求。那么这个问题的难点在哪里呢?
以前我们讨论的水印是经过数字处理的,比如压缩、滤波、高噪声处理等等。但是在屏摄过程中,经过屏幕、摄像头、快门等多个步骤,还有各种后处理,包括手机内的再次压缩,这其中涉及到了复杂的跨媒介的物理过程,还有复杂的光照以及屏幕摩尔纹等等。
在这个过程中,物理失真是不可导的,如何将其纳入到之前提到的深度学习水印框架中是一个关键问题。这里有两个思路,一个是仔细分析主要的失真来源,并手动设计一些模拟失真的函数,使其可导。
然而,这种方法过于复杂。另一个直接的思路是利用深度学习的能力,通过训练一个模拟屏摄过程的神经网络来模拟物理失真过程。然后将这样一个模拟物理失真过程的神经网络放入噪声层中。这是一个直观且容易想到的方法。然而,这项工作并不容易。
例如,一个典型的方法是LFM,通过使用多种不同的屏幕和相机生成大量的屏摄图像,包括百万级的屏摄图像。
然后,使用这个数据集来训练一个模拟相机-显示器的转移函数。显然,这项工作需要进行大量的手工获取屏摄数据,虽然听起来可以解决问题,但也存在一个问题。
在实际应用中,会面临各种不同的屏幕和不同品牌手机的拍照,它们之间存在差异,并且手机技术在快速迭代中不断变化。手机后续处理也在快速变化。因此,使用之前数据训练的屏摄水印可能无法应对新型设备产生的新型失真。每次都需要生成大量的新数据。因此,我们思考一个问题,是否有可能引入小样本学习方法?
例如,对于单个设备对,使用尽可能少的样本,高质量的模拟屏摄失真,这样能极大程度的减少人力的消耗。同时,保证模拟网络的多样性,进而有效的提升水印对不同设备的适配性。
在这个方向上,我们提出了一种方法。注意到屏摄过程实际上不会很大程度上影响图像语义内容,因为新型拍照设备只会产生新的噪声特征。因此,我们提出了一种解耦网络,将噪声特征和内容特征分别解耦到中间转换层和编/解码器。通过使用很少的样本进行小样本学习,我们可以只更新转换层,从而实现对新型屏摄失真的模拟。
实验表明,使用这种结构确实可以实现这个目标。仅使用少量样本(大约20个样本),就能学习到新型设备的适应特征,以保证屏摄水印对不同类型设备的鲁棒性。
然而,在实际的推广应用过程中,仍然面临着一个很大的问题。之前的研究方法都是离线的,而且水印的嵌入过程非常复杂,需要花费较长时间来在一张图像上嵌入水印。
但是,我们注意到很多企业在工作场景中需要对屏幕上的各种内容实时加水印。因为员工在使用屏幕时会快速切换不同任务,比如观看视频、浏览网页、处理文件、发送电子邮件,甚至在编程环境下也会快速切换。我们希望在每一屏上都能打上不可见水印,而且不能因为加水印而导致屏幕卡顿或影响正常工作。
换句话说,我们对水印的嵌入要求实时性,实时性要求使得实现鲁棒性和大容量等方面的问题变得异常困难。原因是之前的算法通常有一个复杂的嵌入过程和一个相对简单的提取过程,我们称之为嵌入端驱动的水印框架。
然而,在屏摄水印的场景下,我们恰恰需要一个相反的框架,即可以有一个非常复杂的提取过程,但是需要一个轻量级的嵌入过程,我们称之为提取端驱动的水印算法。
为了解决这个问题,同时也为了解决之前提到的物理失真难以回传的问题,我们提出了一个新的框架,即仅训练提取器的水印方案。通过这个框架,我们可以利用真实物理过程生成大量含水印失真图像,仅训练提取器,梯度传导无需经过失真层,可有效地执行提取器的优化,保证鲁棒性。因此,可以使用人工设计的轻量级水印方案作为嵌入端。
例如,在嵌入端,我们提出了基于模板的算法,采用模板水印的方案来嵌入信息,即使用不同纹理结构的块表达不同比特消息;根据拍摄过程的失真分析和人眼的不可感知性分析,总结四条表达信息的模板设计准则,充分保证水印特征鲁棒性和人眼不可感知性;同时采用真实拍照和模拟拍照两种方案生成数据集,用于训练提取器。
在实际的推广应用过程中,我们不断完善这个架构,并尝试了各种真实场景下的数据优化和测试。例如,微信压缩是一个实际的应用场景,拍照过程中会有较大的失真,而在传播过程中,社交平台如微信的压缩也非常严重。
此外,还可能会有刻意内容的擦除以及各种不同类型的屏幕,如会议大屏、台式机和手机屏幕,以及各种拍摄条件,包括侧面拍摄、远距离拍摄和针孔相机拍摄等等。在实际使用中,我们需要考虑到这些因素。
由于我们遇到了许多应用需求,我们与企业合作,将其产品化并建立了完整的系统。这个系统包括水印的嵌入系统、后台管理系统、网络预警系统和溯源取证云平台。
我们已经完成了国产化系统的适配,并在军工、政府、金融和高科技企业等许多领域应用了该技术。目前,已经授权终端超过700万,并且这项技术也获得了许多奖项。
文档水印
当涉及到信息泄露时,文档是最重要的信息载体。因此,需要采取专门的保护措施来保护文档。在文档的泄密溯源方面,早期的文档水印技术使用了简单的方法,例如词间距水印。这种方法的优点是简洁且人难以察觉。然而,它的鲁棒性不强,例如如果打印或拍照时,水印可能无法保留下来。
在文档水印中,比较有效的方法是在字形上嵌入水印。换句话说,我们可以对原始字体进行微小的形变,以表示不同的比特。通过构建一个矢量字库,并将水印嵌入其中,可以实现实时嵌入。
这种技术具有较强的鲁棒性,但在以前的技术中,需要人工设计字体来表示不同的比特。然而,人的想象力和处理能力有限,这带来了很大的成本,并且设计空间也非常有限。此外,对于不同的语言和风格,同一套设计手法可能并不通用,很难进行拓展。
深度学习的引入对字体水印产生了巨大的影响。现在我们可以使用神经网络自动生成携带水印信息的矢量字体。这种方法可以根据需要,在不同场景下设计不同的噪声层,实现更强的鲁棒性。
这种技术的一个重要优势是通用性,而且设计和生成字体库的速度非常快。我们已经提出了一套新的方法,并在中文、英文、数字和藏语等不同语种中快速设计带有水印的字体。
上图是一些实际效果展示,比如第一排是原始字母,第二三排是分别表示0、1的不同字体,人眼很难察觉到差异。还进行了许多测试,包括截屏、打印拍照和纸质打印拍照的提取以及屏幕拍照的提取,结果均很好。
下面是两个简单的demo,一个展示了打印拍照的过程水印提取过程,另一个展示了屏幕拍照水印提取过程。
抗翻录音频水印
另一种典型的跨媒介失真的是声音的翻录,随着数字技术的发展,音频重新录制已成为侵犯知识产权或窃取秘密信息的一种手段。
因此,我们需要开发一种能够抵御翻录物理过程的音频水印技术。多年来,已经有一些相关研究,但效果并不理想。最近,我们重新研究了这个问题,并决定将其纳入深度学习框架中来实现。
在这个框架下,重点是针对翻录过程设计相应的失真层,包括混响失真和高斯噪声等,将其纳入训练过程中。
实验证明,这种新框架下的深度学习赋能使抗翻录水印的能力大幅增强。它能够处理不同距离下的录音,并且在应对传统音频处理中的失真问题时,其能力也得到了提升,可以更好地处理高噪声、Mp3压缩和重采裁剪等问题。
3D模型水印
3D模型在娱乐、医疗、建筑等领域被广泛应用,因此引起了人们的关注。一直以来,有人在研究如何在3D网格上嵌入水印,而深度学习水印框架的引入使得3D网格水印的能力得到了增强。
我们也进行了相关研究,实验证明使用深度学习框架在3D网格上进行水印嵌入可以提升其在各种数字处理操作下的鲁棒性,并且保持网格的质量。
然而,对于3D模型来说,更有吸引力的是3D打印,因为它被认为是工业4.0的核心技术,为人们的生产和生活带来了很多便利,但同时也带来了问题。
3D打印会带来一种新型的知识产权版权保护问题。因为对于3D实体他人可以进行三维扫描重建,从而窃取3D设计的知识产权。因此,我们需要进一步考虑3D水印的设计,使其能够抵御3D打印和数字重建等跨媒介鲁棒性的挑战。
在这方面,我们也进行了一些探索,讨论是否能够抵御3D打印扫描过程,与图像水印进行类比,寻找鲁棒的嵌入区域,以及利用水印的对称性来实现水印的同步等等。
然而,在3D打印上嵌入水印的一个更吸引人的应用是不仅仅是为了版权保护,而是将其视为一种新的信息获取通道。比如,当我拥有一个3D打印的产品时,通过扫描和拍照,我就能获取有关该产品的各种信息,这使其成为了一个信息推送的通道。
但在这种应用中,使用3D打印扫描并不合适,因为扫描过程复杂,对于普通用户来说也不方便。当然,更吸引人的是二维成像,即通过手机拍照来提取3D实体上的水印,这成为了一个更有吸引力的追求。
确实有很多研究关注在3D实体上嵌入可见的码,比如二维码等,但这些方法会破坏三维模型的打印实体美感。因此,我们更希望进行不可见水印的研究。
有些研究使用特殊打印材料,并结合红外相机和复杂的图像处理来提取水印,虽然人眼无法察觉,但红外相机可以捕捉到这些水印。
还有一种方法是将水印信息编码在3D打印的微结构上,并使用复杂的图像处理技术,通过放大水印信号来提取信息。
然而,这两种方法都存在一些局限性。要么需要使用特殊的3D打印材料,要么对机器设备的精度要求非常高,这不利于该技术的推广和使用。
因此,最近我们尝试了一种新的思路,即将信息编码在3D打印表面的微结构中。我们使用微结构的不同方向来表达不同的信息,利微结构反射的各向异性来识别这些方向信息,并通过放大水印信号来提取信息。这种结构只需要进行低复杂度的提取,并且设备要求也较低。
上图展示了关于微结构方向反射的建模,表明推断出的图案与实际反射之间具有良好的一致性。
我们进行了一个简单的演示,使用普通的激光笔和光敏电阻装置,就可以在微结构中提取编码的水印信息。
这些方法在各种品牌3D打印机和各种材料上都能展现出很好的普适性。在3D打印实体上,深度学习方法的应用并不广泛,但我认为这恰恰反映了这个领域还有很大的发展空间。
前面我们讨论了如何利用深度学习赋能传统水印技术,现在我们反过来思考,深度学习模型本身也是一种重要的数字资产。因为深度学习的设计、训练和部署都需要很大的成本,所以它本身具有很大的商业价值。然而,这些模型也可能被盗版或侵权。
事实上,在过去几年中,已了一些涉及深度学习模型版权争议的案例。深度学习模型及其相关数据,包括生成数据和训练数据,已成为一种重要的数字资产,需要对其知识产权进行保护。
人工智能纳入国家发展战略后,保护深度学习模型的知识产权成为确保人工智能良性发展的关键问题。每年信通院发布的《人工智能安全框架》,从20年开始就明确提出了保护深度学习模型知识产权的问题,即模型水印溯源。
这个问题近年来备受关注,人们一直在思考如何将多媒体图像、音频和视频水印的思想应用于将深度学习模型,将其作为载体来打水印。
整个深度学习模型版权管理体系与多媒体相似,需要多种技术的组合。其中,访问控制需要模型加密,因此有人研究了模型的加密方法。至于版权归属认证,首先需要模型指纹和模型的鲁棒水印。
此外,可能还需要对模型的完整性进行认证,这就需要前面提到的可逆脆弱水印。还有一种需求是对模型进行搜索,以确定某些模型是否与其他模型相似,这时可能需要模型的感知哈希。这些概念都是从多媒体安全领域类比到深度学习模型上的。
我们团队也在这几个方向上进行了一些研究,我在这里着重介绍鲁棒水印。有两类典型的方法,一种是白盒水印,即将模型的参数视为像素,将其作为载体来嵌入水印。
在这种方法中,可以利用深度学习模型本身的特点,将在参数上表达水印的问题转化为深度学习模型的任务,通过在训练过程中附加一个任务——损失函数,训练原始任务的同时,表达水印任务也一同进行。然而,在提取水印时,如果在白盒条件下,可以从参数中提取水印。这是早期的方法。
但是,在许多情况下,我们只能在黑盒条件下验证模型是否含有水印,需要进行黑盒提取。在黑盒条件下,有一种经典的思想是将攻击手法用于防护和水印。其中,使用后门是最典型的例子。我们知道深度学习模型可能会被植入后门,在训练过程中可以使用一些带有特殊模式的图像来训练模型,使其生成一些后门。当深度学习模型输入正常图像时,它会正常运行。但是,当用带有特殊模式的图像作为输入时,它会产生错误的输出,比如将苹果识别成汽车或将汽车识别成轮船等错误分类。
显然,可以直接将攻击技术用作水印。在训练模型时,使用相同的方法来嵌入水印,在模型中植入了后门,然后约定,使用触发图像产生的特殊标签来表达信息。这样,后门技术就变成了一种水印技术,它可以在模型中打上水印,并在黑盒条件下输入特定的触发图像来提取水印信息。这是一个很聪明的想法。
然而,这种手法实际上在30年前就已经存在了。回想一下,当年计算机病毒兴起时,比如大脑病毒,它被认为是业界公认的第一个真正具备完整特征的计算机病毒。最初,这个病毒并不是为了攻击计算机,而是为了版权保护。这是巴基斯坦的两兄弟在他们的软件公司遇到非法拷贝问题后设计的病毒。尽管这两个东西看起来不相关,但它们的思想是一致的。只是这种古老的思想在深度学习模型上被重新提出。
模型和计算机程序的共同特点是它们都可以被理解为广义上的一个程序,都有输入和输出。所以很多软件水印的技巧和思想也可以被应用到模型水印中。类似的还有数据库水印,因为数据库水印有时也可以通过输入和输出来表达信息。
在过去几年中,对于模型水印的研究非常热门,有许多针对白盒和黑盒水印的扩展和增强。研究人员讨论了各种鲁棒性的问题,比如如何抵御模型的微调、剪枝和压缩,以及如何应对强干扰,包括迁移学习、蒸馏和重训练。还有一些专门用于去除水印的操作,例如之前提到的后门水印,研究人员可以研究如何去除后门等等。
当然,也有人研究水印的伪造,例如混淆攻击等。同时也有人研究水印的检测,即检测水印的位置,然后有意地去擦除水印。还有一种对水印的强攻击,就是模型替代攻击。
早期的模型水印讨论主要针对深度学习分类任务,包括之前提到的后门。但几年前,我们遇到了一些企业提出的需求,他们希望对深度学习的图像处理或图像生成模型进行版权保护。
这个版权保护的需求比较独特,例如我们遇到了一家使用深度学习进行医学图像处理的企业。他们可以很好地进行医学图像的去骨,但是他们发现当将这个模型卖给医疗机构时,医疗机构可以使用这个模型的输入输出图像,来重新训练一个模型来替代他们的模型,这就是模型替代攻击。在这个例子中,训练原模型时,标注和处理训练数据的成本非常高,他们需要经验丰富的医生来帮助处理。
然而,对于进行模型替代攻击的人来说,一旦他们获得了原始模型,就不需要这样的成本了。他们可以直接使用这个模型生成数据,重新训练一个相似的模型。因此,企业希望找到一种抵抗这种攻击的方法来进行追溯。
实际上,这个问题就相当于说需要在图像处理模型或者图像生成模型生成的图像上打上水印。如果对手使用带有水印的图像训练了一个新模型,那么在替代模型生成的图像中仍然可以提取出水印。虽然本质上要求图像水印看起来与传统水印相似,都是打在图像上,但要求具有特殊的鲁棒性,即要求水印能够经受住深度学习的过程,这是它的独特性。然而,首先水印的透明性必须非常好,即不可见。
因此,针对这个需求,我们在几年前进行了研究,提出了一种对抗训练的策略。首先,我们使用深度学习训练了一个水印的嵌入/提取器,然后模拟潜在的对手,这些对手可能会使用一些网络结构来训练一个替代网络。我们要求在替代网络生成的图像中,仍然可以使用我们的提取器来提取水印,通过对抗训练的过程来解决这个问题。
在实际应用中,我们并不知道对手会使用什么样的网络结构,因此采用了一个典型的结构。实验结果表明,这种水印方法可以保持很好的透明性。
同时,我们也尝试了假设对手使用各种我们未见过的网络结构来进行替代训练,结果表明这些模型生成的图像仍然可以提取出水印。此外还进行了对比实验,发现直接使用传统的水印方法无法应对这个任务,因为水印无法被提取出来。
后来我们发现,针对图像处理生成模型的这种水印实际上具有更广泛的应用。它本质上是将水印嵌入到训练集上,旨在对深度学习过程鲁棒,可以有效保护生成模型的版权,同时也可以用来保护训练样本。
做这个工作时,生成式AI还没有流行,但是这个工作的特点恰好反映了最近一年里生成式人工智能带来的水印新需求之一,即能够经受住深度学习过程的考验。现在我们来讨论一下生成人工智能带来的水印内涵和外延的变化。
在生成式人工智能中,目前影响最大的是大语言模型,如Chat GPT等大语言模型,它确实带来了许多新的安全风险。像OpenAI的Altman就曾多次提到他最担心的潜在风险,是AI造成虚假信息的泛滥。实际上,大模型可能主导社交媒体上用户的活动。他曾经提出一个问题,我们如何知道大型模型没有在推特上指导思想流动。图灵奖得主Bengio也表示AI存在许多威胁,他最关心的问题之一是虚假信息传播问题。
在最近的几个月里,我们看到了许多关于大型模型的案例,涉及传播、意识形态、舆论控制,甚至包括学术界,高校中大家最关心的学术不端问题,许多人可能会使用大型模型进行写作、完成作业和写论文,可能带来了学术不端问题。因此各国政府都非常重视这个问题,如何对生成式AI进行监管。
特别是对于大模型生成的内容,如何判断是机器还是人产生的,我国也出台了相关规定,比如1月份的《互联网信息服务深度合成管理规定》,7月份的《生成人工智能服务暂行管理办法》,后者延续了前者的部分条款,要求生成内容上要有可见和不可见标识。国外也迅速出台了一系列相关法律法规。
近几个月来,一个热门的研究方向是人/机文本分类方法,如何识别机器生成的文本。这些方法包括人工检测方法和基于深度学习的检测方法,但它们都存在一些局限性。
作为被动的检测方法,它们的泛化能力可能不强,并且容易受到对抗噪声的干扰。在对检测和溯源要求更高的场景下,仅仅依靠被动的检测是难以完成的。
事实上,几个月前我们认为大型模型的最大危害是虚假信息的泛滥。但是现在看来,它可能对人类社会产生更深远的威胁和影响。例如,现在在知乎上,你很可能看到的是由AI生成的简短概括,但是没有营养。
换句话说,大型语言模型正在重塑或污染整个人类信息生态系统。在一些著名的数据标注平台上,超过一半的数据标注可能是由AI完成的,而不是人工。以前我们认为这些大型模型有一个作用,即通过生成数据来帮助训练下一代模型,因为我们可能没有足够的训练数据。
在许多场景中,生成模型生成的数据确实可以帮助我们进行训练。然而,事实上,如果仅仅使用生成数据来训练模型,像语言模型的训练也会带来很大的风险。最近的牛津和剑桥的论文中指出,如果使用由生成式AI生成的数据训练AI,进行多次代迭代后,模型将崩溃,并受到上一代生成数据的污染,导致对真实数据的错误理解。
此外,这种训练方法还会导致人类社会中的偏见和意识形态固化。在人类社会中,随着时代的发展,这些偏见逐渐弱化。然而,机器学习到的这些偏见实际上是来源于人类的语言。如果使用机器生成的数据进行迭代训练,这些偏见将固化下来,人类消费这些内容,反过来,对人类产生固化影响。因此,大型语言模型产生的信息对信息生态污染可能会产生深远的影响。
我举个例子来说明这个问题。袁隆平先生及其团队创造了超级水稻,这得益于他们在70年代发现了三亚野生水稻的种子。那个时候,三亚还是一个没有被现代工业农业覆盖的地方。类比到人类数据上,今后要在互联网上获取人类数据可能会变得非常困难。首先,我们面临的一个困难是如何识别哪些数据是机器生成的,哪些是人工生成的。也即如何保护人类数据的“野生稻种”?成为一个非常重要的问题。
最近,我们看到各国政府也非常重视这个问题。例如,今年7月,美国总统拜登在白宫召见了七家主要AI公司的负责人,这些公司承诺开发负责任的AI技术。其中一个明确的承诺是为由AI生成的内容添加水印,以帮助用户鉴别机器生成的内容。
今年10月30日,美国总统拜登签署了《关于安全、可靠、可信地开发和使用人工智能的行政命令》。其中包括几个重要内容,特别注意到第一部分明确提出了AI水印的问题,要求商务部为人工智能生成的内容制定内容认证和水印的指南。
因此,提供生成AI服务时,添加水印可能成为合规性要求。事实上,在此之前,我们也注意到像谷歌、微软、OpenAI都宣称在他们的AI生成内容中添加水印。在图像、音频和视频水印方面,传统的水印技术在很大程度上是可行的。然而,文本水印就比较困难,因为它冗余小,微小的修改就可能会改变文本的语义。
实际上,我们国家在这方面的进展也很快。今年8月,《生成式人工智能服务内容标识要求》出台,这是在生成内容中添加水印的指南要求,我们也在其中参与了部分工作。
最近几个月,我们看到很多机构和团队开始涉足大语言模型的水印设计,尽管之前他们并不做水印。这种水印有何不同?我以马里兰大学的一篇论文为例,论文题目就是《大语言模型的水印》,该工作获得了ICML的杰出论文奖。这项工作在模型生成文本的过程中,会添加一个鉴别性水印,以便将来能够判断这篇文章是由机器生成还是人类编写。
具体做法如下:在生成过程中,对token进行采样,将采样空间随机一分为二。例如,将其分为一个白名单和一个黑名单,但是采样时只在白名单中进行采样。因此,只要有一个比较短的段落,例如二十几个单词,就可以高概率校验这段文本是否是机器生成的。
这个思想与20年前在隐写领域进行的一系列研究是相通的。实际上,在本世纪初图灵奖得主Blum和他的学生构建了一个可证安全隐写的架构。什么是可证安全隐写呢?它要求携带消息的媒体与不携带消息的媒体在计算上难以区分。
在生成模型中,我们要求在生成的文本中嵌入消息,与大模型不嵌入消息生成的文本在统计上无法区分。如果能够做到这一点,实际上就意味着嵌入消息,但并不破坏模型的生成能力。这一点非常重要。这对于用户愿意采用水印是至关重要的。
可证安全隐写的经典构造方法是拒绝采样。拒绝采样本质上是利用随机函数将采样空间随机分成两半,以分别表达0、1。这实际上与黑白名单采样本质上是相通的。
因此,我们也看到最近几个月出现了一系列关于可证明无损生成文本水印的文章。实际上,这背后的思想很大与可证安全隐写有异曲同工之处。当年的很多方法是被重新发现或被移植到了水印领域。
可证安全隐写的方法在很长一段时间里没有得到应用。但是它们奠定了很好的理论基础。而现在重新焕发活力,发挥了重要作用。
然而,人工智能更大的应用场景是垂直开发商和第三方开发机构。他们可能只是访问这些大型模型的API,无法观察到生成过程。但正如我刚才所说,各个国家可能会出台法律法规,要求给生成内容打上水印。
这些垂直开发商也需要合规,因此,我们团队最近也在研究如何在大型模型中进行黑盒水印嵌入。在黑盒水印嵌入时,无法访问生成过程,也无法观察其分布和采样过程。为此,我们提出在外部采用一个较小的模型,例如使用BERT来辅助模拟采样过程,以保证上下文的语义相似性。在整个过程中,我们使用了两次的BERT来保证词语和句子级的语义相似性。
实验结果表明,尽管是黑盒水印,但它能够很好地保持模型生成内容的语义相似性和情感一致性,并且具有很好的鲁棒性,包括一些较为复杂的场景,例如对抗重翻译和润色攻击。润色对于生成文本是很重要的一种失真。因为很多人在使用大型模型生成文本后,通常会进行人工润色,这可能会擦掉水印。
这是一个我们做的黑盒模型水印可以适用于中文和英文,设计了两种检测方法,一种是快速检测模式,另一种是慢但更精确的检测模式。最近我们还进行了一些扩展,使黑盒模型水印不仅能够检测和鉴别是机器生成文本,还能够进行多比特水印嵌入,从而溯源它是由哪个模型生成的。
此外,生成式AI不仅限于大语言模型,还包括多模态的应用,例如语音生成,包括语音合成和语音克隆。在过去几年中,语音克隆在娱乐和其他应用场景中得到了广泛应用,包括自动驾驶等。然而,这也带来了许多新问题。
例如,在一些电子书的听书平台上,有很多人喜欢追随某个特定人的声音,他们可能会使用声音克隆去训练该人的声音模型,并用其声音来讲述一本新书。这引发了一个问题,这是否侵犯了该人的音色权?尽管他没有复制该人的语音文件,但他却使用了该人的音色来播放新书。这带来了一个新的知识产权问题,即如何保护音色权。
因此,我们想是否可以设计一种音色水印,专门来保护音色的权益。我们还调研了传统的解决方案,如合成语音检测,但它存在一些缺陷,例如无法进行溯源。另外,传统的音频水印研究已经进行了很多年,但我们发现传统音频水印很难应对抗裁剪、缩放和语言克隆等攻击方式。对于语音克隆这种场景来说,要求水印能够经受得住深度学习过程的考验,这是其本质属性。
因此,我们设计了一个新的框架,构建了一个端到端的深度学习水印模型。在这个模型中,我们构建了模拟语音克隆的噪声层。水印是嵌入在发布的语音中的,这个水印能够在语音克隆模型的学习过程中保留下来,从而在合成的语音中仍然可以提取出水印。而且我们发现,这种水印也解决了以前难以解决的问题,例如抵抗大尺度任意裁剪、压缩等攻击。
以下是一些实验结果,水印嵌入后语音质量可以得到很好的保持。
我们对各种语音合成和语音克隆模型进行了测试,包括一些商业模型和一些在线应用程序。其中一些模型的合成语音质量非常糟糕,这对我们的水印提取是一个挑战。实验表明,在这种场景下水印仍然可以被有效提取。
在不同场景下进行了大量尝试,包括语音合成和音色转换,水印都能够应对。
类似的知识产权问题,对于图像来说更加突出。图像的侵权不再仅仅是复制别人的照片。已出现了全球首例大型AIGC侵权诉讼案件,一些艺术家起诉了Stable Diffusion。他们使用了以文生图的模型进行训练,这些模型可能侵权了那些艺术家创作的图片,因为这些模型学习了他们图像的风格,用来生成新的图片。
在这种案例中,侵权不是直接盗版图片,而是侵权了图片的创作风格,就像之前讨论的音色一样。例如,现在非常流行的Personalization,将一些个性化的图片作为输入条件,以引导模型学习图片中的概念,并生成具有相同概念的新图片。
在这个例子中,图像概念就是知识产权,因此我们设计了一种图像概念水印,嵌入在这些图像概念中,从而可以追溯概念的共享和侵权行为。这是我们最近尝试的一项工作,实验证明它确实可以达到预期效果。
AIGC水印与传统水印相比有什么不同呢?从嵌入方式来看,以前我们通常使用修改式嵌入,在图像中通过修改像素、频率的特征来嵌入消息。但是像刚才提到的生成式嵌入,它是在内容生成过程中嵌入消息,这是一种白盒的嵌入方式。
我需要强调的是,并不是说AIGC水印必须使用生成式嵌入,刚才我们也提到了黑盒,修改式嵌入仍然可以使用,只是如果具备生成式嵌入的条件,那么可以用一种全新的方式来表达水印,在生成过程中嵌入消息,这样可以带来一些全新的能力,比如更好的鲁棒性,甚至可以证明无损的特性。
从鲁棒性追求来看,水印增加了新需求:对于图像和声音中特征、概念抽取的抵抗能力,还有抵抗AI生成过程的能力,这是一种全新的要求,但并不意味着我们只追求这种鲁棒性。 事实上,含水印图像可能会经过传统的处理,如拍照和翻拍。因此,传统的鲁棒性也是必要的,只是增加了新需求,使问题变得更加复杂。
最后总结一下,从水印的历史可以看到,水印伴随这媒体技术的发展而发展,不断展现出新应用场景。实际上,其发展历程是从物理水印到数字水印的轮回。在早期,我们关注的是物理实体水印,如用于防伪和溯源的纸质文档或钱币水印。随着数字时代的到来,我们开始关注数字图像、音频和视频的知识产权保护水印,追求数字处理过程的鲁棒性。
随着智能手机等设备的发展,我们又开始关注一些物理过程鲁棒性,如打印拍照、屏幕拍照、声音翻录,甚至包括3D打印,知识产权保护和溯源面临更复杂的场景。随着人工智能的发展,追求又回到数字域,例如深度学习模型本身的知识产权以及AIGC水印。
但对知识产权的关注点发生了巨大变化,我们关心的可能是音色或图像的概念等新型知识产权。此外,鉴别溯源问题的意义和内涵也有所不同。刚才提到,需要对由AI生成的内容进行鉴定,这事关人类信息生态系统的保护,涉及更深远的问题。问题确实变得越来越复杂和困难。
幸运的是,水印技术也在不断发展。从传统的人工设计水印转向了深度学习水印,出现了新的水印框架,使水印的能力产生了质的飞跃,以应对现在这些复杂的场景。
最后重申一个观点,许多安全问题都需要依靠法律法规解决,从而将问题归结为溯源取证问题,而水印恰好可以在这方面发挥作用。因此,随着人类社会从物理世界到虚拟世界的发展,水印技术将不断延伸出新的应用。
📌往期推荐
📖2023生成式人工智能治理系列丛书生成式人工智能的发展以及担忧|生成式人工智能的治理愿景和框架...👉点击查收全文链接
🌟2022人工智能治理系列丛书 精华大图集锦版 | 如何维护电商平台信息真实和竞争公平…👉点击查收白皮书全书连载
🔥《追AI的人》系列直播教你掌握互联网的“流量密码” | 如何避免ChatGPT被滥用…👉点击查收过往32期直播的全部文字回放
🎈《算法治理制度》系列丛书内容和电商领域推荐算法的应用与治理差异|“大数据杀熟” 的背后…👉点击阅读更多算法治理干货
📺 AI治理科普短视频流量为王的时代,教你如何“破圈”创作 | 3分钟Get多模态是什么?| 信息茧房和马太效应是什么…👉点击观看往期22期精彩视频
👇AAIG课代表,获取最新动态就找她
关注公众号发现更多干货❤️