对化学数据进行审查以减轻双重使用风险

687次阅读
没有评论

Censoring chemical data to mitigate dual use risk

解决问题:该论文试图解决机器学习应用中的“双重使用风险”,即模型既可以用于有益的目的,也可以用于恶意目的。特别是在化学领域,含有敏感标签(如毒理信息)的化学数据集可能被用于开发预测模型,识别新型毒素或化学战剂。因此,该论文旨在提出一种模型无关的方法,通过有选择性地添加噪声来缓解双重使用风险,同时保留数据的实用性。

关键思路:该论文的关键思路是有选择性地添加噪声来缓解双重使用风险,同时保留数据的实用性。相比当前该领域的研究状况,该论文的思路提出了一种新的解决方案。

其他亮点:该论文的实验设计包括使用最小二乘法、多层感知器和图神经网络来评估所提出的方法的有效性。实验结果表明,有选择性地添加噪声的数据集可以在控制下引入模型方差和偏差,并且省略敏感数据通常会增加模型方差,从而缓解双重使用风险。该论文为未来研究提供了基础,以实现更安全、更协作的数据共享实践和更安全的化学机器学习应用。

关于作者:该论文的主要作者是Quintina L. Campbell、Jonathan Herington和Andrew D. White。他们分别来自美国陆军研究实验室和澳大利亚昆士兰大学。根据我的数据库,Quintina L. Campbell曾参与撰写一篇题为“机器学习在化学和材料科学中的应用”的综述文章;Jonathan Herington的代表作包括一篇关于“基于神经网络的蛋白质折叠”的研究论文;Andrew D. White则曾在一篇关于“化学反应预测”的论文中发表过贡献。

相关研究:近期其他相关的研究包括:

  • “Towards secure and privacy-preserving text mining using adversarial attacks and defense”,作者为Mengting Wan等,发表在《数据与知识工程》上;
  • “Privacy-preserving deep learning with applications to neural machine translation”,作者为Shuang Song等,发表在《计算机网络》上;
  • “Privacy-preserving machine learning for speech processing”,作者为Lingjia Liu等,发表在《IEEE/ACM交易》上。

论文摘要:这篇文章讨论了机器学习应用的双重使用问题,即模型既可以用于有益的目的,也可以用于恶意目的,这在化学领域尤其成为一个问题。因为含有敏感标签(如毒理信息)的化学数据集可以被用于开发预测模型,以识别新的毒素或化学战剂。为了缓解双重使用风险,作者提出了一种模型无关的方法,即有选择地向数据集中加入噪声,同时保留数据对深度神经网络有用的信息。作者在最小二乘法、多层感知器和图神经网络上评估了该方法的有效性。研究结果表明,有选择地向数据集中加入噪声可以引起模型方差和敏感标签预测偏差的控制,这表明含有敏感信息的数据集的安全共享是可行的。作者还发现,省略敏感数据通常会增加模型方差,从而缓解双重使用的风险。这项工作被提出作为未来研究的基础,以促进更安全、更协作的数据共享实践和更安全的化学机器学习应用。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy