在预算有限的情况下,从类似任务中提取知识以进行迁移学习

616次阅读
没有评论

Distilling from Similar Tasks for Transfer Learning on a Budget

解决问题:该论文旨在解决有限标签情况下获得高效准确的识别系统的挑战。该论文的假设是,通过从多个源模型中进行半监督交叉领域蒸馏,可以在不进行计算密集的基础模型微调的情况下,获得高效准确的模型。

关键思路:该论文提出了一种使用任务相似度度量来选择适合作为蒸馏源的单个源模型的方法,并且表明了良好的选择过程对于目标模型的下游性能至关重要。该论文还提出了一种加权多源蒸馏方法,将不同领域训练的多个源模型进行加权,以获得单个高效模型。这两种方法仅需要源模型的特征和伪标签,无需访问源数据。

其他亮点:该论文的实验表明,当目标是在计算约束下获得准确识别时,DistillNearest和DistillWeighted方法均优于从强ImageNet初始化进行的转移学习以及FixMatch等半监督技术的最新技术。在8个不同的目标任务上,使用多源方法的平均性能分别优于基线5.6%和4.5%。

关于作者:Kenneth Borup、Cheng Perng Phoo、Bharath Hariharan是该论文的主要作者。根据我的数据库,Bharath Hariharan曾在Facebook AI Research工作,发表过多篇关于计算机视觉和机器学习的论文。Cheng Perng Phoo是新加坡国立大学的博士生,研究方向为计算机视觉和深度学习。Kenneth Borup的相关研究领域包括计算机视觉、机器学习和人工智能等。

相关研究:近期的相关研究包括:

  1. “Semi-Supervised Learning with Cross-Task Consistency and Task-Specific Experts”,作者:Yucen Luo, Junwei Liang, Sifei Liu,机构:UNC Chapel Hill, Adobe Research。
  2. “Learning to Learn from Limited Data: A Deep Siamese Network Approach for One-Shot Medical Image Segmentation”,作者:Yuan Xue, et al.,机构:University of California, Los Angeles。

论文摘要:本文作者解决了在标签有限的情况下如何获得高效而准确的识别系统的挑战。虽然识别模型随着模型大小和数据量的增加而提高,但是许多计算机视觉的专业应用在训练和推理过程中都有严格的资源限制。迁移学习是使用少量标签进行训练的有效解决方案,但往往需要对大型基础模型进行计算代价高昂的微调,从而导致计算和精度之间的不愉快的折衷。作者提出了一种通过从一组不同的源模型进行半监督跨域蒸馏来缓解这种折衷的方法。首先,作者展示了如何使用任务相似度度量来选择单个合适的源模型进行蒸馏,并且一个好的选择过程对于目标模型的下游性能至关重要。作者将这种方法称为DistillNearest。虽然有效,但是DistillNearest假设单个源模型与目标任务匹配,而这并不总是正确的。为了缓解这个问题,作者提出了一种加权多源蒸馏方法,将多个在不同领域训练的源模型按其与目标任务的相关性进行加权,蒸馏成一个高效的模型(称为DistillWeighted)。我们的方法不需要访问源数据,只需要源模型的特征和伪标签。当目标是在计算约束下进行准确识别时,DistillNearest和DistillWeighted方法均优于从强ImageNet初始化进行的迁移学习以及半监督技术的最新技术,如FixMatch。在8个不同的目标任务上平均,我们的多源方法分别比基线高出5.6个百分点和4.5个百分点。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy