TTIDA: 通过文本到文本和文本到图像模型实现可控的生成式数据增强

481次阅读
没有评论

TTIDA: Controllable Generative Data Augmentation via Text-to-Text and
Text-to-Image Models

解决问题:本论文旨在解决低资源数据集的数据增强问题,通过提出一种新的生成数据增强方法TTIDA,利用大规模预训练的文本到文本和文本到图像生成模型,以一种灵活可控的方式生成具有标签的逼真图像,从而提高分类和图像字幕任务的性能和鲁棒性。

关键思路:TTIDA方法利用文本到文本和文本到图像生成模型相结合的方式,通过将T2I模型的生成结果与T2T模型生成的详细描述相结合,生成具有标签的逼真图像,从而实现数据增强。相比传统的数据增强方法,TTIDA方法具有更大的灵活性和可控性,能够在各种设置下提高性能和鲁棒性。

其他亮点:本论文在多个数据集和任务上进行了实验,包括领域内分类、跨领域分类和图像字幕任务,并与其他数据增强方法进行了比较,结果表明TTIDA方法能够在各种设置下提高性能和鲁棒性。此外,本论文还提供了详细的分析研究,包括少样本、长尾和对抗等设置,进一步证明了TTIDA方法的有效性。值得进一步研究的工作包括更多领域的实验和更广泛的应用场景。

关于作者:本论文的主要作者包括Yuwei Yin、Jean Kaddour、Xiang Zhang、Yixin Nie、Zhenguang Liu、Lingpeng Kong和Qi Liu。他们分别来自美国和中国的多个机构,包括加州大学伯克利分校、清华大学和华为技术有限公司等。这些作者之前的代表作包括“Learning to Learn with Feedback and Local Plasticity”(Yuwei Yin等,ICLR 2021)和“End-to-End Adversarial Text-to-Speech”(Jean Kaddour等,ICASSP 2019)等。

相关研究:近期其他相关的研究包括“Generative Data Augmentation for Low Resource Named Entity Recognition”(Tianyu Gao等,ACL 2020)和“Data Augmentation using Pre-trained Transformer Models”(Dongjun Lee等,EMNLP 2020)等。这些研究都关注于数据增强的应用,提出了不同的方法和技术,丰富了数据增强的研究领域。

论文摘要:本文介绍了一种名为TTIDA(Text-to-Text-to-Image Data Augmentation)的数据增强方法,该方法利用大规模预训练的文本生成模型和图像生成模型来增强数据集。与传统的数据增强技术相比,该方法可以生成更多样化和灵活的数据。同时,与生成对抗网络(GAN)相比,该方法具有更高的多样性和可控性。通过将T2I模型与T2T模型生成的详细描述条件化,我们能够以灵活和可控的方式生成逼真的标记图像。实验结果表明,TTIDA在领域内分类、跨领域分类和图像字幕生成任务中均显示出比其他数据增强基线更好的性能提升。在各种设置下的分析研究,包括少样本、长尾和对抗性,进一步证明了TTIDA提高性能和增加鲁棒性的有效性。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy