博士论文 | 基于弱监督的结构化数据学习 210页

814次阅读
没有评论

博士论文 | 基于弱监督的结构化数据学习 210页

在所有科学领域中,研究都是基于观察和实验进行的,需要运用明智的判断并发展假设来指导实验设计和消除理论上的模糊性。人工智能AI)通过帮助科学家形成假设,设计实验以测试它们,以及收集和解释数据,极大地改善了最先进的科学研究。过去十年的基本进步包括自监督的学习方法,这些方法在没有预定义标签的情况下对大规模数据进行模型训练;几何深度学习,这利用了科学知识所提供的结构和几何信息;以及生成性AI方法,这些方法根据从实验中获得的各种数据(包括图像和序列)制定实验的行动计划并生成新的设计,例如小分子药物蛋白质。在这些进步中,最常见的共享特征之一是利用弱监督来学习AI/ML模型。

为了实现这些目标,我们在一系列结构化数据表示上开发了各种学习方法。我们首先从点云开始;我们开发了一个名为“OcCo”的通用自监督预训练方法,用于神经特征编码器,并设计了一个名为“qKC”的基于量子计算的方法用于配准。这两种方法在训练中都不需要标签,并能在面对数据噪声时提高模型的鲁棒性。接下来,我们关注医学CT和CXR图像,这些数据通常分布在多个中心,因此我们开发了一个联邦学习框架,共同利用分散的数据以提高临床模型的性能。随后,我们开发了“GraphMVP”和“MolGraphEval”,以推进分子自监督图学习的SOTA,并理解这些方法中捕获了哪些结构信息。

博士论文 | 基于弱监督的结构化数据学习 210页

论文题目:Learning from Structured Data with Weak Supervision

作者:Hanchen Wang

类型:2023年博士论文

学校:University of Cambridge(英国剑桥大学

下载链接:

链接: https://pan.baidu.com/s/17e5ejecmq-7YXR0Fgsu3ng?pwd=grz5


硕博论文汇总:

链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5


科学方法导科学家们系统化和逻辑化地解释自然世界。在任何研究项目的不同阶段,科学家们制定假设,设计模拟和实验,并收集数据来分析和理解自然现象。如何收集、转换和理解数据,为形成理论和科学洞察提供了基础。然而,我们进行大规模实验和测量的能力,以及2010年代初深度学习的兴起,使得数据驱动的科学研究的范围和野心发生了范式转变。因此,基于机器学习(ML)的人工智能(AI)越来越多地被用于整合大规模的科学数据集,帮助精细化测量,指导实验,探索与数据兼容的理论空间,并提供考虑了多种解释存在的可操作和可靠预测(见图1.1)。

博士论文 | 基于弱监督的结构化数据学习 210页

人工智能在科学中的应用。科学发现由三个相互关联的阶段组成。项目符号表示代表性研究。

在历史长河中,新的科技,包括如显微镜这样的物理仪器,或如前瞻性随机化这样的研究技术,都重塑了科学的发现。数据收集和分析是科学发现的核心要素,科学家们长期以来一直利用定量方法来辅助他们的工作。例如,在20世纪60年代,希尔因果关系标准的发展给了研究人员一个新工具,用于在公共卫生研究中建立假定原因和观察效应之间的因果关系,以检验假设的真实性。这样的定量方法在尽可能多地从常常需要大量时间和金钱生成和收集的数据中提取信息方面至关重要。在历史上,我们可以看到定量方法和新兴技术被应用于科学挑战的例子,这常常导致了对核心科学进步至关重要的发现。例如,1950年代数字化的引入,随后在调查固态物理中的多体系统的电子结构和分析原子和分子的运动等方面普遍使用了计算机。同样地,数据科学的引入提供了AI作为一种方法,通过从大数据集中识别出科学上相关的模式来为领域专家提供额外的指导。基于ML的AI已经崭露头角,成为有望重塑科学发现的技术。尽管科学实践和程序随着科学研究的阶段变化而变化,但ML算法的开发却跨越了传统的孤立学科(Figure 1.1)。这些算法可以显著提高科学研究的设计和执行,并通过优化参数和功能,自动化收集、可视化和处理数据的程序,形成新的理论来探索大量的候选假设空间,以及生成假设和估计其不确定性以建议相关实验,对研究人员来说变得无比珍贵。

自2010年代初以来,由于大数据集的可用性,以及快速且大规模并行的计算和存储硬件(GPU和超级计算机)的帮助,再加上新的算法,AI方法的威力已大大增强。这些新算法包括深度表征学习,特别是能够识别解决科学问题所需的关键、紧凑特征的多层神经网络。其中,几何深度学习已证明有助于整合科学知识,如问题的结构或几何性。自监督学习使得训练有素的神经网络能够通过预训练大型基础模型等方式,将在标记或未标记数据上学习的表征转移到具有少量标记例子的不同领域。此外,生成模型可以估计复杂系统的基础数据分布,并支持实验或系统的数据驱动设计。与ML的其他用途不同,使用强化学习方法的系统通过探索许多可能的场景,并根据诸如从所考虑的实验中期望得到的信息增益等度量标准,为不同的行动分配奖励,从而找到环境的最优策略。

在AI驱动的科学发现中,科学领域的知识可以通过形成适当的归纳偏差(即,在由自然科学基本定律给出的问题的函数或解决方案空间中的偏好)被纳入到ML方法中,尤其在物理和化学中。难点在于,应用这些定律会导致过于复杂的方程,即使有传统数值方法的帮助,人类也无法解决,因为这可能在计算上过于昂贵。一种新兴的方法是将这样的已有科学知识以影响所研究现象的基本方程的信息形式,纳入到ML方法中,比如物理定律或者蛋白质折叠中的分子结构和结合原则。使用适当的归纳偏差可以通过降低样本复杂性(即,达到某种精度所需的训练样本数)来提高机器学习的统计效率,并可以通过将分析扩展到大规模假设空间来增强ML的输出。在解决诸如推进五十年来的蛋白质折叠问题,以及用AI驱动的模拟模拟数百万粒子等具有挑战性的科学问题上取得的有希望的结果,凸显了机器学习(ML)在新兴领域”科学的AI”(AI4Science)中的潜力。AI4Science中的一个关键需求是开发能够处理前所未有规模的数据的新型学习算法。由于精确注释的成本随着数据规模线性甚至二次增长,利用数据背后的结构来训练AI/ML模型是一个有前途的方向。然而,由于监督的自然稀疏性,这种方法通常涉及弱监督训练。科学数据中的结构提供了关于塑造我们世界的复杂和互联系统的有价值的洞察。这些结构可以立即显现,如在医学图像中,或者更抽象,如在社交媒体数据集中。通过识别和分析这些结构,研究人员可以解锁新的知识,并做出有益于社会的明智决策。可以采用各种技术,如网络分析、聚类算法和自然语言处理,来揭示这些结构。

弱监督技术近年来因其利用大量未标注数据改善模型性能的能力而受到欢迎。尽管强监督可以导致高度精确的模型,但它通常受到标注数据的可用性和成本的限制。通过使用部分或噪声标签,弱监督减少了手动注释的负担,并增强了AI/ML模型的可扩展性。弱监督适用于广泛的任务,包括图像和文本分类、自然语言处理和计算机视觉,它使AI/ML模型能够有效地从科学数据中存在的结构中学习,从而为AI4Science倡议的成功做出贡献。在这篇论文中,我们主要关注不同环境中的各种形式的弱监督: 

• 标签噪声:这种情况发生在由于人为错误或数据质量差等因素,训练数据标签错误或不可靠的情况。在后续的章节中,我们展示了如何处理标签噪声的方法,例如在未注释数据上的自我监督模型(第2章)和混合量子-机器学习系统(第3章)。 

• 部分标签:在这种情况下,只提供了一些数据标签,对某些类或数据子集的标签缺失。我们探讨了解决方案,如提高预训练模型中的标签效率(第2章)或利用特权信息(第5章)。 

• 数据隔离:这涉及使用来自相关但不同数据集的标签进行模型训练,在医学科学中很常见,因为数据中心的数据有限且有分享限制。我们使用联邦机器学习系统开发了解决方案,该系统支持协同AI/ML模型训练(第4章)。每种弱监督方法都有其自身的优点和局限性,方法的选择取决于机器学习项目的具体上下文和目标。


博士论文 | 基于弱监督的结构化数据学习 210页

OcCo 概述1. 获取任何点云数据集,并通过 (a) 随机采样相机视点,以及 (b) 删除从该视点隐藏的点,为每个输入生成遮挡对象(对于所有实验,我们使用从生成的相同遮挡数据集 模型网40);2. 训练编码器-解码器模型来完成被遮挡的点云(编码器可以是任何学习点云表示的模型,解码器可以是任何完成模型);3. 使用学习到的编码器权重作为任何下游任务的初始化(例如,少样本学习、对象分类、部分/语义分割)。我们证明 OcCo 在多个模型和任务中优于各种预训练方法。


博士论文 | 基于弱监督的结构化数据学习 210页

PCN 的编码器和输出层


博士论文 | 基于弱监督的结构化数据学习 210页来自 ShapeNet Occlusion 的示例无法描绘底层对象形状


博士论文 | 基于弱监督的结构化数据学习 210页从 ModelNet 生成的自遮挡对象的示例。


博士论文 | 基于弱监督的结构化数据学习 210页OcCo-PointNet 学习到的特征的可视化。


博士论文 | 基于弱监督的结构化数据学习 210页UCADI 的概念架构。参与者首先根据本地队列的数据下载并训练 3D CNN 模型。然后将训练好的模型参数加密并传输回服务器。最后,服务器通过聚合每个参与者的贡献来生成联合模型,而无需显式访问参数。


博士论文 | 基于弱监督的结构化数据学习 210页UCADI 参与者的部署和工作流程。(a)、数据。基于高质量、注释良好且匿名的 CT 构建本地数据集。(b)、流量。3D DenseNet 模型的主干主要由六个 3D 密集块(绿色)、两个 3D 传输块(白色)和一个输出层(灰色)组成。每个病例的CT经过自适应采样、去中心化和三线性插值后转换为(16,128,128)张量,然后输入3D CNN模型进行肺炎分类。(c)、过程。在训练过程中,模型输出用于计算加权交叉熵以更新网络参数。在测试时,每个病例的五个独立预测都会被合并以报告预测诊断结果。


博士论文 | 基于弱监督的结构化数据学习 210页3D DenseNet 的架构


博士论文 | 基于弱监督的结构化数据学习 210页GraphMVP 中预训练阶段的概述。黑色虚线圆圈表示子图屏蔽,我们在 2D 和 3D 图中屏蔽相同的区域。分子的多个视图(此处为:Halicin)通过 2D 和 3D GNN 模型映射到表示空间,我们使用对比和生成借口任务进行 GraphMVP 进行 SSL 预训练。


博士论文 | 基于弱监督的结构化数据学习 210页MolGraphEval 概述。给定分子图,我们训练 GNN 来预测 SSL 代理目标。然后,我们使用预先训练的模型提取(可能看不见的)图的嵌入,这些模型形成探测模型的输入,根据设计的指标进行训练和评估。


博士论文 | 基于弱监督的结构化数据学习 210页GraphMVP 中的 SSL 对比。黑色虚线圆圈表示子图掩蔽。


博士论文 | 基于弱监督的结构化数据学习 210页


博士论文 | 基于弱监督的结构化数据学习 210页GraphMVP 中的 VRR SSL。黑色虚线圆圈表示子图掩蔽。

博士论文 | 基于弱监督的结构化数据学习 210页

博士论文 | 基于弱监督的结构化数据学习 210页

博士论文 | 基于弱监督的结构化数据学习 210页

博士论文 | 基于弱监督的结构化数据学习 210页

博士论文 | 基于弱监督的结构化数据学习 210页

博士论文 | 基于弱监督的结构化数据学习 210页

微信群                  公众号

博士论文 | 基于弱监督的结构化数据学习 210页博士论文 | 基于弱监督的结构化数据学习 210页

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy