PNAS速递:无监督学习得到的文本嵌入轨迹描述隐藏的科学迁移结构

592次阅读
没有评论

PNAS速递:无监督学习得到的文本嵌入轨迹描述隐藏的科学迁移结构


关键词:机器学习,神经嵌入模型,移动引力模型,科学学 ,科学迁移


PNAS速递:无监督学习得到的文本嵌入轨迹描述隐藏的科学迁移结构

PNAS速递:无监督学习得到的文本嵌入轨迹描述隐藏的科学迁移结构

论文题目:Unsupervised embedding of trajectories captures the latent structure of scientific migration论文期刊:PNAS论文地址:https://www.pnas.org/doi/10.1073/pnas.2305414120
人类迁移和流动是流行病、经济、创新和思想传播等重大社会现象的驱动力。虽然人类的流动和迁移在历史上一直受到地理距离的严重制约,但随着时代的进步和全球化的发展,语言和文化等其他因素也变得越来越重要。神经嵌入模型(neural embedding model)最初是为自然语言而设计的,它的进步为了解这种复杂性提供了机会,并为人群迁移研究开辟了新的途径。
PNAS速递:无监督学习得到的文本嵌入轨迹描述隐藏的科学迁移结构

图1:神经嵌入提供了功能距离,在三个不同的人类轨迹数据集上提高了移动引力模型(gravity model of mobility)的最佳预测能力。(A) 为每个组织分配了一个唯一标识符,并将它们组合成一个按发表年份排序的隶属关系轨迹(顶部)。如果一位作者在同一年列出了多个机构的隶属关系,我们会在每次训练迭代中调整该年的顺序(下图)。(B)与地理距离相比,嵌入距离能更好地解释全球科学迁移的预期流量(C)。红线为最佳拟合线。黑点为分段距离的平均通量。(D) 使用嵌入距离对机构间流量的预测优于使用地理距离(E)对机构间流量的预测。


该研究展示了词嵌入技术 word2vec 模型编码迁徙轨迹中离散位置之间细微关系的能力,它能产生准确、密集、连续且有意义的向量空间表示。word2vec 在数学上等同于移动引力定律,因此非常适合从迁移数据中学习密集表征。word2vec 将地点类比为单词,将轨迹类比为句子,从而将每个地点嵌入一个向量空间,其中的距离反映了根据引力定律的迁移率
PNAS速递:无监督学习得到的文本嵌入轨迹描述隐藏的科学迁移结构

图2:嵌入空间的投影显示了各组织复杂的多尺度结构。(A) 嵌入空间的 UMAP 投影(显示了国家层面的聚类。每个点对应一个组织,其大小表示 2008 年至 2019 年隶属于该组织的移动和非移动作者的年平均人数。颜色表示地区。(B) 放大(重新投影)包含西亚、南亚和东南亚国家的区域,显示出国家集群的地理和文化梯度。(C) 同样,放大到包含西班牙、葡萄牙、南美洲和中美洲组织的区域,显示出按最广泛使用的多数语言群组进行的聚类:西班牙语和葡萄牙语。(D) 对美国的组织进行同样的放大,可以看到以州为单位的地理聚类,大致按人口普查局指定的地区进行分组, (E) 进一步放大马萨诸塞州,可以看到以城市中心(波士顿、伍斯特)、组织部门(医院与大学)以及大学系统和声望为单位的聚类


由此产生的表征提供了地点之间的功能距离,也提供了一个“数字替身”,该替身可以被分发、重复使用,其本身也可被查询以了解迁徙的多个维度。该研究表明,word2vec 在编码迁移模式方面的独特能力源于其与迁移引力模型的数学等价性。它在多层次的粒度上编码了有关文化、地理和声望的信息。
以科学迁移(scientific migration)为例,该研究将 word2vec 应用于一个包含 300 万名科学家迁移轨迹的数据库,这些科学家的迁移轨迹来自于其出版记录中列出的所属单位。通过利用其语义结构的技术,研究证明了词嵌入可以学习到科学迁移的丰富结构,如多级粒度的文化、语言和声望关系。该研究成果为使用神经嵌入来表示和理解科学内外的迁移提供了理论基础和方法框架。
PNAS速递:无监督学习得到的文本嵌入轨迹描述隐藏的科学迁移结构

图3:国际移徙的条件首先是地理因素,然后才是语言因素。(A) 国家向量的分层聚类相似性矩阵,其中的值为至少有 25 个组织的国家内所有组织向量的平均值。矩阵单元的颜色与国家向量之间的余弦相似度相对应。国家名称的颜色与其群组相对应。从左至右,矩阵中分隔的三个单元列的颜色分别对应国家的地区、语系(65)和主要语言。(B) 以元素为中心的聚类相似性揭示了决定层次聚类的因素。地区能更好地解释国家矢量在较高层次聚类中的分组情况。语系,然后是使用最广泛的语言,能更好地解释国家的细粒度分组。


PNAS速递:无监督学习得到的文本嵌入轨迹描述隐藏的科学迁移结构

图4:组织嵌入向量的大小反映了组织的声望和规模。(A) 组织嵌入向量的大小与美国大学研究人员数量的比较。颜色表示大学在《泰晤士报》排名中的名次,1 表示排名最高的大学。未着色的点为未列入《泰晤士报》排名的大学。我们发现了一个凹形,即规模较大的大学往往离原点更远;然而,声望较高的大学的 L2 Norm往往较小。(B) 我们在美国、中国、澳大利亚、巴西等许多国家发现了类似的凹曲线模式


通过揭示神经嵌入与引力模型之间的对应关系,人类迁徙研究可以超越基于地理和网络的迁徙模型,转而利用这些稳健高效的方法直接从个体迁徙轨迹中获取高阶结构。这种对应关系为神经嵌入技术在迁移数据中的应用提供了急需的理论依据,并有助于更好地理解神经嵌入技术。
该研究旨在提供一个方法框架,利用 word2vec 研究科学迁移以及更广泛的迁移问题,如动物迁移、移民趋势、过境网络流动性、离散化手机位置数据和国际贸易。一旦完成词嵌入训练,就可以公布国家、城市或组织等地点之间的功能距离或嵌入模型本身,以方便重复使用,并在基础数据过于敏感而无法公开的情况下,支持可复现性和透明度。此外,这种方法甚至可以用来学习不存在地理类比的实体之间的功能距离,例如基于个人职业轨迹的职业类别之间的功能距离。


编译|郭瑞东

计算社会科学读书会第二季

PNAS速递:无监督学习得到的文本嵌入轨迹描述隐藏的科学迁移结构

详情请见:

数据与计算前沿方法整合:计算社会科学读书会第二季启动


推荐阅读1. 前沿进展:借鉴量子多体纠缠,开发高效无监督学习算法2. 科学学前沿综述:数据、测量和经验方法的新视野3. Science Advances:如何从文本数据中定量估计因果关系?4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程5加入集智学园VIP,一次性获取集智平台所有内容资源6. 加入集智,一起复杂!


点击“阅读原文”,报名读书会

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy