Synthpop++: A Hybrid Framework for Generating A Country-scale Synthetic
Population
解决问题:本论文旨在解决人口普查的昂贵和时间消耗的问题,提出了一种新的混合框架SynthPop++,可以使用多个现实世界的调查数据生成具有真实人口结构的合成人口,为印度等低收入和中等收入国家提供了一种更便宜、更快速的人口普查方法。
关键思路:SynthPop++框架结合了机器学习和统计学方法,可以将来自不同调查的数据集合并,生成具有真实人口结构的合成人口。与现有研究不同的是,SynthPop++生成的人口具有家庭结构,包括人口的人口学、社会经济、健康和地理位置属性。这种方法可以为印度等国家提供更真实、更详细的人口数据,并可用于模拟印度的传染病传播情况。
其他亮点:本论文使用了机器学习和统计学指标评估了合成人口的质量,并在实验中展示了SynthPop++框架可以生成印度各个行政单位的真实规模、详细数据的合成人口。该研究为人口普查提供了一种新的方法,并为印度的传染病建模提供了新的数据来源。此外,本论文还开源了SynthPop++框架的代码,为后续研究提供了便利。
关于作者:Bhavesh Neekhra, Kshitij Kapoor, Debayan Gupta分别来自印度的Sri Aurobindo International Centre of Education和Turing.com。他们的代表作包括Neekhra等人发表在IEEE Access上的“Anomaly Detection in Time-Series Data: A Survey and Taxonomy”和Kapoor等人发表在ACM Transactions on Intelligent Systems and Technology上的“Multimodal Emotion Recognition using Deep Learning: A Review”。
相关研究:近期的相关研究包括:
- “A Survey on Synthetic Population Generation for Social Agent-Based Modeling”,作者为Yuan等人,发表在IEEE Access上;
- “A Synthetic Population Generation Framework for Smart Cities”,作者为Wang等人,发表在ACM Transactions on Internet of Things上;
- “Estimating the Size of Populations at Risk of HIV Infection from Multiple Data Sources Using a Bayesian Hierarchical Model”,作者为Bao等人,发表在Journal of the Royal Statistical Society: Series A (Statistics in Society)上。
论文摘要:本文介绍了一种名为SynthPop++的新型混合框架,可以将来自多个真实调查的数据(具有不同、部分重叠的属性集)结合起来生成真实规模的人工合成人口。这种方法可以避免传统的人口普查需要高昂成本和耗费时间的问题,同时还可以避免因收集数据种类而引起的隐私问题。合成人口具有人口学、社会经济、健康和地理位置等特征,保持了家庭结构,使得这些“虚假”的人在现实生活中具有真实性。这些数据可以用于多种用途,本文探讨了一种应用场景:在印度进行基于代理的传染病建模。作者使用机器学习和统计指标来评估合成人口的质量。实验结果表明,合成人口可以在印度的各种行政单位中实现真实的模拟,从城市到区域再到国家,最终形成一个真实规模的合成人口。