免费医学论文发表-生成用于模拟流行病时空动态的合成种群
抽象
基于智能体的模型在探索控制传染病传播的复杂过程方面获得了牵引力,特别是因为它们在捕捉非线性相互作用动力学方面的能力。基于智能体的模型在复制真实世界的流行病场景时的保真度取决于对人群范围和个人层面相互作用的准确描述。在缺乏全面人口数据的情况下,合成人口可作为基于智能体的模型的重要输入,近似于现实世界的人口结构。虽然目前的一些种群合成器考虑了来自同一家庭的代理之间的结构关系,但该领域仍有改进的余地,这可能会在随后的疾病传播模拟中引入偏差。作为回应,这项研究揭示了一种新的方法,用于生成为传染病传播模拟量身定制的合成种群。通过整合来自微样本衍生的家庭结构的见解,我们采用启发式组合优化器来重新校准这些结构,随后产生忠实地代表代理结构关系的合成种群。通过实施这项技术,我们成功地为中国深圳生成了一个空间显式合成群体,其中包含超过 1700 万个智能体。研究结果肯定了该方法在描述固有的统计结构关系模式方面的有效性,与城市和分区层面的人口基准非常吻合。此外,当根据基于随机病原体的易感-暴露-感染-恢复模型进行评估时,我们的结果指出,人口合成器的变化可以显着改变流行病预测,影响峰值发病率及其发病率。
作者摘要
探索传染病传播的复杂性,使用可以模拟复杂、非线性相互作用的工具变得非常有见地。其中,基于智能体的模型脱颖而出,主要是因为它们不仅能够反映广泛的人群,还能够反映详细的个体层面的互动。虽然当综合数据集难以捉摸时,合成种群可以作为现实世界人口统计学的重要替代品,但它们的创建并非没有挑战。现在的合成器虽然承认家庭内部的关系,但仍有细微差别有待探索。为了解决这个问题,我们的研究提出了一种为制作合成群体量身定制的开创性方法,特别是用于疾病传播模拟。这种方法基于来自真实家庭结构的数据,利用优化策略来有效地校准这些关系。应用这一点,我们精心构建了一个中国深圳的合成种群,包含超过 1700 万个智能体。我们的研究结果强调了该技术在准确模拟人口结构方面的实力,值得称赞的是,它坚持了城市和分区尺度的人口统计指标。至关重要的是,我们的研究结果还阐明,合成器的具体选择会对流行病模拟产生深远的影响,影响疾病发病的高峰和时间等关键属性。
数字
Fig 11图1表1表2图2图3图4图5Fig 6Fig 7Fig 8Fig 9Fig 10图11图1表1表2
引文: Zhu K, Liu K, Liu J, Shi Y, Li X, Zou H, et al. (2024) 生成用于模拟流行病时空动态的合成种群.PLoS 计算生物学 20(2): 编号:E1011810。 https://doi.org/10.1371/journal.pcbi.1011810
编辑 器: Benjamin Althouse,华盛顿大学,美国
收到: 2023年4月18日;接受: 2024年1月8日;发表: 2月 12, 2024
版权所有: ? 2024 Zhu et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 本研究使用的人口统计数据和交通调查数据可以分别向深圳市统计局(http://tjj.sz.gov.cn/)和深圳市规划和自然资源局(http://pnr.sz.gov.cn/)申请。此外,我们研究的公共使用微观数据样本 (PUMS) 数据集可在 http://www.isss.pku.edu.cn/cfps/download 和 https://international.ipums.org/international/ 申请时获得。我们已在数据S1.zip中汇总了所有相关的补充数据以供上传,地图的基础图层及其许可许可可在 Kaggle 上获得(链接:https://www.kaggle.com/datasets/keminzhu/basemap-shenzhen-subzones)。我们的模型配置和源代码已经提供(链接:https://github.com/ZhuKemin/EpiPopSynth)。
资金: 以下资金来源被确认为为指定作者提供资金。本研究部分由国家重点研发计划(No.2021YFC2600505: LY, HBD)资助。本项目由国家自然科学基金(No.42271475: LY & No. 42271474: KL)资助。本项目已获得广东省基础与应用基础研究基金资助(2022A1515110121:KZ,2022B1515120064:LY)。本研究由广东省自然科学基金(No. 2021A1515011191: KL)部分资助。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
利益争夺: 提交人声明不存在相互竞争的利益。
1. 引言
基于智能体的微观模拟模型在流行病建模领域越来越重要[1\u20124]。与传统的聚合模拟模型(即元群体模型)相比,基于智能体的模型可以模拟每个人随时间推移的属性和行为,从而提供对流行病传播的全面而精确的见解[5]。
几乎所有基于智能体的模型都使用具有相关属性的家庭和个人的合成群体。来自城市的人口普查数据是实现此目的的最佳数据源,因为它包含与整个人口有关的完全分类的信息。然而,收集这些数据可能会受到特定的限制,例如保密性,更重要的是成本[6]。因此,创建合成种群数据被认为是一种经济高效的解决方案,可以提供具有合理准确的合成种群的基于智能体的模拟模型。
人口综合算法的目标是利用人口的一小部分样本,例如从家庭旅行调查中获得的数据,建立一个模型,从中可以根据某些假设生成完整的人口。在交通模拟和城市规划领域已经进行了大量研究,并且有许多完善的人口综合建模工具,可以为城市规划/交通微观模拟提供具有各种社会人口学属性(年龄、性别、职业、收入或智能体是否有汽车/驾驶执照等)的智能体列表[7\u201210]。
与上述模型不同,基于智能体的流行病模拟模型侧重于感兴趣的不同智能体属性。例如,在对呼吸系统疾病进行建模时,感染后发病率、重症和死亡的病原体概率通常与年龄有关。因此,在这些模型中,与年龄相关的属性对于表达代理异质性极为重要。尽管一些研究[11]表明收入也会影响疾病传播的动态,但在这项研究中,我们在建模中的重点放在合成人群中的年龄结构因素上。因此,收入等属性尚未作为单个属性包含在我们的模型中。
多项研究表明,家庭结构对传染病的传播有深远的影响[12\u201214]。尽管以前的研究试图以统一的方式将家庭和个人层面的属性联系起来,但它们最简单地拟合了家庭层面属性(例如家庭规模)的边际分布,因此无法捕捉和再现同一家庭中主体之间的相互依赖关系[15]。不幸的是,这可能意味着一些重要的模式被忽略了。例如,一个家庭由三代人组成:孩子、父母和祖父母。儿童由于社交活动和频繁接触同龄儿童,更容易感染病原体,尤其是引起粪口传播[16]和呼吸道疾病[17]的病原体,并可能将这些感染传染给祖父母[18]。这种特殊的传播模式可能导致在流行病期间在老年人口中暴发疫情。然而,除非家庭成员之间的相互依赖关系在合成人口中得到保留,否则模型无法捕捉和再现这种现象。这给流行病模拟过程带来了潜在的偏差。并影响模型的输出,进而误导决策者。因此,用于疫情模拟的人口合成对家庭结构的代表性提出了更高的要求。
一般人口合成模型与流行病模拟设计之间的另一个重要区别是个体位置的显式表示。虽然疾病传播的空间模型对于理解流行病的传播很重要,但值得注意的是,在大多数研究中,空间人口数据主要用于绘制流行病图,而不是在个体水平上预测感染风险[19]。传统上,日常活动链中合成智能体的空间表征要么基于社会人口学属性附着在个体上,要么通过应用基于活动的模型来构建[20\u201222]。在这项研究中,我们关注的是个人和家庭的人口统计属性,而不是他们的流动行为。这一重点指导了我们在居住地址的区域级别上表示个人地理位置的方法。通过这种方法,我们有效地生成了一个具有空间区域标签的合成人口数据集,适用于流行病模拟分析,而不涉及每个个体的详细活动日志或下游任务的旅行轨迹。
本研究旨在提供一个种群综合框架,该框架可以在家庭和个人层面捕捉和再现种群的结构和空间分布。为了更全面地反映个人和家庭特征之间的相互依存关系,拟议的框架整合了两个阶段:(1)典型的家庭结构选择,用于从一小部分分类调查中获取最常见的家庭类型及其频率;(2)组合优化,它生成一个由家庭结构组合组成的整体合成人口,这些家庭结构由完整人口普查数据属性的边际分布组成。这两个步骤确保我们的合成种群根据其结构关系保持同一家庭中个体之间潜在的相互依存关系。此外,构建了基于病原体的易感-暴露-感染-恢复(SEIR)模型,以定性评估不同人群综合方法对流行病建模的影响。
2. 文献综述
在本节中,我们首先回顾了种群合成方法的现状。然后,我们深入研究了合成群体在传染病模型中的应用。最后,我们研究了先前研究的局限性,并提出了本文对文献的一些贡献。
2.1 种群合成方法
种群合成建模有丰富而广泛的文献,迭代比例拟合 (IPF) 算法是最广泛采用的方法。它最初是作为调整列联表的方法[23]而开发的,它是一种仅保留主效应的对数线性模型,并已应用于城市研究和交通研究等各个领域。尽管它很受欢迎,但研究人员一直在努力解决 IPF 模型的局限性。例如,当存在观测值有限或没有观测值的属性时,就会发生“零单元问题”,这可以使用[24]提出的稀疏矩阵操作技术来解决。此外,IPF方法在处理大量属性时可能会变得很麻烦,尤其是那些具有多个类别的属性,这可能会限制可扩展性[25,26]。
在显微镜流行病模拟的种群合成方面,IPF最显著的局限性是它只匹配单个人口统计学水平的分布;因此,它无法以统一的方式将家庭和个人层面的属性联系起来[27]。[28]提出的迭代比例更新算法旨在使家庭和人属性在通用生成器中尽可能地匹配。该算法允许同时控制两个级别,以更好地控制家庭和个人级别的配件。此外,还提出了分层和多阶段IPF程序来保持这些关系[29,30]。PopGen是一个开源的合成人口生成器[31],就是使用这种算法实现的。
种群合成可以分为两种主要方法,具体取决于目标是创建实体的属性还是复制已知的真实实体。这两种方法通常分别称为合成重建(SR)和组合优化(CO)[31]。CO常用于种群合成,它试图通过从微观数据中随机选择样本来生成优化解,同时使用模拟退火等算法最小化边际差异[32,33]。基于CO的方法的特点是在微量样品中复制现有试剂[34]。CO的其他变体,如基于适应度的方法[35],遵循微样本复制过程。然而,如前所述,过度依赖复制可能会导致一些概念和经验挑战。
相比之下,SR 是一种种群综合方法,它利用详细和汇总的数据来重建单个实体,依赖于对最准确的基础属性分布的估计。最初,这种技术依赖于粒度数据,通常是样本,该样本被认为是总体人口的代表性子集,通常称为种子数据。随后,通过将具有特定社会人口特征的个体分配到指定区域来创建合成种群。这种分配采用加权机制,使边际分布与汇总数据保持一致,这些数据通常来自人口普查数据等综合来源。实现这种对齐的一种既定方法是通过确定性重新加权算法[36,37]。这些算法为粒度数据中的单个记录分配权重,将它们视为从可用聚合数据派生的概率分布。该过程独立处理人口单位的每个属性,从边际分布中抽样,以选择与特定区域人口总数相匹配的单位。
本研究的文献综述主要集中在常规的群体合成方法上。然而,重要的是要承认,近年来出现了更先进的方法,值得关注。例如,概率图模型,包括隐马尔可夫模型(HMM)和贝叶斯网络,已被探索用于人口合成任务[34,38,39]。这些模型为种群综合提供了一个概率框架,允许合并不确定性并捕获属性之间的复杂依赖关系。此外,深度生成模型,如生成对抗网络(GAN)和图自动编码器(GAE),在包括人口合成在内的各种数据合成应用中获得了巨大的吸引力[40]。这些模型能够生成多样化和逼真的合成种群,与传统方法相比,它们可能具有优势。此外,“空间显式”种群合成的概念也受到关注,能够创建捕捉地理分布模式的合成种群[41]。然而,这些深度学习模型通常需要大量的超参数调整和训练,这增加了复杂性并降低了实现的实用性。因此,我们选择了 CO 方法,因为它们具有典型的轻量级算法结构,使其在处理大量人口数据时更易于实现且效率很高。这种轻量级的结构和易于实施使我们的方法在传染病建模领域具有实际意义,并促进了其他建模者的采用和应用。
值得注意的是,虽然以前的方法已经发挥了重要作用,但准确再现家庭成员之间的结构关系的挑战仍然存在。这些结构关系与家庭内部的个体互动密切相关,可以显着影响传染病的建模。将这种类型的家庭结构信息引入人口综合模型有可能增强我们捕捉这些复杂网络结构的能力。
2.2 合成人口的疫情模拟
流行病模拟包括一个相关且经常重叠的研究流,需要高度逼真的合成人群。为了模拟具有不同地理和人口特征的人群中感染的传播,建模者通常使用人口普查数据,这些数据要么来自他们计划重建的人群,要么来自相似的人群[3,42]。在许多研究中,合成群体已被广泛认为是流行病建模的宝贵工具[26,43–46]。当人群异质性在疾病传播中起关键作用时[47],或者不同亚组(如年龄组)的疾病发病率或感染风险差异显著时,这一点尤为重要[48–50]。最近关于COVID-19患病率在各年龄组之间差异很大的研究结果[51,52]进一步强调了人口统计学在影响传播动态方面的关键作用。
与城市规划或交通模型研究相比,人口综合用于流行病建模侧重于不同的科学问题和感兴趣的属性。然而,据我们所知,只有少数种群合成方法专门用于设计基于智能体的流行病模型,包括流行病建模工具包中的人口合成模块[53]。一些现有的基于流行病因子的模型使用来自调查的真实世界数据来模拟小区域内的人口和媒介间接触,例如街区[1]或校园[54]。然而,这种方法涉及隐私问题,并将模型的应用范围限制在一个小的研究区域。当涉及到在城市层面甚至更大的研究规模上对流行病的发展进行建模时,这种方法在成本或数据可访问性方面都不适用。
在缺乏真实世界数据的大量人群中对流行病传播进行建模时,已将各种技术应用于现有的基于智能体的模型,以应对人口综合问题。由于其简单性,IPF已成为包括流行病建模在内的各种现实建模问题[55\u201256]的种群合成的首选[55,56]。忽视家庭结构信息可能会给构建的合成人群带来潜在的偏差,从而影响疾病传播过程的模拟。
作为为微尺度流行病模拟生成合成种群的替代方法,一些基于智能体的模型利用了最初为交通、生态和城市规划研究而设计并广泛应用的开源模块或软件。此类工具的例子包括 TransSim 和 MATSim [59,60],以及其他工具,如 SPEW(用 R 语言实现)[61] 和 Gen*(用 Java 语言实现)[62],它们也用于此目的。这些开源平台为创建具有代表性的合成人口提供了实用工具,用于城市交通规划,并且可以很容易地用于流行病建模。这些平台中的大多数都能够以一种有凝聚力的方式将家庭层面和个人层面的属性联系起来。一些基于活动的旅行需求模型(例如 ActivitySim)可以基于经典交通模拟器(例如四步旅行模型)模拟个人的旅行选择/旅行。尽管它们在微观流行病建模领域得到了广泛的应用,但通用人口合成器复杂且计算量大。由于维度的诅咒,表征大量属性之间的联合关联的任务变得具有挑战性,特别是当这些属性在家庭和个人层面都按层次组织时[15]。在家庭和个人层面上拟合社会经济属性,包括收入、建筑类型和车辆数量,可能会带来沉重和不必要的计算负担,因为这些属性在大多数流行病研究中并不重要。由于计算不敏感,大多数用于流行病建模的基于智能体的模拟器倾向于生成采样合成种群,而不是具有研究区域实际大小的种群,这可能会削弱合成种群的代表性。
综上所述,目前的人口合成器侧重于拟合多维社会经济属性,因此无法有效捕捉家庭成员之间的关系,导致基于合成因子的基于智能体的传染病传播模拟存在潜在偏差。因此,迫切需要构建一个替代性的人口综合框架,该框架能够准确反映人口中家庭结构的分布,从而表征相互依存的基本分布。
3. 材料与方法
3.1 框架
在本节中,我们提出了人口合成框架(图1),重点是使用家庭主题优化模型设计流行病模拟。该过程包括两个阶段:基序选择和优化。在选择阶段,我们优先考虑了解可能导致家庭成员之间疾病传播的“共同居民”。我们生成了一个有限的特定年龄结构池,称为家庭图案,以代表最常见的家庭类型。这些图案是使用数据驱动的方法生成的,从微样本调查数据中分析编码家庭结构的统计模式。随后,在优化阶段,我们采用了启发式算法来调整分配给这些家庭图案的权重。该过程旨在生成一个与城市和分区两级人口普查数据中的边际属性分布相匹配的合成人口。使用这种合成种群(表示为代理列表),我们建立了一个基于随机代理的流行病模型,以评估生成的合成种群如何影响疾病传播模拟。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 1. 人口综合框架。
底图 shapefile 可通过 https://www 进行访问。卡格尔。com/datasets/keminzhu/basemap-shenzhen-subzones。
https://doi.org/10.1371/journal.pcbi.1011810.g001
3.2 家庭结构的预处理和编码
这个问题的一个基本投入是微量样本(PUMS)的公共使用;在这里,我们使用深圳的家庭和旅行调查数据作为替代方案,因为PUMS不可用。表 1 显示了一个示例数据集。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
表 1. 住户调查数据样本。
https://doi.org/10.1371/journal.pcbi.1011810.t001
表 1 显示了原始调查数据样本,其中我们在预处理阶段将家庭和个人层面的属性视为名义分类变量。每个特工被分为几个年龄组。为了确保简单起见,我们任意地将一个人的年龄分为十年组来说明这个子过程。在实践中,研究人员可以重置年龄组以满足其仿真模型的要求。本研究省略了社会经济属性,例如家庭收入或个人是否拥有驾驶执照,因为这些属性通常不被视为流行病模拟中的关键变量。这有助于避免对不相关的属性进行不必要的计算,并防止以运输为导向的人口综合模型经常遭受的维度诅咒。
这里,表示第i个家庭H中的第k个成员我在调查数据中,其中 I = 1,...,m 和 k = 1,...,n。我们根据性别和年龄将列表中的每个人分为不同的类型。例如,对于年龄在 20-29 岁之间的女性(F/M 代表女性/男性)。随后通过计算家庭中每种类型的个人的总数来对家庭结构进行编码。例如,假设一个家庭由一对 20-29 岁的夫妇(第二年龄组)和两个 10 岁以下的女儿(第一年龄组)组成,在编码过程中,该家庭被标记为编码为“(M,2)+(F,2)+(F,1)+(F,1)”。
3.3 家居图案选择
在当前年龄组设置下,有 18 种不同的个体类型,即使我们假设家庭规模不超过 6 人,也可能导致超过 4700 万个可能的家庭结构和 4729 个。如果采用更精细的年龄组,这个数字会呈指数级增长,从而无法在合理的计算时间内进行后续优化。然而,这些家庭结构中的大多数在现实世界的人群中很少被观察到。例如,编码为“(F,8)+(F,8)+(F,8)+(F,8)+(F,8)+(F,8)+(F,8)”(由六名老年妇女组成的家庭)的家庭结构在大多数城市中并不常见,因此可以忽略不计,而不会失去人口的实质性代表性。
基于这种直觉,我们选择了调查数据中最常见的 S 家庭结构作为整个人口的近似代表。我们称这些家庭结构为母题,类似于复杂网络中母题[63]和人类流动建模[64],后者指的是一种独特的、通常是反复出现的结构元素。
具体来说,我们首先遍历调查数据并记录家庭结构。然后根据这些家庭结构出现的频率重新排名。给定一个具有代表性的阈值α,可以得到一个最小 S 以确保其中 HS
我是重新排名后的第i个家庭结构,P(HS)是HS在调查数据中的频率。这些 HS我选择基序进行后续优化。在遍历过程中,P(HS)被记录为以下优化过程的初始值(表2)。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
表 2. 家庭主题权重矩阵的示例。
https://doi.org/10.1371/journal.pcbi.1011810.t002
这种主题选择方法的另一个主要局限性是,它只捕获了住户调查数据中现有的住户结构,这意味着如果在调查数据中没有观察到一个住户的特定属性组合,例如代理的特定组成,则它可能不会在合成种群中生成,因为初始分布中的相应像元为零[15].在人口普查人口统计与住户调查数据相结合的过程中,可能会出现这种零单元格问题。这些问题主要与传统的IPF/CO方法有关,当名义类别过于细粒度,并且抽样调查数据对所有可能的属性组合缺乏足够的覆盖时,就会发生这些问题。为了解决这个问题,我们用小的正值替换不正确的零单元格值(例如,10?5).这种方法在以前的基于组合优化的方法中已经普遍使用[8]。
3.4 家居主题组合优化
为了生成用于流行病模拟的合成人口,我们调整并重新分配了第 3.3 节中选择的家庭图案之间的权重。此过程最常用的方法是迭代比例拟合 (IPF) 过程,该过程涉及估计与给定边际频率分布相匹配的关节分布。然而,这种方法可能导致匹配家庭和个人水平分布的权重不一致,即使使用更复杂的算法也是如此[28]。此外,准确描述家庭结构也是一项艰巨的任务。因此,我们提出了一种称为主题启发式优化(MHO)的方法,通过结合家庭主题的分布来生成合成种群。
该算法首先创建一个属性矩阵 D,其中包含描述家庭构成的所有图案和数据(如上表 2 所示),其中 Np是这个图案的家庭大小,Nf、Nm、N一个k代表此类家庭中不同性别和年龄组的代理人数量。X表示由调查数据中的观测频率初始化的家庭母题的权重,目标向量表示人口普查数据中整个人口的总规模以及不同性别和年龄组的代理人的数量,这些母题将被重新加权以匹配。这个问题可以重新表述为优化问题,其中家庭图案 X 的权重是决策变量或向量。可以制定一个目标函数,以最小化模拟 Y = D?X 与使用均方误差的观测值之间的差异。数学公式如下: 其中 是用于确保优化权重 X 与调查数据中观察到的家庭图案权重一致的惩罚项。我们使用对数函数对该术语进行归一化,以解释调查中观察到的家庭图案分布中显着的幂律特征。ub 是 X 的上限向量,它决定了优化的搜索字段;在这种情况下,UB 被设置为全向量。为了防止负权重,对每个人施加了额外的非负下限约束,因为负个人或家庭显然不存在。
在制定目标函数和约束条件后,优化阶段的目标是找到提供最佳拟合的家庭结构。理想情况下,一个简单的方法将涉及枚举所有可能的图案组合并评估它们的分数。然而,在实践中,这是不可行的,因为候选者的数量随着所选基序的数量呈指数增长[65]。因此,为了以可接受的计算效率解决这个边界约束的非线性最小化问题,引入了信任区域反射优化器[66]来重新权衡基序。如算法 1 所示,此过程可以看作是一个迭代搜索过程,其中算法从一个解决方案移动到相邻解决方案,直到满足停止标准(算法 1)。
算法 1.主题启发式优化过程
算法基序重新加权的启发式优化
INPUT:基序池的属性矩阵D;基序分布 X初始化;执行 k 的最大迭代次数麦克斯,迭代之间的绝对误差 ftol,收敛是可以接受的;已知的边缘向量
输出:优化的基序权重向量 X
1:初始化
2:虽然k
3:Xk←邻居(X)
4:Δ 损耗 = 损耗(X)?损耗(X k),其中
5:如果 Δf<0,则
6:更新 X←Xk
7:如果结束
8:如果 |Δ损失|
9:中断循环
10:如果结束
11:结束时间
合成家庭可以生成并形成合成代理列表,基于从微样本调查数据中选择的家庭图案及其权重 X,通过重复家庭图案 X 次的启发式优化得到。但是,值得注意的是,从优化过程中得到的X是一个十进制数,在生成住户名单时会四舍五入。这可能会引入数值偏差,并导致在生成的合成群体中忽略一些不常见的低权重家庭结构。为了解决这个问题,我们通过以权重 X 作为选择概率进行抽样来生成合成种群,而不是重复家庭图案。这种操作的必要性取决于下游基于代理的模型中各个家庭的需求。
结果
本节演示了本研究中提出的群体合成方法的性能。本例中,采用子抽样住户调查和人口统计数据,为深圳市673个社区生成了1737万人的合成人口,并检验了拟合合成人口边际分布和性别-年龄组合联合分布在城市和分区层面的效果。随后,我们将所提出的模型与两种广泛使用的人口合成方法(直接膨胀和迭代比例拟合)进行了比较,以捕捉跨年龄相互依赖性的能力。通过进行简单的易感-传染-去除微观模拟,进一步讨论了不同合成人群中这种差异对模拟传染病传播的影响。
3.5 数据源
(a) 住户访谈。
2016年,深圳市陆路交通管理局进行了一项交通调查,该调查是中国城市和交通建模/规划的重要数据来源。城市/交通规划机构和研究机构通常使用交通调查来收集家庭和个人层面的综合人口和社会经济信息,以及每个人在特定工作日的旅行/活动记录。这里使用的整个调查数据集发现了来自 46,001 个家庭的 111,604 人(约占总人口的 1%)。
在应用之前,对原始调查数据进行了修改,以适应模型的要求。为简单起见,保留了感兴趣的属性,包括个人/家庭标识符、年龄和性别,而放弃了收入、驾驶执照、通行证类型和社会保障状况等社会经济列。表2总结了修改后调查中家庭和个人层面的属性。此外,原始数据还包含集体住宅,如教职员工宿舍和学校宿舍。这些非家庭家庭根据其标签进行过滤。修改后的数据集包括 29,698 个家庭和 65,577 人。调查中的平均家庭规模为2.2户,最大的是10户。关于年龄属性,人口普查数据以数字形式呈现;然而,由于数据缺失和边际发生率为零的可能性,年龄被整理为九组,并相应地对调查数据进行分组。
需要注意的是,我们的数据没有提供关于这种同居的明确统计数据。数据中的许多群体实际上由十几个非传统生活安排的个人组成,例如室友合租或公司宿舍,而不是严格属于传统家庭的类别。将这些数据引入我们的分析可能会在随后的流行病模拟中引入偏差。
(b) 人口统计数据。
人口数据集来自深圳市统计局提供的2020年以来在中国进行的第七次人口普查。数据集具有社区层面的空间分辨率,包含深圳市所有社区各年龄组的总人口,以表格形式保存,列名包括社区名称、0-10岁人口、11-20岁人口、21-30岁人口等。
原始数据包含按行政区划划分的 846 个单元,然后将其重新划分为 673 个分区,面积从 0.2-30 公里不等2按地理边界。来自无人居住山区的数据被丢弃。最小和最大的社区是七尾和同胜,分别不到300名居民和超过12万名居民。
3.6 图案选择和优化
3.6.1 家庭结构分析。
模型选择的目的是从微样本数据中获得最具代表性的S家庭结构及其分布。因此,我们在旅行调查中对编码家庭结构的分布进行了统计分析。图 2 说明了数据集中 1000 个最常见的家庭结构的概率密度和累积分布函数。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 2. 调查数据中家庭结构的分布。
(a) 概率/累积密度函数。(b) 频率等级和班轮回归。
https://doi.org/10.1371/journal.pcbi.1011810.g002
图2(A)所示的概率/累积密度函数曲线显示,排名靠前的家庭结构与其他结构有数量级的差异。例如,在调查中,最常见的家庭“(M,3)+(F,2)”占所有家庭的7%,只需124个结构即可覆盖调查数据中90%以上的家庭,而分别需要216个和828个结构即可将覆盖率提高到95%和99%。S1表提供了家庭结构和分布的详细列表。
为了提供更定量的分析,我们将家庭分布投影到双对数尺度上并应用线性拟合。如图2(B)所示,调查中家庭结构的频率表现出显著的截断幂律分布,r值为2>0.99。为了进一步检验这一发现的普遍性,我们收集了来自中国和其他国家省份的家庭解释调查数据。统计和拟合结果显示,具有相似的幂律分布和不同的指数指标(S2文本),表明这种模式在地理区域和人群中是可推广的。
3.6.2 优化基序权重。
在此阶段,按照第 3.5 节中描述的启发式优化程序,对选定的基序进行重新加权以满足家庭和个人层面的边际分布。该模型以微样本数据中不同家庭图案的分布频率作为初始猜测开始迭代,然后不断重新调整图案的权重以达到优化器目标。目标函数由年龄、性别和家庭规模边缘的生成人口的残差组成。自变量的下限和上限分别设置为零和无穷大,因为基序权重不应为负。应用线性损失函数来减少异常值对解的影响。选择 TRF 算法作为执行最小化的优化器,因为它特别适用于具有边界的大型稀疏问题。Python 包 Scipy。optimize 用于实现此过程。
图 3 显示了年龄、性别和家庭规模的目标函数和残差分量如何随着迭代次数的增加而变化。在优化的初始阶段,目标函数值主要由年龄组分布的残差贡献。在上述实验设置下,Python 实现每次迭代大约需要 0.2 秒,并且需要超过 8000 次迭代才能最终收敛(收敛可接受的目标函数中的相对误差 ftol 设置为 1e-6)。目标函数接近于零,表明在匹配家庭和个人层面属性的联合分布方面具有高度的精确度。我们在具有 800 个计算节点的高性能计算环境中并行生成了多个空间单元的子群,大约需要 30 分钟才能完成优化。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 3. 目标函数值随迭代次数的变化。
https://doi.org/10.1371/journal.pcbi.1011810.g003
3.7 模型验证
3.7.1 分区一级的边际分布。
我们对深圳的多个子区域进行了优化,从而生成了一个具有地理空间区域标识符的合成种群。每个优化过程都使用从住户调查中提取的相同基序库,而年龄的边际分布在各分区之间有所不同。由于使用的人口统计数据不包括分区层面的性别和家庭规模分布,因此我们使用城市层面的边际来表示每个分区的分布。如果相关数据可用,则可以解决忽略这些属性的空间异质性。因此,人口合成器有望生成多个子群体,使得每个子群体都能满足子区的年龄分布,而整个人口可以满足整个城市尺度上家庭规模、性别等高维属性的分布。
为了评估生成的合成人口的准确性,我们将每个合成亚群的人数与人口统计数据中边际分布的真实基值进行了比较。图4显示了不同年龄组和真实数据中完整人口的合成结果和空间分布,并进行了相同比例的比较。可以看出,对于每组原始种群和合成种群,其空间热点高度一致,表明所提模型能够准确反映种群的空间分布特征。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 4. 各次区域各年龄组全部人口的空间分布。
底图 shapefile 可通过 https://www 进行访问。卡格尔。com/datasets/keminzhu/basemap-shenzhen-subzones。
https://doi.org/10.1371/journal.pcbi.1011810.g004
这种比较的量化分析结果如图5所示,其中每个点代表特定年龄组内生活在某个社区中的个体数量,不同年龄组以颜色区分。生成的合成种群在年龄分布方面与真实值高度一致,r平方达到0.99以上,一些相对较大的偏差集中在左下角。其中大多数是70岁以上的人,这主要是由于研究城市的人口结构高度年轻化,部分社区老年人较少,导致相对误差较大。总体而言,生成的合成种群准确反映了研究区种群的空间分布,并且所提出的模型在亚组水平上进一步表现出较高的鲁棒性。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 5. 从子区域级别的人口统计数据和合成人口中获得的年龄分布,其中每个点表示子区域内某个年龄组的人口数量。
https://doi.org/10.1371/journal.pcbi.1011810.g005
3.7.2 城市一级的边际/联合分布。
在本节中,我们进一步研究了生成的合成种群与属性的边际分布和联合分布中的真实数据之间的一致性。检查的主要属性包括家庭规模、年龄分布和性别分布。由于性别和家庭结构的边际数据仅在城市一级提供,因此这部分测试是在整个城市人口一级进行的。比较结果分别显示在图 6 中,其中通过对亚群求和获得整个合成种群的边际分布。该模型对一维边际分布拟合较好,各属性的分布误差在0.01%以内,规模为2的家庭比例误差最大,为2.23*10?5.
thumbnail 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 6. 比较从人口统计数据和合成人口中获得的家庭规模、年龄和性别的边际分布。
https://doi.org/10.1371/journal.pcbi.1011810.g006
为了进一步量化模型的一致性,我们将生成的合成人群的二维(年龄和性别)频率与从调查数据计算出的频率进行了比较。由于在子区域层面缺乏分区层面的联合分布数据,因此该比较是在整个种群层面进行的。图 7 显示了调查数据与合成种群之间的比较结果。它侧重于年龄-性别群体的联合分布。每个单元格内的颜色编码表示特定组中人口的比例。值得注意的是,分布中最大的绝对偏差发生在(40-50岁,女性)组。然而,由于老年群体在总人口中的代表性较低,导致相对误差相对较高,这种差异更加突出。相对误差最大的是80y+女性群体,约占7.6%。
thumbnail 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 7. 从调查数据集和合成人口中获得的年龄-性别联合分布的比较。
https://doi.org/10.1371/journal.pcbi.1011810.g007
3.7.3 家居图案的分布。
如前所述,现有人口合成方法的技术难点之一是捕捉和再现同一家庭内主体之间的相互依赖关系。特别是对于个体层面的疫情建模,家庭成员的年龄结构可能会影响后续的传播模拟过程。本文通过研究模拟结果和调查数据中家庭图案分布的差异来比较不同的方法。
图 8 显示了人口合成器捕获家庭结构分布的能力。从调查数据中家庭结构的分布中获得图案的等级。在没有对整个人口进行观测的情况下,我们假设调查数据具有足够的代表性,并使用家庭结构的分布作为检验模型的基本事实,该模型由虚线表示。箱线图表示在所提出的MHO方法和两种基准方法的重复实验中从合成群体中获得的基序的频率。在3个群体合成器中,MHO和DI表现出优异的保留基序分布特性的能力,而IPF模拟的前11个基序的频率仅低于观测值。这种系统性低估是由于未能再现少数族裔家庭结构在人口中占主导地位造成的。在多次实验中,DI方法模拟得到的基序分布的平均值与观测结果一致。这是由于在不调整权重的情况下直接复制现有家庭,最终在多次实验后接近观测值的分布。然而,由于DI的性能高度依赖于调查数据的质量,因此DI模拟分布的方差明显高于MHO。当调查数据不够具有代表性或样本量较小时,可能会引入偏差。相比之下,MHO方法可以更好地保持家庭结构的分布特性,并有可能捕捉家庭内部的相互依存关系。
thumbnail 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 8. 比较不同方法生成的合成群体中的基序分布,基序根据调查数据排序。
https://doi.org/10.1371/journal.pcbi.1011810.g008
3.7.4 家庭内部的相互依存关系。
本节评估了所提出的模型捕捉家庭成员跨年龄相互依赖性的能力,我们通过构建接触矩阵来描述这一点。对于合成种群中同一家庭内的代理人,在矩阵的相应行和列中记录一对年龄。例如,一个编码为“(M,3)+(F,3)+(F,0)”的家庭包含两名三十多岁的成年人和一名十岁以下的儿童。在这种情况下,30-40 岁和 0-10 岁之间的关联被计算两次,而 30-40 岁和 30-40 岁之间的关联被计算一次。
图 9 显示了合成人口的家庭接触矩阵。为了确保结果的稳定性,对重复实验中使用相同方法生成的群体矩阵进行了平均。三个合成器在一定程度上捕获并再现了原始接触基质的结构特征。在合成器中,MHO的模拟效果最好,平均绝对误差总和比DI(0.58)和IPF(0.48)小0.40。误差分布不均匀,IPF误差集中在相邻年龄组,而DI的最大偏差在第2和第4年龄组,为0.018。
thumbnail 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 9. 使用不同方法将模拟人群中的相互依赖性分布与调查数据中的相互依赖性分布进行比较,其中每个像元的值代表家庭中相应跨年龄关系的平均频率。
https://doi.org/10.1371/journal.pcbi.1011810.g009
3.8 对疾病传播的影响
3.8.1 基于智能体的流行病模型概述。
本文构建了随机、离散时间、基于代理的模型,以进一步评估种群综合方法对后续流行传播过程的影响。该模型修改自[67])。具体来说,在第 4.3 节中,我们考虑了一种传播模型,其中病原体在合成加权接触网络上传播,该网络是从 4 中概述的 MHO、DI 和 IPF 方法生成的种群推断出来的。3. 如图 10 所示,接触网络由四层组成,代表以下环境中智能体之间的互动网络:(1) 家庭、(2) 工作场所、(3) 学校和 (4) 社区。从合成种群的家庭概况中推断出家庭层中两种智能体之间的联系。工作层和学校层分别仅包括 0-20 岁和 20-60 岁的代理人,而家庭和社区层则包括所有年龄段的代理人。为简单起见,模型中不考虑就业率和入学率;每个年龄为 0-60 岁的智能体代表工作场所或学校层中的一个节点。每个触点的传输概率取决于触点类型。这些值对应于 10:2:2:1 的相对权重(Kerr et al., 2021)[68](即家庭、学校、工作场所和社区接触者),选择这些值是为了与时间使用调查(Lader, Short, & Gershuny, 2006)[69] 和已知接触类型感染研究(Zhang et al., 2020)[70]。
thumbnail 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 10. 基于代理的流行病模型框架。
(a) 用于描述各州之间传染病自然史的区室模型。(b) 加权多层接触网络示意图。S1 文本中提供了流行病模型和区间之间过渡的详细信息。
https://doi.org/10.1371/journal.pcbi.1011810.g010
该疾病的自然病程被捕获为一个简单的易感-暴露-感染-康复模型。该模型假设易感个体 (S) 通过与感染个体接触而暴露于疾病,随后过渡到暴露的隔间 (E),在那里他们被感染但尚未具有传染性。有症状的个体被分配了 2 天的潜伏期以表现出症状 (I)。症状出现后,传染性病原体再保持传染性 10 天并恢复 (R),获得对进一步感染的永久免疫力。
3.8.2 模拟疫情传播。
在本节中,我们分析了合成种群的传播模拟结果。对于第 4.3 节中 MHO、DI 和 IPF 生成的每个群体,根据上述设置构建了多层接触网络和单个模型。具体来说,该模型是用 100 个随机选择的 0-20 岁感染种子初始化的,它们的隔间设置为暴露。每天记录模拟中的受感染代理,直到达到最大模拟天数(80 天)。
图11给出了模拟的流行曲线,其中每日发病率表示一天内新病例(易感→暴露)的数量占其年龄组或整个人口数量的比例。本文重点关注了发病峰值率、发病峰值日期和攻击率等指标,这些指标是现实世界疫情防控中最关键的关注指标。从全龄-流行曲线来看,3类合成人群的传播过程结果在发作率和发病峰值均值上没有显著差异,而DI人群的流行曲线表现出较大的不确定性,1000次重复实验中全龄-终龄发作率和峰值发病率的标准方差分别为0.99和0.10, 分别远高于MHO(0.12和0.03)和IPF(0.12和0.03)。这与图8中对家庭主题分布的先前分析一致,该分析表明DI方法对用于合成种群生成的抽样调查数据的表示更敏感;因此,就传播特征而言,种群不太稳定。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 11. 使用不同合成人群模拟的流行曲线。
https://doi.org/10.1371/journal.pcbi.1011810.g011
在所有三种类型的合成人群中,y0-20年龄组的感染高峰期比其他年龄组更早到来,因为最初的种子是在学校中形成的,这使得这些年龄组的病原体更容易在早期被感染。然而,对于IPF人群来说,特定年龄和满龄高峰日期都比其他两种类型的人群略晚。在y60+年龄组中,峰值时间的差异会更显著,IPF方法模拟的峰值时间比MHO方法滞后2 d。我们推测,这种差异是由于家庭图案在合成种群中的分布。此外,尽管DI群体的峰值日期的平均值与MHO群体的峰值日期的平均值相同,但根据百分位间隔宽度,不确定性显著更大。
综上所述,基于具有一致边际属性分布的不同合成人群模拟疾病传播不会导致模拟结束时的攻击率存在显着差异,无论是针对特定年龄组还是针对整个人群。但是,它确实对疫情期间的每日发病率和疫情高峰的时间有影响。我们推测,这是因为平衡时种群的最终感染规模主要受边际属性分布的影响,不同合成种群生成方法之间没有显著差异。然而,不同合成种群中家庭结构的比例会影响流行病模拟中疾病传播动态的动态。因此,在真实世界的流行病建模中,对家庭结构的分布进行精确建模对于精确分析和防控是必要的。
4. 讨论
在这项研究中,我们引入了一种启发式优化驱动的方法来制作针对传染病传播动态量身定制的合成群体。通过从调查数据中获取典型家庭结构及其分布模式的见解,我们增强了综合器阐明家庭内部结构关系的能力。我们的重点是制定以可靠的接触动态为基础的人群。本研究的关键贡献包括以下几点:
首先,通过对多个国家和地区的住户调查数据的分析,发现真实世界人口中的家庭结构表现出显著的幂律分布特征,即有限的住户结构类型足以代表整个人口,具有足够的代表性。
其次,我们提出了一种MHO人群合成方法,通过结合典型的家庭结构信息支持基于主体的传染病建模,提高模拟家庭接触关系的可靠性。通过在中国深圳生成超过1700万人的子区域水平的合成种群来评估所提方法的性能。将生成的合成人口的边缘属性、年龄性别组合和家庭结构分布与人口统计和调查数据进行比较
最后,基于合成人群构建的多层接触网络,使用基于代理的SEIR疾病传播模型进一步分析了不同人群合成方法对家庭接触关系和传染病传播的影响,结果表明,即使输入数据相同,不同的人群合成方法也会导致疫情模拟中峰值日期和峰值发病率的差异。在该领域的更广泛背景下,以前的研究[71\u201273]探讨了家庭和人口结构在疾病传播中的作用,为我们的方法提供了基础性理解。
虽然这项研究主要关注与年龄相关的因素,因为它们对疾病动态和相关数据的可用性有重大影响,但当相应的数据变得可访问时,我们的方法具有扩展到其他属性的适应性,例如免疫力。这种灵活性为未来的研究开辟了令人兴奋的途径,能够生成由影响疾病传播的各种因素构建的合成种群。
需要进一步的研究来克服这些局限性,例如,更好地处理高维属性。所提出的方法依赖于少量的家庭结构来代表人口,这意味着,在处理涉及年龄和性别之外的更多感兴趣属性的人口综合问题时,所需的主题数量显着增加。通过解决这个问题,可以减轻计算负担。同样重要的是要注意,我们的模型目前没有纳入收入等因素,最近的研究表明,这些因素可能会影响疾病传播动态。这一限制是未来可能改进的领域。此外,需要在更广泛的数据集上进行测试,以评估该方法在处理包含更多种类家庭结构的种群时的计算性能。
支持信息
Excel 电子表格,在单独的工作表中包含图 2、3、4、5、6、7、8、9 和 11 的基础数值数据。
显示 1/5: pcbi.1011810.s001.xlsx
跳到无花果分享导航
一个 B C
1 排 h_code x_init
2 1 (((0, 2), 1), ((1, 3), 1)) 0.07130424982033139
3 2 (((0, 2), 1), ((1, 2), 1)) 0.06330751152272414
4 3 (((0, 3), 1), ((1, 3), 1)) 0.05956952182180065
5 4 (((0, 3), 1), ((1, 2), 1)) 0.04759206721931384
6 5 (((0, 3), 1), ((1, 4), 1)) 0.04484772894465528
7 6 (((0, 2), 1), ((1, 4), 1)) 0.04386833558463673
8 7 (((0, 4), 1), ((1, 3), 1)) 0.03550733764221148
9 8 (((1, 3), 1),) 0.03396339275439021
10 9 (((1, 2), 1),) 0.033157133055934734
11 10 (((0, 4), 1), ((1, 4), 1)) 0.031859649027515015
12 11 (((0, 4), 1), ((1, 2), 1)) 0.028296829854761226
13 12 (((0, 2), 1),) 0.021917703120581486
14 13 (((0, 3), 1),) 0.016496582647050735
15 14 (((1, 4), 1),) 0.015880769976314636
16 15 (((1, 2), 1), ((1, 5), 1)) 0.013714222862401853
17 16 (((0, 3), 1), ((1, 5), 1)) 0.013311262752057998
18 17 (((0, 2), 1), ((1, 5), 1)) 0.01290117360859096
19 18 (((0, 4), 1), ((1, 5), 1)) 0.012683907837217694
20 19 (((0, 2), 1), ((0, 5), 1)) 0.011958104369723879
21 20 (((1, 0), 1), ((1, 3), 1)) 0.011226529780177961
22 21 (((0, 5), 1), ((1, 3), 1)) 0.01002206266012742
23 22 (((1, 1), 1), ((1, 4), 1)) 0.010017309971378629
24 23 (((0, 5), 1), ((1, 4), 1)) 0.009865223931417344
25 24 (((0, 3), 1), ((1, 0), 1), ((1, 3), 1)) 0.008444169995529077
26 25 (((0, 1), 1), ((0, 4), 1)) 0.008424480284998375
27 26 (((0, 5), 1), ((1, 5), 1)) 0.00838442190840143
28 27 (((0, 2), 1), ((1, 0), 1), ((1, 3), 1)) 0.008169532481402559
29 28 (((0, 2), 1), ((0, 4), 1)) 0.008168853525867019
30 29 (((0, 5), 1), ((1, 2), 1)) 0.008040870407417454
31 30 (((0, 4), 1),) 0.007572051610126079
32 31 (((0, 0), 1), ((0, 3), 1)) 0.007489219034790021
33 32 (((0, 1), 1), ((0, 3), 1)) 0.006151337152005584
34 33 (((0, 3), 1), ((1, 1), 1), ((1, 4), 1)) 0.005595951523932673
35 34 (((1, 1), 1), ((1, 5), 1)) 0.005297550566062204
36 35 (((1, 1), 1), ((1, 3), 1)) 0.005182807080555698
37 36 (((0, 0), 1), ((0, 2), 1)) 0.005025289396310081
38 37 (((1, 2), 1), ((1, 4), 1)) 0.00473605433816942
39 38 (((0, 0), 1), ((0, 3), 1), ((1, 3), 1)) 0.004644734818639095
40 39 (((0, 2), 1), ((1, 0), 1), ((1, 2), 1)) 0.004452590402080863
41 40 (((0, 3), 1), ((1, 1), 1), ((1, 3), 1)) 0.004290659506854226
42 41 (((1, 0), 1), ((1, 4), 1)) 0.004178631843489886
43 42 (((0, 4), 1), ((1, 1), 1), ((1, 4), 1)) 0.0038961863407046405
44 43 (((0, 3), 1), ((1, 2), 1), ((1, 6), 1)) 0.0038761571524061674
45 44 (((1, 2), 1), ((1, 6), 1)) 0.003861559608392026
46 45 (((0, 4), 1), ((1, 0), 1), ((1, 3), 1)) 0.0037912877104634857
47 46 (((0, 2), 1), ((1, 1), 1), ((1, 4), 1)) 0.0037386686564590227
48 47 (((0, 3), 1), ((0, 5), 1)) 0.0037244105902126522
49 48 (((0, 0), 1), ((0, 2), 1), ((1, 3), 1)) 0.0036901233356678087
50 49 (((0, 3), 1), ((1, 0), 1), ((1, 2), 1)) 0.003489152497147538
图2图3图 4&5图6图7图8图9图11
1 / 5
下载
无花果分享
S1 数据。 Excel 电子表格,在单独的工作表中包含图 2、3、4、5、6、7、8、9 和 11 的基础数值数据。
图 10 的数值数据存储在 shapefile 中,可通过以下链接访问该文件:https://www.kaggle.com/datasets/keminzhu/basemap-shenzhen-subzones。
https://doi.org/10.1371/journal.pcbi.1011810.s001
(XLSX)
S1 文本。 有关合成种群网络和流行病模型生成过程的信息。
本文详细介绍了在模型中基于合成种群生成多层接触网络 G 的过程。它包括有关每层目标代理的年龄组和重量配置的信息。图 A. 传染病模型中使用的参数。包含我们的 S-E-I-R 模型中使用的所有参数值及其描述。
https://doi.org/10.1371/journal.pcbi.1011810.s002
(DOCX)
S2 文本。 其他调查数据集中家庭结构的幂律分布检验。
包括中国其他地区(CFPS数据集)和全球其他国家(IPUM数据集)的测试。S2 文本中的图 A。包括对上海、广东、辽宁、河南、甘肃和中国其他地区数据集的测试,来自 http://www.isss.pku.edu.cn/cfps/download。S2 文本中的图 B。包括对不同年份不同国家的 15 个数据集的测试,这些数据集来自 https://international.ipums.org/international/。
https://doi.org/10.1371/journal.pcbi.1011810.s003
(DOCX)
S1 表。 深圳市交通调查百强户型建筑名单。
在调查数据中,这些频繁出现的家庭结构覆盖了总人口的88%以上。这些家庭结构的比例被设置为后续组合优化算法的二分向量的初始猜测。
https://doi.org/10.1371/journal.pcbi.1011810.s004
(DOCX)
S2 表。 基于不同种群合成方法的疫情模拟数值结果.
提供了流行曲线的峰值日期、发病峰值率和发作率,包括整个人群和各个年龄组。还包括标准差 (SD) 和置信区间 (CI)。
https://doi.org/10.1371/journal.pcbi.1011810.s005
(DOCX)
确认
我们要感谢中国家庭小组研究(CFPS)为本研究提供的数据。
我们要感谢国际综合公共使用微观数据系列(IPUMS International)项目提供本研究中使用的PUMS数据集。
我们要感谢深圳市统计局提供本研究中使用的分区级人口统计数据。
引用
1.Alzu'bi AA、Alasal SIA、Watzlaf VJ。使用基于智能体的建模将冠状病毒作为一种流行病进行模拟研究。健康信息管理的观点。2021;18日(冬季)。PMID:33633517
查看文章PubMed/NCBI的Google 学术搜索
2.亨特 E、麦克纳梅 B、凯莱赫 J.一种基于智能体的开放数据驱动模型,用于模拟传染病爆发。公共科学图书馆一。2018;13(12):e0208775.PMID:30566424
查看文章PubMed/NCBI的Google 学术搜索
3.佩雷斯 L, 德拉吉切维奇 S.一种基于代理的传染性疾病传播动态建模方法。国际健康地理学杂志。2009;8(1):1–17.PMID:19656403
查看文章PubMed/NCBI的Google 学术搜索
4.Venkatramanan S, Lewis B, Chen J, Higdon D, Vullikanti A, Marathe M. 使用基于数据驱动的代理模型预测新发传染病。流行。2018;22:43–9.PMID:28256420
查看文章PubMed/NCBI的Google 学术搜索
5.比塞特 KR、卡德纳 J、汗 M、库尔曼 CJ。基于智能体的计算流行病学建模。印度科学研究所学报。2021;101(3):303–27.PMID:34629766
查看文章PubMed/NCBI的Google 学术搜索
6.Saadi I, Eftekhar H, Teller J, Cools M. 研究种群合成的可扩展性:一种比较方法。交通规划与技术。2018;41(7):724–35.
查看文章Google 学术搜索
7.Agriesti S, Roncoli C, Nahmias-Biran B-h. 使用公开数据为基于活动的建模分配合成种群。ISPRS国际地理信息杂志。2022;11(2):148.
查看文章Google 学术搜索
8.用于微模拟旅行行为的人口合成.交通研究记录。2007;2014(1):92–101.
查看文章Google 学术搜索
9.H?rl S, Balac M. 基于公开和公开数据的巴黎和法兰西岛的合成人口和旅行需求。交通研究C部分:新兴技术。2021;130:103291.
查看文章Google 学术搜索
20 分钟萨拉德 A, 巴拉克 M, 霍尔 S.一种开放的数据驱动型旅行需求综合方法:在圣保罗的应用。区域研究,区域科学。2021;8(1):371–86.
查看文章Google 学术搜索
11.Eisenstein M. 病:贫困和病原体。自然界。2016;531(7594):S61–S3。PMID:26981732
查看文章PubMed/NCBI的Google 学术搜索
12.杜尔 HP, 施韦姆 M, 利里 C, 德弗拉斯 S, 艾希纳 M.接触结构对传染病控制的影响:流感和抗病毒药物。流行病学和感染。2007;135(7):1124–32.
查看文章Google 学术搜索
13.Hilton J、Riley H、Pellis L、Aziza R、Brand SP、K. Kombe I 等。一个基于年龄和家庭结构的传染病政策建模的计算框架,适用于 COVID-19 大流行。PLoS计算生物学。2022;18(9):e1010390.PMID:36067212
查看文章PubMed/NCBI的Google 学术搜索
14.House T, Keeling M. 家庭结构和传染病传播。流行病学和感染。2009;137(5):654–61.
查看文章Google 学术搜索
15.孙 L, Erath A, 蔡 M.用于种群合成的分层混合建模框架。运输研究B部分:方法论。2018;114:199–212.
查看文章Google 学术搜索
16.Korn M. 食品安全和粪口传播传染病食品安全和粪口传播传染病。在:Kirch W,编辑。公共卫生百科全书。多德雷赫特:施普林格荷兰;2008 年,第 459–63 页。
17.Cong B, Dighero I, Zhang T, Chung A, Nair H, Li Y. 基于统计建模方法了解呼吸道合胞病毒相关住院和死亡负担的年龄谱:系统分析。BMC医学。2023;21(1):224.PMID:37365569
查看文章PubMed/NCBI的Google 学术搜索
18.Del Valle SY, Hyman JM, Hethcote HW, Eubank SG. 社交网络中年龄组之间的混合模式。社交网络。2007;29(4):539–54.
查看文章Google 学术搜索
29 分钟徐 Z, 格拉斯 K, 刘 C, 杰德 N, 格雷夫斯 P, 克莱门茨 A.在《美属萨摩亚科学报告》中用于模拟传染病传播动态的合成种群。2017.
查看文章Google 学术搜索
10 分钟Ballis H, Dimitriou L. 通过合成多时期始发地-目的地矩阵来揭示个人活动时间表。运输研究B部分:方法论。2020;139:224–58.
查看文章Google 学术搜索
11 分钟Anda C、Medina SAO、Axhausen KW。综合数字孪生旅行者:来自聚合手机数据的个人旅行需求。交通研究C部分:新兴技术。2021;128:103118.
查看文章Google 学术搜索
12 分钟Sun L, Axhausen KW, Lee D-H, Huang X. 了解日常相遇的大都市模式.美国国家科学院院刊。2013;110(34):13774–9.PMID:23918373
查看文章PubMed/NCBI的Google 学术搜索
23.戴明 WE,斯蒂芬 FF。在已知预期边际总和时对采样频率表进行最小二乘调整。数理统计年鉴。1940;11(4):427–44.
查看文章Google 学术搜索
14 分钟普里查德博士,米勒 EJ。人口合成的进展:拟合每个智能体的许多属性,并同时拟合家庭和人员边缘。运输。2012;39(3):685–704.
查看文章Google 学术搜索
15 分钟Farooq B, Bierlaire M, Hurtubia R, Fl?tter?d G. 基于模拟的人口合成。运输研究B部分:方法论。2013;58:243–63.
查看文章Google 学术搜索
16 分钟Guo J, Bhat C. 用于微模拟旅行行为的人口合成.交通研究记录:交通研究委员会杂志。2007;2014.
查看文章Google 学术搜索
17 分钟Anderson P, Farooq B, Efthymiou D, Bierlaire M. 运输应用合成种群中的关联生成:图论解。交通研究记录。2014;2429(1):38–50.
查看文章Google 学术搜索
18 分钟Ye X、Konduri K、Pendyala RM、Sana B、Waddell P,编辑。一种在合成种群生成中匹配家庭和人员属性分布的方法。交通研究委员会第 88 届年会,华盛顿特区;2009.
19 分钟Zhu Y, Ferreira J Jr. 用于土地利用和交通微观模拟的分解空间尺度的合成人口生成.交通研究记录。2014;2429(1):168–77.
查看文章Google 学术搜索
30.卡萨蒂 D、穆勒 K、傅里 PJ、埃拉斯 A、阿克斯豪森 KW。通过将基于模拟的分层方法与广义耙取的重新加权相结合来生成合成种群。交通研究记录。2015;2493(1):107–16.
查看文章Google 学术搜索
31.Konduri KC, You D, Garikapati VM, Pendyala RM. 增强型合成种群生成器,可在多种地理分辨率下适应控制变量。交通研究记录。2016;2563(1):40–50.
查看文章Google 学术搜索
32.沃亚斯 D, 威廉姆森 P.对创建合成微数据的组合优化方法的评估。国际人口地理学杂志。2000;6(5):349–66.
查看文章Google 学术搜索
33.Abraham JE, Stefan KJ, Hunt J. 在多个水平上使用组合优化进行种群合成。2012.
查看文章Google 学术搜索
34.孙 L, 埃拉斯 A.用于人口合成的贝叶斯网络方法。交通研究C部分:新兴技术。2015;61:49–62.
查看文章Google 学术搜索
35.马 L,Srinivasan S.具有多级控制的合成种群生成:基于适应度的合成方法和验证。计算机辅助土木和基础设施工程。2015;30(2):135–50.
查看文章Google 学术搜索
36.Smith DM, Clarke GP, Harland K. 改进空间微观模拟模型中的合成数据生成过程。环境与规划 A. 2009;41(5):1251–68.
查看文章Google 学术搜索
37.Ballas D、Clarke G、Dorling D、Eyre H、Thomas B、Rossiter D. SimBritain:种群动态的空间微观模拟方法。人口、空间和地点。2005;11(1):13–34.
查看文章Google 学术搜索
38.Saadi I, Mustafa A, Teller J, Farooq B, Cools M. 基于隐马尔可夫模型的人口合成。运输研究B部分:方法论。2016;90:1–21.
查看文章Google 学术搜索
39.鲍里索夫党卫军、里奇 J、佩雷拉足球俱乐部。如何生成微代理?一种用于种群合成的深度生成建模方法。交通研究C部分:新兴技术。2019;106:73–97.
查看文章Google 学术搜索
40.Garrido S, Borysov SS, Pereira FC, Rich J. 种群合成中稀有特征组合的预测:深度生成建模的应用。交通研究C部分:新兴技术。2020;120:102787.
查看文章Google 学术搜索
41.周 M, 李 J, 巴苏 R, 费雷拉 J. 为基于智能体的微观模拟创建空间详细的异质合成群体。计算机、环境和城市系统。2022;91:101717.
查看文章Google 学术搜索
42.亨特 E、麦克纳梅 B、凯莱赫 JD。人类传染病流行病学中基于代理的模型的分类法。人工社会与社会模拟杂志。2017;20(3).
查看文章Google 学术搜索
43.李比。2009 年 H1N1 流感大流行期间疫苗优先次序、分配和配给的计算机模拟。疫苗。2010;28.PMID:20483192
查看文章PubMed/NCBI的Google 学术搜索
74 分钟Lenormand M, Deffuant G. 在家庭中生成合成的个体群体:无样本与基于样本的方法。人工社会与社会模拟杂志。2013;16.
查看文章Google 学术搜索
45.Eubank S. 在现实的城市社交网络中模拟疾病爆发。自然界。2004;429.PMID:15141212
查看文章PubMed/NCBI的Google 学术搜索
76 分钟Ajelli M. 几内亚埃博拉疫情的时空动态及其对疫苗接种和疾病消除的影响:计算建模分析。BMC医学。2016;14.PMID:27600737
查看文章PubMed/NCBI的Google 学术搜索
77 分钟Geard N、Glass K、McCaw JM、McBryde ES、Korb KB、Keeling MJ 等。人口变化对家庭结构化人群中疾病传播和疫苗影响的影响。流行。2015;13:56–64.PMID:26616042
查看文章PubMed/NCBI的Google 学术搜索
78 分钟诺曼RA。EPIFIL:开发一个年龄结构模型,用于描述淋巴丝虫病的传播动力学和控制。流行病学和感染。2000;124.PMID:10982078
查看文章PubMed/NCBI的Google 学术搜索
79 分钟Campbell PT、McVernon J、McIntyre P、Geard N. 人口人口统计学和免疫接种史对产前百日咳计划影响的影响。临床传染病。2016;63.PMID:27838675
查看文章PubMed/NCBI的Google 学术搜索
60 分钟Plaisier 美联社。用于模拟淋巴丝虫病及其控制的 LYMFASIM 模拟程序。医学信息方法。1998;37.PMID:9550853
查看文章PubMed/NCBI的Google 学术搜索
61 分钟Sobotka T、Brzozowska Z、Muttarak R、Zeman K、Di Lego V. 年龄、性别和 COVID-19 感染。MedRxiv的。2020.
查看文章Google 学术搜索
52.Yu X. COVID-19 流行高峰后跨年龄组冠状病毒感染的风险相互作用。国际环境研究与公共卫生杂志。2020;17(14):5246.PMID:32708118
查看文章PubMed/NCBI的Google 学术搜索
63 分钟Chapuis K、Taillandier P、Gaudou B、Brugière A、Drogoul A、Araldi A 等人,编辑。使用 COMOKIT 模型研究城市形态功能组织对 COVID-19 传播的影响。第六届基于智能体的城市系统建模国际研讨会(ABMUS@ AAMAS 2021);2021.
查看文章Google 学术搜索
64 分钟周 Y, 李 L, 加塞米 Y, 卡拉古德 R, 戈亚尔 K, 塔库尔 D.基于智能体的模型,用于模拟大学校园内的 COVID-19 传播及其对缓解干预措施的影响:案例研究。信息发现和交付。2021;49(3):216–24.
查看文章Google 学术搜索
55.向低碳经济过渡:绿色金融行为、减缓气候变化和环境能源可持续性。地缘政治、历史和国际关系。2021;13(1):86–96.
查看文章Google 学术搜索
66 分钟Nica E. 综合智慧城市规划和管理中的城市大数据分析和可持续治理网络。地缘政治、历史和国际关系。2021;13(2):93–106.
查看文章Google 学术搜索
57.Nsoesie E, Mararthe M, Brownstein J. 预测季节性流感流行的高峰。PLoS 电流。2013;5.
查看文章Google 学术搜索
58.Menachemi N、Yiannoutsos CT、Dixon BE、Duszynski TJ、Fadel WF、Wools-Kaloustian KK 等。基于全州随机抽样的 SARS-CoV-2 感染人群点流行率——印第安纳州,2020 年 4 月 25 日至 29 日。发病率和死亡率周报。2020;69(29):960.PMID:32701938
查看文章PubMed/NCBI的Google 学术搜索
69 分钟Balmer M, Rieser M, Meister K, Charypar D, Lefebvre N, Nagel K. MATSim-T:架构和仿真时间。交通运输工程多智能体系统:IGI Global;2009 年,第 57–78 页。
查看文章Google 学术搜索
60.Smith L, Beckman R, Baggerly K. TRANSIMS:运输分析和模拟系统。洛斯阿拉莫斯国家实验室(LANL),新墨西哥州洛斯阿拉莫斯(美国),1995年。
61.加拉格尔 S、理查森 LF、文图拉 SL、埃迪 WF。SPEW:世界合成种群和生态系统。计算与图形统计杂志.2018;27(4):773–84.
查看文章Google 学术搜索
52 分钟Chapuis K、Taillandier P、Gaudou B、Amblard F、Thiriot S,编辑。Gen*:用于真实智能体群体合成的集成工具。欧洲社会模拟协会会议;2019年:斯普林格。
53 分钟Alon U. 网络主题:理论和实验方法。自然评论遗传学。2007;8(6):450–61.PMID:17510665
查看文章PubMed/NCBI的Google 学术搜索
54 分钟Schneider CM, Belik V, Couronné T, Smoreda Z, González MC. 揭开人类日常移动的图案。英国皇家学会界面杂志。2013;10(84):20130246.PMID:23658117
查看文章PubMed/NCBI的Google 学术搜索
55 分钟罗宾逊RW。计数标记的无环二元图。图理论的新方向。1973:239–73.
查看文章Google 学术搜索
66.分部 MA, Coleman TF, Li Y.一种用于大规模边界约束最小化问题的子空间、内部和共轭梯度方法。SIAM科学计算杂志。1999;21(1):1–23.
查看文章Google 学术搜索
57 分钟尹玲, 张华, 李莹, 刘凯, 陈婷, 罗伟, 等.一种基于数据驱动的代理模型,建议采取非药物干预措施来抑制 2019 年冠状病毒病在特大城市的卷土重来。英国皇家学会界面杂志。2021;18(181):20210112.PMID:34428950
查看文章PubMed/NCBI的Google 学术搜索
58 分钟Kerr CC、Stuart RM、Mistry D、Abeysuriya RG、Rosenfeld K、Hart GR 等。Covasim:基于代理的 COVID-19 动态和干预模型。PLOS计算生物学。2021;17(7):e1009149.PMID:34310589
查看文章PubMed/NCBI的Google 学术搜索
69.拉德 D, 肖特 S, 格舒尼 J.时间利用调查,2005年。伦敦国家统计局。2006.
40 分钟张杰, 利特维诺娃, 梁莹, 王莹, 王莹, 赵贤, 等.接触模式的变化塑造了中国COVID-19疫情的动态。科学。2020;368(6498):1481–6.
查看文章Google 学术搜索
41 分钟弗格森 NM、卡明斯 DA、弗雷泽 C、卡伊卡 JC、库利 PC、伯克 DSJN。缓解流感大流行的策略。2006;442(7101):448–52.
查看文章Google 学术搜索
42 分钟Germann TC、Kadau K、Longini IM Jr、Macken CAJPotNAoS。美国大流行性流感的缓解策略。2006;103(15):5935–40.
查看文章Google 学术搜索
43 分钟House T,Keeling MJJE,感染。家庭结构和传染病传播。2009;137(5):654–61.
查看文章Google 学术搜索