使用高维时间序列数据和预测组合预测上呼吸道感染负担
林觉涛 ,开尔文·布莱恩·谭,约翰·阿比舍加纳登,博拉梅·狄更斯
发布时间:7 年 2023 月
抽象
上呼吸道感染对初级卫生资源造成巨大压力。为了减轻URTI传播和公共卫生负担,重要的是要预先预防和提供关于URTI负担的前瞻性指导,同时考虑到影响URTI传播的各个方面。这是为了可以采取适当的公共卫生措施来减轻对初级保健资源的压力。本研究描述了一种预测URTIs的新方法,可用于国家公共卫生资源规划。具体而言,使用包含 1000 多个维度的环境和疾病数据,我们开发了子模型,该子模型优化了模型的可解释性、样本内模型拟合度、预测准确性,并在 2 个月的时间范围内结合了许多较弱的预测因子,以在 1-8 周的预测范围内生成直接的点预测。在2012-2022年期间,在传输有/没有结构性中断的两个时期内,使用滚动样本外预测评估来评估预测性能。我们表明,其他 5 种预测模型的预测组合在传输动力学有或没有结构性中断的时间段内比其他建模方法具有更好、更一致的预测性能。此外,使用选择后推断对高维数据进行流行病学分析,以显示较低温度、过去相对湿度和绝对湿度增加以及 URTIs 出勤率增加之间的动态关联。所提出的方法可用于疫情防范,并指导医疗资源规划,无论是在传播的稳定时期还是在数据发生结构性中断的时期。
作者摘要
上呼吸道感染对初级卫生资源造成巨大压力。为了减轻URTI传播和公共卫生负担,重要的是要预先预防和提供关于URTI负担的前瞻性指导,同时考虑到影响URTI传播的各个方面。这是为了可以采取适当的公共卫生措施来减轻对初级保健资源的压力。本研究描述了一种预测URTIs的新方法,可用于国家公共卫生资源规划。具体而言,使用大量的环境和疾病数据,我们开发了优化预测性能的预测工具,以实现这一目标。我们评估了预测性能,表明我们提出的方法在不同情况下比其他方法提供了更一致的预测性能。此外,我们发现较低的温度,过去的相对湿度和绝对湿度的增加与URTI出勤率的增加有关。所提出的方法可用于疫情防范,并指导医疗资源规划,无论是在传播的稳定时期还是在数据发生结构性中断的时期。
引文: Lim JT, Tan KB, Abisheganaden J, Dickens BL (2023) 使用高维时间序列数据和预测组合预测上呼吸道感染负担。公共科学图书馆计算生物学19(2): e1010892. https://doi.org/10.1371/journal.pcbi.1010892
编辑 器: Virginia E. Pitzer,耶鲁大学公共卫生学院,美国
收到: 十月 13, 2022;接受: 23月 2023, 7;发表: 2023月 <>, <>
版权所有: ? 2023 林等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 重现研究结果的所有数据和代码均可通过以下链接获得:https://github.com/juetaoLim/URTIForecasts。
资金: 本研究/项目获李光前医学院 - 教育部启动补助金支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
这是一篇PLOS计算生物学方法论文。
介绍
上呼吸道感染(URTIs)通常以上呼吸道刺激和肿胀为特征。它们由多种细菌和病毒引起,感染范围从轻度感冒到危及生命的肺炎不等[1]。作为最常见的疾病之一,2019年全球URTI负担估计为17亿[2]。虽然大多数感染URTIs的个体症状较轻,但仅在美国,非流感相关病毒性URTIs的经济负担估计为2亿美元[22],估计有5亿美元用于URTI的非处方治疗[3]。
URTIs在新加坡流行,在2400年至2012年期间,综合诊所平均每天就诊~2022次,从而对初级卫生资源造成巨大压力。在个体层面上,危险因素包括吸烟、过敏性疾病史、与儿童密切接触等[1]。既往研究还阐明了寒冷气候与URTI之间的关联[5],不同年龄亚组的严重程度不同[6]。在其他研究中,URTI与相对[7,8]、绝对湿度[9]和日照时间增加[10]呈负相关。为了减轻URTI传播和公共卫生负担,重要的是要预先预防和提供关于URTI负担的前瞻性指导,同时考虑到影响URTI传播的各个方面。这是为了可以采取适当的公共卫生措施来减轻对初级保健资源的压力。
预测URTI平均每日出勤率的统计方法需要满足某些标准才能对决策者有用,即a)能够使用仅在预测之前可用的数据生成预测;b) 能够在一定水平上进行预测,以便为公共卫生应对措施提供足够的准备时间;c)使用未用于其构建的数据具有良好的和经过验证的预测性能,并且d)能够快速生成预测。虽然传播动态建模利用流行病学知识来模拟假设情景和潜在的疾病干预措施,例如行动限制或面罩,并且可能有助于预测由群体免疫水平变化、气候变化或人口年龄结构引起的流行病动态的长期变化[11].一个很大的限制是难以将传输动态模型与实时数据流(如气象或监视数据)集成和校准[11]。相比之下,描述观测值而不是基本过程的还原统计方法非常适合与多个实时数据流集成,并且如果未来条件不会偏离用于参数化它们的数据太远,则可以提供良好的预测准确性。
已经制定了预测URTIs和其他呼吸系统疾病的框架。这些包括且不限于使用气象变量的统计模型,包括面板广义线性模型和广义加性模型[12],机器学习方法,如长短期记忆神经网络和多层感知器,其中包含气象和环境空气污染数据[13,14],包含流行病学信息的传输动态模型[15]以及这些预测方法的组合,通过权衡不同模型根据其过去的预测性能生成的预测[16]。虽然上述模型符合上述许多标准,但值得注意的是,许多模型是在季节性传播的地点开发的,对预测技能的评估很少。这表明,它们可能不适用于呼吸道疾病全年持续传播的地方,因为所提出的模型的预测技能未经严格证明优于任何基线替代方案。在预测研究中尚未对疾病数据进行实质性探索,尽管不同疾病的发病率可能提供有关 URTIs 传播方面的信息,并代表导致传播增加的流动性或社会混合相关因素。这些模型也没有在发生结构性断裂的时期进行评估 - 疾病的传播模式发生重大变化,例如在社会混合或运动发生剧烈变化的时期。
因此,在本文中,我们描述了一种预测URTIs的新方法,可用于新加坡的公共卫生资源规划。与之前的研究相比,我们探索并评估了我们的方法在全年传播的URTI流行环境中预测URTIs的效用。此外,我们通过结合COVID-19大流行前后的时间序列数据来评估预测稳定性,从而评估了在有或没有结构性传播中断的时期内的方法。通过结合一组高维疾病数据,其中包括40多个疾病时间序列以及环境协变量,我们的模型考虑了疾病传播的时间协同运动。该模型专门优化了 2 个月时间范围内的预测准确性,在两个时间段内使用样本外预测评估评估预测性能,无论传输是否具有结构性中断。我们证明,与机器学习文献中常用的更复杂的集成和深度学习模型相比,这种方法能够生成快速准确的预测,并允许对环境协变量对 URTI 传播的影响进行简单的流行病学解释。使用平均 5 个包含 280 多个维度的其他预测模型,我们表明我们的方法比其他建模方法具有更好、更一致的预测性能。
材料和方法
疾病监测数据
急性上呼吸道感染、结膜炎、腹泻、水痘和手足口病的每日平均综合诊所就诊情况由新加坡卫生部收集,并报告每个流行病学周。从分析中删除了病例数持续报告为零的疾病(有关数据和数据源的完整列表,请参阅S1文本)。疾病监测数据报告自1年流行病学周刊(EW)2012-32年EW2022,并在新加坡卫生部发布的每周传染病公报中公开提供[17]。
方法:环境数据
气候数据来自欧洲中期天气预报中心出版的ERA5-Land。ERA5-Land 提供 30 公里网格的每小时估计值,我们已将其汇总到流行病学周时间尺度上,并在新加坡进行了空间平均值。计算2米(开尔文)的平均、最低和最高气温,以代表对宿主种群的热强迫和压力,并计算每个外延周的总降雨量(米),以代表其对种群混合行为和户外时间的影响。利用空气温度和露点温度计算饱和蒸气压(kPa)、实际蒸气压(kPa)[18]、相对湿度(%)和绝对湿度(g/m)3) 使用标准公式 [19]。叶面积指数也用于表示高低植被两类的绿色度,其中值为零表示裸露的地面。前者代表常绿乔木、落叶乔木、混交林/林地和断续林。后者包括农作物、混合农业、草和灌木。
通过单个模型和预测组合生成点预测
我们的目标是预测未来1-8周的URTI综合诊所就诊情况。此处的预测因子包括所有其他报告的疾病病例计数的 1-8 周滞后以及上述数据源中报告的环境变量。多个滞后被纳入我们的预测中,作为额外的预测因子来表征感兴趣的因变量的时间动态。这些由一组高维协变量(>280)组成,用于预测我们感兴趣的因变量。在这里,包括基于可能性的方法在内的标准预测方法可能会受到过度拟合、高预测方差和随之而来的预测不佳的影响。因此,结合正则化和基于集成的方法的机器学习方法是本研究中提出的主要预测工具,尽管也探讨了前者的性能。
也就是说,我们将以下条件期望 E(.|.) 视为 URTI 平均每日出勤率的提前 h 周预测:
(1)
其中 t 表示同时期时间点,yt+h,?D表示 URTI 在 t+h 时的平均每日出勤率。请注意,这里我们将D表示为除URTI之外被认为是预测因子的一组疾病,并且-D表示URTI平均每日出勤率的指数。作为解释变量,结构形式类似于具有外生变量的自回归模型。自回归项包括过去和同期对 URTI 平均每日出勤率的观测值 yt?l,?D,其中 l 表示最大为 L 的滞后顺序D滞后。感兴趣的疾病的传播也可以部分由其他疾病解释,例如流动性或社会混合相关因素。因此,URTI的其他预测因子包括传染病公报y上报告的其他传染病t?l,d, d∈D.此外,环境对未来疾病负担的强迫通过气候协变量x被纳入t?l,e,其中 e 表示气候变量。我们假设 yt+h,?D正态分布,使得 y 的条件均值t+h,?D是未来 H 周的预测。由于包括外源性环境变量作为预测因子,因此该研究仅考虑直接预测。
我们在这里考虑了 2 种正则化策略来估计参数 β∈{β0、βl,y、βL,D、β升,e} 滞后数 {L?D, LD, LE} 和参数集 {?D,D,E}。首先,最小绝对收缩和选择运算符 (LASSO) 框架通过同时选择要包含在模型中的参数及其值来诱导变量稀疏性,从而扩展标准回归方法。LASSO 框架具有以下目标函数,它通过优化找到β的最优参数集:
(2)
这是因变量 y 之间的总平方差我和预测变量矩阵 X′ = {y 之间的倍数t?l,?D, yt?l,d, xt?l} 和系数 β′ = {βl,y, βL,D,Y, βl,e,y},以及由附加参数 λ 控制的惩罚项1,用于控制模型复杂性。
我们还考虑了弹性净惩罚来克服与LASSO相关的限制,例如一组高度相关的变量中的变量选择不佳。在确定疾病负担时选择气候变量的情况可能会发生这种情况,因为它们倾向于共同移动。弹性网增加了一个二次分量λ2||β||2结合LASSO和岭回归的好处,后者主要用于缓解高度相关变量之间的估计问题:
(3)
其中最优调谐参数 λ1, λ2对于(2)和(3),都是通过训练数据集中的10倍交叉验证获得的,与留一或5倍交叉验证等替代方案相比,在估计交叉验证误差方面偏差较小[20]。根据最优调谐参数的值,通过将不相关的变量强制为零,对弹性网络和 LASSO 执行自动变量选择。
除了正则化之外,我们还探索了梯度提升,这是一种集成方法,通过将许多弱预测因子的预测组合到最终预测模型中来提供直接预测。弱预测变量在这里作为回归树,迭代拟合到数据。简而言之,在初始阶段,将奇异决策树拟合到因变量,比 URTI 平均每日出勤率早 h 周。随后的树拟合到前一棵树生成的预测与实际观测值之间的差异。这种情况一直持续到预测和数据之间的差异超过预先指定的阈值。在所有迭代中,回归树都使用预测变量,如 (1) 中所述。
最后,考虑基线线性模型,将唯一感兴趣的疾病病例计数作为预测因子。由于线性模型倾向于过度拟合数据并具有高预测方差,因此未包括环境协变量和其他疾病。使用向后逐步选择选择最多 8 个滞后的滞后数,并以赤池信息标准作为删除变量的指标。然后,提前 h 周的条件预测为:
(4)
β回归系数0、βl,y通过最小二乘法估计。
预测评估
首先,我们将初始训练数据集拆分为所有可用数据的 60%。这包括从收集疾病监测数据的第一个时间点到收集60%的观察结果的观察结果。从那时起,以滚动的方式,使用(1)和(4)中的模型规范以及上述4个模型训练的h个单独的子模型生成了h周的直接预测。另外,我们还考虑了:(a)预测集合,作为4个模型生成的预测的简单平均值,以及(b)最新可用的URTI出勤观察等同于提前1步预测的朴素预测。这些被用作要评估的额外预测。
每增加一个流行病学周,预测模型中就包括一个额外的观察周,其中每个提前h周子模型被重新训练,并重新生成h周前条件预测。此策略可确保在同时时间步生成的预测中不会合并任何未来数据。然后将事后实际观测结果与预测进行比较,并将预测性能汇总为4个关键的汇总统计量,即:(a)平均绝对预测误差(b)均方根预测误差(c)平均绝对百分比预测误差和(d)平均绝对尺度误差。汇总统计量 (a) 和 (b) 汇总每个预测模型与实际观测值的平均误差量,(c) 汇总每个预测模型与实际观测值的百分比误差,以及 (d) 比较每个预测模型的绝对预测误差是大于还是小于模型之间成对方式的朴素提前一步预测。此外,在模型之间成对进行Diebold-Mariano假设检验,以统计上确定预测之间的等价性或不等价性[21]。
了解气象变量对URTI平均每日出勤率的影响
除了生成预测之外,LASSO 和线性模型还可用于了解环境因素如何随着时间的推移导致疾病负担增加或减少。之所以选择 LASSO,是因为线性规范便于解释系数。我们首先在完整数据集上根据规范 (1) 训练 LASSO 模型,使用 10 倍交叉验证找到最佳调优参数。每个回归系数的置信区间是通过选择后推理[22]获得的,即仅使用通过LASSO过程选择的协变量来训练线性模型。然后,这些系数提供了未来几周 URTI 平均每日出勤率的预期增加或减少,给定模型协变量中同时或过去的单位增长。
结果
疾病监测和气象数据
我们利用了URTI综合诊所就诊率(图1A)、温度(图1B)、总降水量(图1C)、相对湿度(图1D)和绝对湿度(图1E)的数据。疾病监测数据似乎与2012-2020年期间没有明确的模式不同,但随着19年初由于COVID-2020大流行而部署的非药物干预措施,观察到综合诊所就诊人数大幅下降,并在2022年逐渐恢复到大流行前的值(图1A)。气象变量也相对恒定,平均值为300.061K(图1B,范围:297.982K – 301.680K),0.004米(图1C,范围:0.000米 – 0.018米),6.935%(图1D,范围:5.964%-7.343%)和83.204克/米3 (图1E,量程:69.356克/米3–91.239克/米3) 分别表示温度、总降水量、相对湿度和绝对湿度。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1.
从 1 年第 2012 周到 35 年第 2022 周的每周时间序列数据,包括 (A) 上呼吸道感染 (URTI) 的日均综合诊所就诊率、(B) 平均温度(开尔文)、(C) 平均总降水量(米)、(D) 平均相对湿度 (%) 和 (E) 平均绝对湿度(以克/米为单位)3)].
https://doi.org/10.1371/journal.pcbi.1010892.g001
未来 1 至 8 周 URTI 出勤率的总体预测表现
模型校准使用协变量进行长达 8 周的滞后,如“材料和方法”部分中的模型规范 (1) 和 (4) 中所述。预测组合和幼稚预测也被视为要考虑的单独预测。使用数据为每个相应的预测窗口总共训练了 8 组模型,直到预测点。预测显示与未来一个月的实际数据相对一致,但在较长的预测范围内倾向于均值回归。我们在补充信息中提供了每个预测模型的预测,并与2018-2022年每个特定时间范围的实际观测结果作对比。
通过将数据集首先分为训练集(2012-2018)和预测集(2018-2022)并比较预测值和观测值之间的差异来评估每个模型的相对预测准确性。一般来说,随着时间范围的增加(图2A-2D),预测模型的恶化率不同,预测误差更大。在所有模型评估标准的预测集中,我们发现朴素预测在提前1至3周的预测范围内表现最佳(图2A-2D)。之后,梯度提升机(GBM)表现出比包含正则化的朴素预测和机器学习模型更好的预测性能。相应地,我们看到,对于 1-1 的预测范围,所有模型的平均绝对缩放误差均高于 3。然而,最小绝对收缩和选择算子(LASSO)、弹性网、GBM和预测组合的MASE从1至4周的预测范围逐渐降至阈值8以下(图2D)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2.
预测数据集中的预测评估统计数据,将 2018–2022 年期间的观测值与 6 个预测模型进行比较,其中包括基线自回归 (AR) 模型、最小绝对收缩和选择运算符 (LASSO)、弹性网 (ENET)、梯度增强机 (GBM)、所有预测的简单平均值 (Comb) 和使用 (A) 平均绝对百分比预测误差的朴素预测, (B)均方根预测误差,(C)平均绝对预测误差和(D)未来1-8周预测范围内的平均绝对标度误差]。
https://doi.org/10.1371/journal.pcbi.1010892.g002
预测误差的假设检验也相应地表明,在所有预测范围内,具有5%显著性水平的模型之间的预测误差并不等效。特别是,与基线自回归模型相比,大多数预测在范围4至8的表现明显更好(图3D-3H)。GBM模型在50至5周的预测范围内,其性能明显优于其他模型生成的至少8%的预测(图3E-3H)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. Diebold-Mariano (DM) 检验统计量的可视化,以测试跨模型和预测范围的预测误差的统计等价性。
不同的面板以黑色表示特定地平线预测的当量(E)或红色的非等价性(NE)。这是针对基线自回归 (AR) 模型、最小绝对收缩和选择运算符 (LAS)、梯度提升机 (GBM)、所有预测的简单平均值 (CO) 和朴素预测 (NAI) 中的完整预测数据集中的预测残差计算的。弹性网络在所有水平上生成与最小绝对收缩和选择运算符相同的正则化,并且未计算 DM 检验统计量]。
https://doi.org/10.1371/journal.pcbi.1010892.g003
URTI传输的结构中断影响预测评估
对时间序列图的检查显示,2020-2022年初的预测和观测之间存在巨大差异。这可能是由于非药物干预导致的疾病传播动态结构性中断,以及其他现象,例如当时出现的COVID-19大流行促使寻求健康的行为发生变化[23-25]。虽然在整个时间序列中,预测误差均匀分布在相等线上,表明预测模型在幅度上与观测值相比没有故意偏差(图4A-4H),但2020年初的预测在所有预测范围内高估了大约15周(见S1文本)。这导致所有模型的预测误差膨胀,向上偏向,最明显的是在未来2至8周(图4B-4H)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 使用预测组合生成的预测与完整预测数据集中的观测值的可视化,绘制等式线以确定预测过高或偏低的预测。
不同的面板表示预测范围提前 1-8 步的预测与观测]。
https://doi.org/10.1371/journal.pcbi.1010892.g004
然而,对COVID-19之前预测的事后评估显示,与2018-2019年结构断裂明显的传播条件(图5A-5D)相比,我们的预测模型在2020-2022年更稳定的传播条件下(图2A-2D)的平均表现要好得多。值得注意的是,8-15年,提前2018周表现最差模型的平均百分比误差小于2019%,而在40-2020年,提前2022周的平均百分比误差超过8%(图5A)。此处模型之间的预测性能也显示了不同时期之间的明显差异。特别是,与其他模型相比,LASSO/Elastic-net和预测组合更胜一筹,与使用完整数据集相比,2018-2019年任何预测范围上的朴素预测都没有表现得更好(图2A-2D和5A-5D)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5.
整个预测数据集的评估统计数据,将 2018–2019 年期间的观测结果与 6 个考虑的预测模型进行比较,其中包括基线自回归 (AR) 模型、最小绝对收缩和选择运算符 (LASSO)、弹性网 (ENET)、梯度增强机 (GBM)、所有预测的简单平均值 (Comb) 和使用 (A) 平均绝对百分比预测误差的朴素预测, (B) 均方根预测误差,(C) 平均绝对预测误差和 (D) 平均绝对比例误差,在预测范围内提前 1-8 周]。
https://doi.org/10.1371/journal.pcbi.1010892.g005
结果支持使用正则化的方法在稳定的传播期间构建预测(图2A-2D和5A-5D),而集成方法能够在存在结构断裂的条件下表现更好(图2A-2D)。 值得注意的是,我们看到GBM的MAPE退化速度比其他模型慢,在8-10年期间相对稳定在2018-2019%左右,在整个数据集期间相对稳定在20-30%。考虑到所有预测评估,预测组合也可以保守地使用,因为它们具有可接受的预测误差,同时结合了正则化和集成方法的优点(图2A-2D和5A-5D)。预测组合在所有时间范围内、稳定传输期和具有结构断裂的传输期统一提供了更一致的预测,并且在预测错误率方面表现第二好。预测组合还提供了在统计上等同于GBM的预测,包括未来6周的预测(图3A-3H)和2018-2019年期间的LASSO/Elastic net(见S1文本)。
环境变量对预测和疾病传播动态的影响
虽然最初提出弹性网络是为了在进行预测之前减轻 URTI 的疾病和环境预测因子之间的多重共线性,但在使用交叉验证调整参数后,这些预测因子产生的结果与 LASSO 相同(见图 2 和 5)。因此,了解气象变量对疾病病例计数的影响仅依靠LASSO在完整数据集和线性模型中选择URTI出勤率的重要解释变量,以通过选择后推断获得每个回归系数的置信区间。在 8 个预测子模型中,考虑了 900 多个环境预测因子,在确定不同预测窗口的预测时选择了不到 100 个(有关完整的回归输出,请参阅 S1 文本)。因此,我们只描述了环境变量如何影响URTI出勤预测的一般模式。
总体而言,过去平均温度的升高降低了前瞻URTI出勤率,但在提前5至1周的预测窗口内,回归系数仅在3%的水平上显着。过去平均总降水量的增加增加了预测的URTI出勤率,但回归系数仅在提前2周的子模型中显着。在较短的预测窗口(提前1-4周)下平均相对湿度的增加与较低的URTI出勤率有关,但不影响未来5-8周的预测。平均绝对湿度不影响提前1-3周的预测,但未来4-8周较长的预测窗口的绝对湿度增加与预测的URTI出勤率较低有关。
讨论
我们的结果表明,在整个数据集中,梯度提升机(GBM)在提前4至5周的预测范围内效果最好(图2A-2D),而朴素预测在提前1至3周的预测中表现更好(图3A-3H)。相比之下,最小绝对收缩和选择算子(LASSO)和弹性网在整个稳定传输期间表现更好(图5A-5D)。然而,对于完整数据集和子集数据集,GBM和LASSO预测在统计上等同于预测组合,这是未来一周所有预测的简单平均值,并且提供了所有时间范围内的第二好的预测。简单的预测组合可用于整合两种机器学习模型的优势,并为不同的传播期提供一致的预测,在其他场景中,可以为流感[16]和登革热[26]等疾病提供良好的预测。
我们的方法在稳定的传输期间提供了相对良好的预测,精度高达8周,对于性能最佳的模型,误差范围为~10%(图5A)。我们改进了以前的预测模型[12,16,27],首先合并了一组可以与综合诊所就诊率共同移动的高维疾病和环境变量,并通过使用成熟的方法来适应许多变量来解释该变量集。这些方法在数据集变得越来越大的公共卫生领域也越来越重要。特别是,这些工具有几个好处。首先,LASSO 对预测变量进行快速选择,使用交叉验证方法对训练数据进行调整,这有助于优化样本内预测性能,而 GBM 通过迭代改进弱预测因子来优化模型,使选择具有最佳调整参数的模型非常适合样本外预测。此外,这两种工具都允许考虑大量的环境和疾病预测因子。非预测变量在交叉验证中以惩罚项的最优值获得零系数,从而退出 LASSO 的最终模型。GBM 还可以通过集成方法迭代减少由许多弱预测变量生成的预测方差。其次,环境变量的结合将模型限制为直接预测,而不是递归预测,这可能更适合传播几乎总是内源性定义的疾病。这意味着使用不同的子模型,其参数经过调整,以在该时间范围内最大限度地提高预测准确性,从而提供优于基线模型的预测。此外,用于递归预测的标准工具倾向于均值回归,这意味着在结构中断期间,它们的性能在更大的时间范围内可能会更快地恶化。最后,预测组合结合了LASSO/GBM的好处,可能是预测许多传输情景的可行替代方案,从2020年以来数据的结构性中断中可以明显看出(见S1文本)。
虽然由于在每个预测窗口选择大量预测因子和滞后来训练模型,因此系数的解释很困难,但使用 LASSO 和选择后推理,我们发现与当前关于环境变量对 URTI 影响的文献相对一致。特别是,过去的研究表明,与我们的系数估计类似,较高的相对湿度和绝对湿度与较低的URTI负担有关。如前所述,一种可能的解释是,在相对较高的湿度下,通过增加含水的大液滴的沉降和加速病毒灭活,从而减弱呼吸道病毒的传播,有利于去除传染性颗粒[28]。应该进行更精细的流行病学研究来证实这些解释,因为本研究使用的数据集是国家性的,而不是个人层面的。
然而,我们的方法有几个局限性。首先,尽管GBM等集成方法即使在存在结构断裂的时期也能表现得可以接受,但在实施严重非药物干预(NPI)的COVID-25新兴阶段,在预测的8周内产生不到2%的错误率(图19A),所有考虑的模型在15周内都产生了高估。这里的预测本质上是根据过去的随机行为生成的,根据过去的观察进行校准,在结构断裂明显的时期可能表现不佳。这突出表明需要用流行病学信息和公共卫生政策知识来解释预测。其次,虽然现在也有关于 2020-2022 年因 COVID 而实施的 NPI 的全球数据源,但无法在收集 URTI 出勤率的整个历史(2012-2022 年)中进行训练,这意味着 2020 年之前的 NPI 效应只能事后评估并使用模拟或传输动态方法而不是本文提出的统计工具进行解释。第三,由于在每个预测窗口选择大量预测因子和滞后来训练模型,因此系数的解释非常困难。第四,GBM是一种集成方法,结合了大量弱预测模型,其中解释预测因子的唯一方法之一是查看变量重要性。变量重要性提供了预测因子决定预测量的概念,并且不能为我们提供特定预测因子如何影响感兴趣的疾病的信息 - 因此GBM提供的输出具有稀疏的流行病学/生态解释。因此,虽然在良好和稳健的预测中需要复杂性来适应决定 URTI 出勤率的环境和社会因素,但我们的工具需要与标准模型相结合,以适当地识别导致 URTI 出勤率增加的因素。这超出了本文的范围。最后,参数调整而不是使用 GBM 进行模型训练在计算上是昂贵的。在训练数据集中,需要在滚动预测窗口中跨多个参数进行网格搜索和重新运行交叉验证,这就是在 GBM 调整阶段使用默认参数的原因。然而,我们证明,尽管存在这种限制,生成的预测仍能够表现良好。因此,通过使用经过良好校准的GBM参数来改进此处提出的集成预测具有相当大的潜力,但需要广泛的网格搜索和计算资源来确认。
结论
所提出的方法可用于疫情防范和指导医疗资源规划。特别是,预测组合结合了许多预测的优点,并在稳定的传输期和数据中结构断裂明显的时期保持一致。
支持信息
附录包含有关结果的其他详细信息。
跳到无花果共享导航
补充资料A:地平线 1一个RL一个SGBMCON一个我阿拉斯GBM一氧化碳嘉B:地平线 2一个RL一个SGBMCON一个我阿拉斯GBM一氧化碳嘉C:地平线 3一个RL一个SGBMCON一个我阿拉斯GBM一氧化碳嘉D:地平线 4一个RL一个SGBMCON一个我阿拉斯GBM一氧化碳嘉E:地平线 5一个RL一个SGBMCON一个我阿拉斯GBM一氧化碳嘉F:地平线 6一个RL一个SGBMCON一个我阿拉斯GBM一氧化碳嘉G:地平线 7一个RL一个SGBMCON一个我阿拉斯GBM一氧化碳嘉H:地平线8一个RL一个SGBMCON一个我阿拉斯GBM一氧化碳嘉东北E[S1 文件中的图 1:迪博尔德-马里亚诺 (DM) 检验统计量的可视化,以测试预测误差的统计等价性10%水平的模型和预测范围。不同的面板以黑色或非红色的等效性(NE)对2020年之前特定时期的预测。这是针对预测残差计算的基线自回归 (AR) 模型中的完整预测数据集,最小绝对收缩和选择运算符(LAS),梯度提升机(GBM),所有预测的简单平均值(CO)和朴素预测(NAI)。弹性网在所有水平上生成与最小绝对收缩和选择运算符相同的正则化以及 DM 检验统计量未计算。123456789101112
预测变量分辨率源急性结膜炎流行病学周传染病公报,新加坡急性腹泻流行病学周传染病公报,新加坡急性上呼吸道感染流行病学周传染病公报,新加坡急性病毒性甲型肝炎流行病学周传染病公报,新加坡急性病毒性乙型肝炎流行病学周传染病公报,新加坡急性病毒性丙型肝炎流行病学周传染病公报,新加坡急性病毒性戊型肝炎流行病学周传染病公报,新加坡弯曲杆菌肠炎流行病学周传染病公报,新加坡水痘流行病学周传染病公报,新加坡登革热流行病学周传染病公报,新加坡登革出血热流行病学周传染病公报,新加坡手足口病流行病学周传染病公报,新加坡军团菌病流行病学周传染病公报,新加坡麻疹流行病学周传染病公报,新加坡类鼻疽流行病学周传染病公报,新加坡脑膜炎球菌感染流行病学周传染病公报,新加坡腮腺炎流行病学周传染病公报,新加坡副伤寒流行病学周传染病公报,新加坡肺炎球菌疾病侵袭性流行病学周传染病公报,新加坡沙门氏菌病非肠热病流行病学周传染病公报,新加坡伤寒流行病学周传染病公报,新加坡平均温度流行病学周ERA-5 土地平均总降水量流行病学周ERA-5 土地平均绝对湿度流行病学周派生平均相对湿度流行病学周派生平均叶指数流行病学周ERA-5 土地最低温度流行病学周ERA-5 土地最小总降水量流行病学周ERA-5 土地最低绝对湿度流行病学周派生最小相对湿度流行病学周派生最小叶指数流行病学周ERA-5 土地最高温度流行病学周ERA-5 土地最大总降水量流行病学周ERA-5 土地最大绝对湿度流行病学周派生最大相对湿度流行病学周派生最大叶子指数流行病学周ERA-5 土地[S1文件中的表1:用作URTI预测前1-8周预测变量的数据列表]131415
下载
无花果分享
S1 文本。 附录包含有关结果的其他详细信息。
https://doi.org/10.1371/journal.pcbi.1010892.s001
(文档)
引用
1米托马斯·上呼吸道感染。统计珍珠。金银岛(佛罗里达州):统计珍珠出版社;2022. 可从: http://www.ncbi.nlm.nih.gov/books/NBK532961/.
2米金鑫, 任军, 李蕊, 高毅, 张华, 李军, 等.204年至1990年,2019个国家和地区的全球上呼吸道感染负担。电子临床医学。2021;37.pmid:34386754
查看文章PubMed/NCBI谷歌学术搜索
3米芬德里克,蒙托AS,南丁格尔B,萨尔内斯·美国非流感相关病毒性呼吸道感染的经济负担。Arch Intern Med. 2003;163: 487–494.密码:12588210
查看文章PubMed/NCBI谷歌学术搜索
4米西合资企业急性上气道感染:儿童呼吸道感染。Br Med Bull。2002;61: 215–230.密码:11997308
查看文章PubMed/NCBI谷歌学术搜索
5米埃克尔斯R,威尔金森JE。暴露于寒冷和急性上呼吸道感染。鼻醇杂志 2015;53: 99–106.密码:26030031
查看文章PubMed/NCBI谷歌学术搜索
6米埃尔林五世,扎里勒F,汉森L,扎曼S。气候对巴基斯坦拉合尔幼儿呼吸道感染患病率的影响。J 公共卫生。1999;21: 331–339.密码:10528962
查看文章PubMed/NCBI谷歌学术搜索
7米Loh TP, Lai FYL, Tan ES, Thoon KC, Tee NWS, Cutter J, et al.热带儿科人群中临床疾病、呼吸道病毒感染和气候因素之间的相关性。流行病学感染。2011;139: 1884–1894.密码:21226981
查看文章PubMed/NCBI谷歌学术搜索
8米M?kinen TM, Juvonen R, Jokelainen J, Harju TH, Peitso A, Bloigu A, et al.低温和低湿度与呼吸道感染的发生率增加有关。呼吸医学 2009;103: 456–462.密码:18977127
查看文章PubMed/NCBI谷歌学术搜索
9米Wiemken T, Mattingly W, Furmanek S, Guinn B, English C, Carrico R, et al.温度相对湿度和绝对湿度对流感、鼻病毒和呼吸道合胞病毒引起的下呼吸道感染住院发生率的影响:社区获得性肺炎组织 (CAPO) 国际队列研究的结果。路易斯维尔大学 J 呼吸感染。2017;1.
查看文章谷歌学术搜索
10米PAYNTER S, WEINSTEIN P, WARE RS, LUCERO MG, TALLO V, NOHYNEK H, et al.热带地区的阳光、降雨、湿度和儿童肺炎:时间序列分析。流行病学感染。2013;141: 1328–1336.pmid:22884022
查看文章PubMed/NCBI谷歌学术搜索
11米马尔切娃·数学流行病学导论。马萨诸塞州波士顿:施普林格美国;2015. https://doi.org/10.1007/978-1-4899-7612-3
12米Khan AR,Hasan KT,Islam T,Khan S.根据处方数据预测呼吸道感染事件,用于医疗保健服务计划。国际数据科学分析杂志. 2021;11: 169–180.
查看文章谷歌学术搜索
13米陈美军, 杨平华, 谢明涛, 叶春华, 黄春华, 杨春明, 等.机器学习将PM2.5和PM10浓度与台湾上呼吸道感染的门诊就诊联系起来:全国性分析。世界J临床案例。2018;6: 200–206.密码:30148148
查看文章PubMed/NCBI谷歌学术搜索
14米顾杰, 梁林, 宋海, 孔毅, 马蓉, 侯茹, 等.一种基于GeoDetector和LSTM模型的手足口病预测方法。科学代表 2019;9: 17928.密码:31784625
查看文章PubMed/NCBI谷歌学术搜索
15米Hall IM, Gani R, Hughes He, Leach S. 大流行性流感的实时流行病预测。流行病学感染。2007;135: 372–385.密码:16928287
查看文章PubMed/NCBI谷歌学术搜索
16米Yamana TK,Kandula S,Shaman J.美国季节性流感爆发的个体与超整体预测。公共科学图书馆计算生物学. 2017;13: e1005801.密码:29107987
查看文章PubMed/NCBI谷歌学术搜索
17米卫生部|传染病周报。[引用于21年2022月2022日]。可用: https://www.moh.gov.sg/resources-statistics/infectious-disease-statistics/<>/weekly-infectious-diseases-bulletin.
18米默里·关于饱和蒸气压的计算。J 应用气象醇气候。1967;6: 203–204.
查看文章谷歌学术搜索
19米教区 OO,普特南 TW。根据露点和湿度数据确定湿度的方程式。1977年8401月报告编号:NASA-TN-D-19770009916。可用: https://ntrs.nasa.gov/citations/<>.
查看文章谷歌学术搜索
20米选择模型选择过程的交叉验证.J 经济。2015;187: 95–112.
查看文章谷歌学术搜索
21米迪博尔德FX,马里亚诺·比较预测准确性。J 巴士经济统计 2002;20: 134–144.
查看文章谷歌学术搜索
22米Berk R, Brown L, Buja A, Zhang K, Zhao L. 有效的选择后推断。Ann Stat. 2013;41: 802–837.
查看文章谷歌学术搜索
23米Lim JT, Chew LZX, Choo ELW, Dickens BSL, Ong J, Aik J, et al. 由于SARS-CoV-2社会疏远措施,新加坡登革热传播增加。J 感染杂志 2021;223:399–402。密码:33000172
查看文章PubMed/NCBI谷歌学术搜索
24米Lim JT, Dickens BL, Ong J, Aik J, Lee VJ, Cook AR, et al.由于SARS-CoV-2检疫措施,新加坡移民工人群体中的登革热传播减少。J 旅行医学 2021;28:taaa228。pmid:33274384
查看文章PubMed/NCBI谷歌学术搜索
25米林JT, 狄更斯, 周LZX, Choo ELW, Koo JR, Aik J, et al.SARS-CoV-2干预措施对登革热传播的影响。公共科学图书馆 2020;14: e0008719.密码:33119609
查看文章PubMed/NCBI谷歌学术搜索
26米Yamana TK,Kandula S,Shaman J.登革热爆发的超级合奏预测。J R Soc 接口。2016;13: 20160410.pmid:27733698
查看文章PubMed/NCBI谷歌学术搜索
27米Chen Y, Ong JHY, Rajarethinam J, Yap G, Ng LC, Cook AR. 新加坡热带城市登革热病例的邻里级实时预测。BMC 医学 2018;16: 129.密码:30078378
查看文章PubMed/NCBI谷歌学术搜索
28米皮卡N,布维尔NM。影响呼吸道病毒传播的环境因素。Curr Opin Virol。2012;2: 90–95.密码:22440971
查看文章PubMed/NCBI谷歌学术搜索