图片描述任务作为跨MCI亚型筛选工具的不同性能
乔尔·梅福德 ,赵子龙,莉亚·海利尔,徐曼,周桂峰,雷切尔·梅斯,凯利·斯隆,香农·谢泼德,申利·格伦
发布时间:13 年 2023 月
抽象
图片描述任务是Miro Health自我管理神经行为评估平台的组成部分。图片描述已被用作识别阿尔茨海默病和轻度认知障碍 (MCI) 患者的筛查工具,但目前需要亲自管理和由有权访问和熟悉评分量规的人评分。Miro Health 实施允许通过自我管理和自动化处理、分析和评分更广泛地使用此评估,以提供对用户语音产生、声音特征和语言的临床有用的量化。从62名健康对照组(HC)和33名患有MCI的受试者中收集了图片描述反应:18名患有遗忘性MCI(aMCI),15名患有非遗忘性MCI(naMCI)。评估语音和语言特征以及特征对之间的对比,以确定参与者亚组中分布的差异。选择图片描述特征并使用惩罚性逻辑回归进行组合,以形成HC与MCI以及HC与特定MCI亚型分类的风险评分。基于图片描述的风险评分将 MCI 和 HC 区分开来,受试者算子曲线下面积 (AUROC) 为 0.74。当对比MCI和HC的特定亚型时,分类器的aMCI与HC的AUROC为0.88,naMCI与HC的AUROC为0.61。单个特征的关联或特征对与HC与aMCI的对比测试确定了20个特征的p值低于5e-3,错误发现率(FDR)等于或低于0.113,61个特征的p值低于5e-4,FDR等于或低于0.132。研究结果表明,图片描述作为MCI检测的筛查工具的性能将因MCI亚型或未分化的MCI人群中各种亚型的比例而有很大差异。
作者摘要
图片描述已被用作识别阿尔茨海默病和轻度认知障碍(MCI)患者的筛查工具,并且是Miro Health自我管理神经行为评估平台的组成部分。Miro Health 的实施允许通过自我管理和自动化处理、分析和评分来广泛使用此评估,以提供对用户语音产生、声音特征和语言的临床有用的量化。我们分析了健康对照组(HC)和两种MCI亚型患者的图片描述反应:遗忘性MCI(aMCI)和非遗忘性MCI(naMCI)。从图片描述响应的记录中提取声学特征,从录音的记录中提取语言特征。分类器是根据图片描述特征构建的,以区分HC与MCI或MCI的亚型。HC与aMCI的分类比HC与naMCI的性能更好。研究结果表明,图片描述作为MCI检测的筛查工具的性能将因MCI亚型或未分化MCI人群中各种亚型的比例而异。我们建议,未来的研究必须确定和报告所分析的MCI病例的亚型。对每种MCI亚型进行单独分析将是最有用的。
数字
Fig 1Fig 2Table 4Table 1Table 2Table 3Fig 1Fig 2Table 4Table 1Table 2Table 3
引文: Mefford JA, Zhao Z, Heilier L, Xu M, Zhou G, Mace R, et al. (2023) 图片描述任务作为跨MCI亚型筛选工具的不同表现。公共科学图书馆数字健康 2(3): e0000197. https://doi.org/10.1371/journal.pdig.0000197
编辑 器: Laura M. K?nig,拜罗伊特大学:德国拜罗伊特大学
收到: 22月 2021, 18;接受: 2023月 13, 2023;发表: <>月 <>, <>
版权所有: ? 2023 梅福德等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 本手稿中分析的数据可从开放科学框架下载。https://osf.io/8detu/?view_only=4dc8665f81924cb281d71d39d2dab1cb。
资金: 这项研究由Miro Health,Inc.资助。研究参与者的招募和评估由Miro Health,Inc.资助,由马里兰州巴尔的摩约翰霍普金斯大学医院的合同临床医生和研究助理以及使用Miro Health,Inc.设计的协议的合同研究组织进行。
竞争利益: 作者SG,MX,ZZ,GZ和LH受雇于Miro Health,Inc.并从Miro Health,Inc.获得薪水。作者JAM是Miro Health的顾问并持有股权。作者RM的薪水由Miro Health补充。作者KLS和SMS没有获得该项目的资金。
介绍
MCI患者是一个异质性群体,具有不同的功能障碍领域和程度、不同的病因和不同的预后[1]。定义和表征MCI亚组的一种方法是区分aMCI(aMCI)和功能缺陷不在记忆域的非遗忘MCI(naMCI)[1,2]。
我们认为,具有未分化MCI的研究很难解释,因为MCI亚型的不同混合物将具有不同的平均功能特征,因此与单个声学或语言特征的关联不同。用于区分HC和MCI的特征组合将调整为特定研究中未分化MCI亚型的混合物,并且不会推广到具有不同亚型比例的其他人群。在这项研究中,我们区分了aMCI和naMCI病例,并分别分析了这些病例组。这保持了对研究参与者的疾病亚型的关注,以及它们对预后和患者护理计划的影响。
在这项研究中,我们使用Miro Health神经行为评估平台[3]来记录对波士顿诊断性失语症检查(BDAE)中“饼干盗窃”图片的更新版本[4]的口头反应[5]。我们报告了从记录的语音回答中提取的个体特征及其转录本和分类器的表现,这些特征是通过结合区分健康对照(HC)与研究参与者aMCI或naMCI的特征而构建的。
语音声学和语言使用可以深入了解个体的健康和认知功能[6,7]。阿尔茨海默病及相关疾病、帕金森谱系障碍和MCI可对语音和语言特征产生可衡量的影响,包括基于语音声学质量、语音产生或词汇和语义复杂性的影响[6]。图片描述中捕捉到的这些语音和语言特征的改变与不同的人群有关,包括正常衰老[8]、痴呆[9,10]、原发性进行性失语症(PPA)[4,11]和脑卒中[4,12]。已经确定了区分这些群体的特征,并使用机器学习方法来选择和组合特征,以制作区分这些群体的分类器[13-22]。
从图片描述任务中收集口语样本的好处是可以集中注意力,有助于避免将语音和语言产生问题与记忆问题混为一谈,并允许分析相关内容单元,例如特定于图片中描绘的场景的名词和动词以及一般语言和声学特征[10].响应中这些相关内容单元的计数可能特别有用。例如,与年龄匹配的对照组相比,DAT型痴呆患者产生的这些相关内容单位更少[23]。
图片描述评估(如波士顿失语症诊断检查中的Cookie盗窃[5])仅需几分钟即可管理,但需要有权访问并熟悉评分量规的管理员来解释测试[24,25]。这阻碍了这些评估的更广泛应用。图片描述任务的实现作为Miro Health移动评估平台的一个组成部分[3,4,26]。这允许远程、自我管理图片描述以及一系列额外的评估。用户记录的回复被加密并发送到Miro Health的安全服务器,在那里对回复进行自动分析。然后,Miro Health用户的结果将在Miro Health的安全平台上提供。结果也可以发送给订购评估的有执照的临床医生。有关数据安全性的更多详细信息,请参见 S1 文件的 J 部分。
在这里,我们评估了从研究参与者对图片描述任务的口头反应的录音和成绩单中获得的特征的性能,以区分aMCI或naMCI与健康对照。在三个单独的分析中,交叉验证的弹性网络逻辑回归[27]用于选择数值特征的子集,然后形成所选特征的加权组合,将HC组与aMCI,naMCI或组合MCI(aMCI+naMCI)病例最佳地分开。将这些“PD-MCI风险评分”的表现与类似机器学习方法形成的风险评分进行比较,但使用来自全套自我管理的神经行为评估的评分作为输入特征[26],包括图片描述。
相关工作
还有其他研究从研究参与者的图片描述或相关语言任务中获取响应,从响应中提取数字特征,并将特征输入统计或机器学习模型,以区分MCI参与者与健康对照或进行相关的临床区分。我们总结了12项与S1文件中表A中的工作类似的研究。
S1文件中表A中显示的大多数研究都分析了通过管理图片描述任务收集的数据,包括参与者口头回答的录音,录音的成绩单或书面回答。一些研究将图片描述任务的数据与其他数据相结合,包括参与者的年龄、性别和对其他任务的反应。一些研究使用语音或语言数据,但没有使用图片描述任务:两项研究[13,17]使用自发言语,一项研究使用受试者阅读短文本的录音[21],一项研究使用立即和延迟复述三句话故事的录音[20]。
记录参与者对图片描述任务的响应的一个优点是,通过要求参与者描述 Cookie 盗窃场景或其他此类受限制的主题,可以预先定义相关的信息内容单元,例如 Cookie 盗窃图片中描绘的对象、动作和位置。通过计算参与者对这些相关内容单元的提及,参与者响应中的语义信息很容易编码。这些语义特征补充了从图片描述响应或自发语音中获得的声学、词汇和其他语言特征。这些语义特征已被证明对研究参与者的诊断具有信息性,MCI和HC组的内容单位与话语的比例不同[28],AD中所说的内容单位数量低于HC或MCI[29]。
口语样本的记录可以直接分析以提取声学特征,也可以转录然后进一步处理。可以从成绩单中提取的特征包括内容单元或语义特征的计数,以及其他语言特征,包括不同词汇类别(名词、介词等)中的单词计数,以及句子长度和复杂性的度量。S1文件表A中的14项研究收集了声学和语言特征,并以各种组合将其用于分离MCI和HC研究受试者[16,18–20,<>]。
在 Calza 等人中,2021 年,根据三个语言任务计算了声学、节奏、形态句法和词汇特征。如果特征在HC和MCI研究参与者中的分布显着不同,则选择在支持向量机(SVM)分类器中使用特征。所得SVM用于HC和MCI分类的性能为(F1 0.74)。
在Gosztolya等人,2019年,仅使用人口统计特征区分HC和MCI的SVM分类器性能为(F1 0.565)。添加声学功能将性能提高到 (F1 0.756),而单独添加语言功能导致性能为 (F1 0.783)。将声学和语言功能添加到 SVM 中产生了 (F1 0.857) 的性能。
在Hernández-Domínguez等人,2018年,分析了图片描述响应,以提取语音特征,词汇分布,按词汇类别划分的单词数,以及响应与任务相关性的“信息覆盖”度量。评估了许多模型,但HC和组合病例分类(MCI或AD)平均性能最佳的模型是使用语言和信息覆盖特征的支持向量机(AUROC 0.76)。
在Roark等人,2011年,使用“语言特征”(AUROC 0.731)而不是“语音特征”(他们的术语)(AUROC 0.703)对HC和MCI参与者进行分类的表现更强,但最好的分类器使用其他类型的特征以及年龄,教育和9个额外的神经心理学评估(AUROC 0.861)。
在 Frazer 等人,2019 年,使用仅使用图片描述响应转录中的语言特征构建的 SVM 对 HC 和 MCI 研究参与者进行分类的性能略好于同时使用声学和语言特征构建的 SVM(AUROC 0.73 对 0.71),但性能最佳的分类器(AUROC 0.88)使用了图片描述中的所有可用特征以及从两个阅读任务中提取的特征。
上述研究证明了通过结合来自语音[13,14,16-18]或书面语言样本[15]的特征来区分研究参与者群体而构建的分类器的性能。如果目标是识别或区分具有不同医学诊断的个体,那么分类器的设计以及使用包括 AUROC 在内的指标评估分类性能至关重要。另一种研究方法是对各组间个体特征水平的差异进行统计检验[22,28,29]。对个体特征的统计分析可以深入了解MCI病例的特定功能缺陷。在本研究中,我们评估了语音和语言特征的分类性能,或从它们构建的分类器,以及HC和aMCI或naMCI队列中特征分布差异的统计意义。
除了分析单个声学或语言特征与诊断的关联以及在机器学习方法中联合使用许多特征通过诊断对研究参与者进行分类之外,S1文件表A中显示的两项研究还考虑了对声学或语言特征对的联合分析。在声学分析中[22],HC和MCI研究参与者的第一次谐波和第三次振幅之间的差异是不同的。在对图片描述Cookie盗窃响应的成绩单的分析中,HC和MCI中内容词与话语的比例不同[28]。在本研究中,我们系统地考虑了声学或语言特征对。对于每个对比或一对归一化特征的差异,我们评估了HC,aMCI和naMCI队列中对比度的分类性能和统计证据。
在 S1 文件的表 A 中总结的研究中,Calza 等人 2021 将 MCI 参与者分类为 aMCI 或多域 MCI (mdMCI)。在被确定为MCI病例的32名研究参与者中,他们区分了16种aMCI和16种多域MCI(mdMCI)。然而,在他们的分析中,MCI亚型被合并为一个MCI组,并与HC形成对比。其他研究将HC与未分化MCI进行比较,或将HC与MCI+AD联合治疗进行比较[18]。我们发现具有未分化MCI的研究很难解释。SVM或其他分类器用于区分HC和MCI的特征组合将调整为特定研究中未分化MCI亚型的混合物,并且不会推广到其他人群。
在S1文件的表A中,我们总结了上述与当前工作相似的研究。这些研究从研究参与者对图片描述任务或相关任务的口头或书面回答的回答中提取声学或语言特征,然后使用这些特征来区分研究参与者中的病例和对照组,或测试病例或对照组之间特定特征的值差异。Eyigoz 等人,2020 年研究 AD 事件,但其他研究都对比了 HC 和 MCI 组。Hernández-Domínguez等人,2018年将组合(MCI或AD)组与HC进行比较,Jin等人,2016年Gosztolya等人,2019年将MCI与HC和AD与HC进行比较。在这些相关研究中,只有 Calza 等人,2021 年考虑了 MCI 的不同亚型。
在本研究中,我们考虑了从图片描述录音中提取的声学特征和从录音记录中提取的语言特征。语言功能包括基于信息内容单元、响应长度和按词汇类别划分的字数的语义特征。单独分析这些特征与诊断(HC,aMCI或naMCI)的关联,以及根据其正确诊断对研究参与者进行分类的能力。我们系统地考虑了诊断与特征对得出的对比的关联。最后,我们在优化的分类器中选择并组合声学和语言特征,以区分HC与aMCI或naMCI。
米罗健康评估平台
Miro Health 平台是一个用于远程提供神经认知评估、测试评分和分析的系统,以及医疗保健患者管理或临床研究中研究管理的行政支持。
Miro 健康评估电池可以从自我报告问卷库和 40 多个交互式模块中定制。Miro Health模块包括重新设计的传统神经心理学测试类似物[26],这些测试已更新用于在计算机平板电脑或手机(iOS或Android)上进行管理,并捕获高保真数据,如运动,语音,语言和响应时间信息。每个 Miro 健康模块都会自动管理和评分。
方法
人类受试者数据
研究参与者是从马里兰州巴尔的摩约翰霍普金斯大学医院的神经病学诊所招募的;来自合同研究组织站点的参与者池;并通过报纸上的广告从公众中获取。筛查措施包括人口统计学、病史(自我报告)、认知状态电话访谈[30,31]、老年抑郁量表[32]、梅奥-波特兰改良量表[33,34]和简易精神状态检查[35,36]。
健康对照组(HC)的纳入标准是年龄≥64岁,认知状态电话面试得分为≥33,5岁前讲英语,高中或同等学历。MCI患者的纳入标准为年龄≥64岁;简易精神状态检查得分为20-26;或有 MCI、神经退行性疾病或伴有认知障碍的血管疾病诊断史的病历。患有MCI的个体必须符合美国神经病学学会[36]的MCI诊断临床标准。所有研究受试者的排除标准是神经系统疾病共病的证据;使用已知会影响认知的药物;未矫正的视力或听力障碍;以及癌症、物质滥用或轴 1 障碍病史。
该研究方案由约翰霍普金斯大学机构审查委员会(协议00088299)和新英格兰机构审查委员会(协议120180208,120180211,120180209和12080253)批准,并根据赫尔辛基宣言及其后来修正案的伦理准则进行。所有个体在参加研究之前都提供了知情的书面同意。
验证研究参与者的认知状态
纳入的受试者被分配到一个队列(HC、aMCI、naMCI),由一位独立的、有执照的临床神经心理学家解释神经心理学测试结果[1,2,37]。神经心理学家可以访问资格和队列分配简要的屏幕评分——TICS [30,31]、MMSE [35,36]或MoCA [38]——人口统计学、病史、当前药物使用以及Miro Health平台中全套评估的结果[26]。按诊断划分的观察数量以及年龄和性别分布如表1所示。还显示了每种诊断的三个认知或功能能力测量值的平均值和标准偏差:MMSE,以及语言学习和记忆(VLM)和延迟语言学习和记忆(DVLM)任务的分数。
数据收集和准备
图片描述任务 [5,10] 的实现作为 Miro Health 移动神经行为评估平台 [3,4,26] 中的“说出场景”模块包含在内。所有研究参与者都使用了饼干盗窃场景的更新图片[4]。
本研究的所有参与者均在约翰霍普金斯大学或合同研究组织的研究助理的监督下进行评估。评估是使用运行Miro健康评估工具的Apple iPad进行的,并由研究网站提供。
启动“朗读场景”模块时,将显示一个欢迎页面,其中包含一个标记为“Let's go”的按钮。按下按钮时,将显示一个说明页面,其中包含打印的说明和另一个“Let's go”按钮。显示此页面时,录制的声音会大声朗读说明。当研究参与者按下触摸屏上的“Let's go”按钮时,将显示Cookie盗窃图片,并且Miro Health应用程序开始使用iPad的麦克风记录参与者对刺激的90秒语音反应。
录制的音频文件会自动加密并传输到Miro Health的安全服务器进行评分,以及研究参与者的研究注册,资格筛选,同意和来自测试模块的数据以及图片描述的信息。声学分析会自动进行。成绩单由训练有素的转录员准备和验证。然后自动处理用户的成绩单,以提取语言特征,并对与测试管理期间呈现的图片相关的相关内容单元进行评分。
语言特征是使用斯坦福CoreNLP 3.9.1 [39]和Python[40]从成绩单中提取的。Stanford CoreNLP 3.9.1 使用英语-left3words-distsim.tagger。在CoreNLP网站(https://aclweb.org/aclwiki/index.php?title=POS_Tagging_(State_of_the_art)))上,他们指出,在标准的WSJ20-24测试集上,POS标记器达到了96.97%的准确率。特征生成包括特定于 Cookie 盗窃刺激的语言特征的词法分析和评分,例如与图片相关的预定义内容单元的计数。音频文件的声学分析是使用适用于Linux的PRAAT 6.1 [41]完成的。为本研究收集的特征及其定义的完整列表显示在S1文件的表L中。在进一步分析之前,对声学和语言特征进行了分位数归一化。
PRAAT没有为一个或多个研究参与者计算量化声震颤的几个声学特征(ATrP,FTrP,ATrI,FTrI,ATrF,FTrF)。这些特征的缺失值使用SoftImpute算法进行插补,在PD风险评分优化期间分别针对每个训练-测试拆分。[42,43]。特征的插补值未用于评估单个特征或分析特征的归一化差异(对比度)。
在以下分析中,总共考虑了44个表征语音声学的特征和从研究参与者的口语回答记录中确定的47个语言特征。
不同诊断的声学和语言特征差异
通过使用R和vioplot库生成小提琴图,以图形方式探索了三个研究队列中特征值的分布[44]。
评估了HC和aMCI或naMCI队列中特征的差异。在R v. 4.0.2 [45]中,使用逻辑回归并调整年龄和性别来测试每个特征分布在诊断中差异的统计学显着性:glm(y ~ 年龄 + 性别 + 特征,家庭 = 二项式(链接 =“logit”)),其中 y 在 {case:1, control:0} 中。与图片描述特征相关的回归系数的 p 值用于通过 Benjamini-Yekutieli 过程 [46] 计算错误发现率 (FDR),如 R 中的 p.adjust 函数中实现的那样。
使用个体声学和语言特征进行诊断分类
评估每个图片描述特征作为分类器的性能,以区分aMCI或naMCI病例组与HC。对于每个 Miro Health 特征,训练了一个 L2- 惩罚逻辑回归模型,以使用 R 和弹性网络库 [44] 预测病例或对照状态,并将 Miro Health 特征、年龄和性别作为输入变量。选择 L2 惩罚以最小化交叉验证的模型偏差:cv.glmnet(x, y, alpha = 0, family =“二项式”, nfolds = 5),其中 y 对于 MCI 案例(在两个单独的分析中为 aMCI、naMCI)取值 1,对于 HC 取值为 0,x 为包含 PD 特征、年龄和性别列的矩阵。为每个研究参与者生成了使用所选惩罚训练的模型的 5 倍交叉验证的样本外预测。该过程重复十次,并将结果平均以给出最终预测。在给定输入变量的情况下,这些预测在MCI队列而不是HC的对数几率尺度上被视为MCI的风险评分,并通过计算受试者操作员特征曲线(AUROC)下的面积来评估其分类性能。使用AUROC以外的措施对测试分数进行分类性能通常需要对测试分数的值进行指定阈值,以便将分数低于阈值的个体分类为一组,而分数高于阈值的个体被分类到另一组。我们选择了阈值来最大化F1(灵敏度和精度的调和平均值),使特异性至少为0.85。使用这些阈值,我们计算了灵敏度、特异性、精密度、准确度和F1。
对比:图片描述中声学和语言特征的成对分析
计算分位数归一化特征对之间的差异,并通过逻辑回归评估与病例或对照队列的关联,上述各个特征也是如此。两个变量A和B之间的这些对比或差异A-B区分了相对于变量B具有较高值的研究参与者,反之亦然。根据成绩单计算所有 47-choose-2 = 1081 对语言特征和所有 44-choose-2 = 946 对语音声学特征的对比度,但不计算混合的语言和声学特征对。分析与上述各个特征一样进行。在这项研究中,计算了分位数归一化分数的对比度,而不是分数的比率,以避免比较分数与非常不同的尺度或值范围以及除以零或接近零的值的问题;并且因为准备了分位数归一化分数,以便输入弹性网络算法以生成组合分类器。
生成小提琴图以可视化使用R和vioplot库的三个研究队列的对比度分布。
使用逻辑回归模型中的p值评估队列之间对比值差异的统计学意义,并调整年龄和性别。每种对比的错误发现率通过Benjamini-Yekutieli程序计算。通过使用来自L5惩罚logistic回归模型的2倍交叉验证预测,以对比,年龄和性别作为输入变量,计算AUROC和其他性能测量来评估区分HC与aMCI和naMCI组的对比的分类性能。
PD 风险评分:根据从图片描述响应中提取的多个特征构建的分类器
在R库glmnet [27]中实现的弹性网络逻辑回归用于定义三个分类器或风险评分,这些分类器或风险评分使用图片描述响应中的声学和语言特征来区分HC与aMCI,HC与naMCI,以及HC与组合(aMCI + naMCI)。
从研究参与者的成绩单中提取的47种语言特征和44种声学特征以及年龄和性别被用作训练这些分类器的输入。特征在使用前进行分位数归一化。弹性网络逻辑回归具有 L1- 惩罚,倾向于删除不会提高预测性能的特征,以及 L2- 惩罚,提供进一步的正则化以提高预测性能。年龄和性别被纳入模型中,没有受到处罚,因此保证它们被纳入最终的风险评分模型中。最终风险评分模型的形式是输入要素子集的一组权重。以输入要素的相应加权和计算的风险评分是对个案而不是对照的对数几率的估计。参数 alpha(L1 与 L2 惩罚的比率)和 lambda(惩罚的比例因子)针对分类性能进行了优化,通过 5 倍交叉验证最小化预测偏差来测量。在交叉验证的每个训练-测试拆分中,训练子集和测试子集分别插补了缺失值。缺失值的特征仅限于六个量化声声震颤的声学特征(ATrP,FTrP,ATrI,FTrI,ATrF,FTrF)。在选择最佳弹性净惩罚后,对 10 次 5 倍交叉验证的重复进行了样本外预测。每个研究参与者的10个模型预测的平均值被用作计算AUROC的风险评分。
由于两种MCI亚型(18个aMCI和15个naMCI)的研究参与者数量较少,但HC的计数较大,为62个,因此我们的主要分析和分类器或风险评分的开发是单独比较HC与每种MCI亚型,或HC与组合MCI,而不是直接比较aMCI与naMCI或开发风险评分以区分这些组。然而,作为从上述使用惩罚逻辑回归开发风险评分的替代方法,我们训练和评估了 3 类分类的惩罚多项逻辑回归模型,并同时优化 HC 与 aMCI、HC 与 naMCI 以及 aMCI 与 naMCI 分离的风险评分。与上述惩罚逻辑回归模型一样,使用的惩罚多项式回归模型是在 R 库 glmnet 中实现的模型 [27]。所有91个声学和语言特征以及年龄和性别都被用作输入特征,并对三类结局(HC,aMCI,naMCI)进行建模。选择L1和L2惩罚,以通过5倍交叉验证来最小化预测偏差。在交叉验证期间,为每个训练测试拆分单独输入声震颤声学测量的缺失值。在设置优化的惩罚后,对另外 10 轮 5 倍交叉验证的模型预测进行平均,以给出每个研究参与者对三种诊断的责任。一对诊断的责任差异,例如aMCI的责任 - HC的责任,是对一组而不是另一组的对数几率的估计,aMCI与HC的对数几率在示例中。将负债的三种差异(HC-aMCI、HC-naMCI和aMCI-naMCI)用作相应分类任务的风险评分,并使用AUROCs评估其绩效。
结果
研究参与者
共有95名研究参与者接受了本研究的图片描述任务评估。这些分布在三个研究队列中:遗忘MCI(aMCI),非遗忘MCI(naMCI)和健康对照(HC)。表1显示了研究队列和性别的研究参与者人数,以及每个队列的平均年龄和年龄范围。表1中还显示了MMSE的平均值和标准偏差,以及语言学习和记忆(VLM)任务和延迟语言学习和记忆任务(DVLM)的分数。VLM 和 DVML 分数来自单词学习任务,该任务作为模块包含在 Miro 健康评估平台中。VLM 和 DVLM 分数表示正确回忆的单词数。这些VLM和DVLM评分已被转换为代表健康对照参考数据集中的百分位数[26]。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. aMCI、naMCI 和 HC 队列中研究参与者的计数、人口统计学和功能测量。
https://doi.org/10.1371/journal.pdig.0000197.t001
数据准备
对图片描述响应进行处理,生成91个定量特征。在这些特征中,44 个是根据研究参与者记录的回答计算出的声学特征,47 个是从录音的成绩单、句子计数、单词和音节生成的语言特征;词汇分析,包括不同类别或词性的单词计数;以及响应中项目和操作的内容单元或字数。S1文件中表B中显示了三个诊断组的均值和每个特征的标准偏差。在进一步分析之前,对特征进行了分位数归一化。三个诊断组中分位数归一化特征的均值和标准偏差显示在 S1 文件的表 C 中。
如表 2 和表 3 所示,分别区分和计算了各种内容单元集。如果内容单元与图片中描述的方案相关,则标记为“相关”,而相关和不相关内容的组合计数标记为“ALL”。名称中包含“DISTINCT”的功能不计算内容单元的重复使用。名称中包含“RIGHT”或“LEFT”的特征是与图片相应一侧的项目相关的内容单位计数,例如左侧的“狗”或右侧的“水槽”用于饼干盗窃场景。名称中包含“双方”的功能是未本地化到图片一侧的内容单元计数,例如 Cookie 盗窃场景的“厨房”或“家庭”。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. 源自图片描述记录或转录本的特征与 aMCI 或 HC 诊断的关联。
https://doi.org/10.1371/journal.pdig.0000197.t002
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. 与两个语音或语言特征 A 和 B 的归一化值的 aMCI 或 HC 对比队列 (A-B) 的成员资格相关联。
https://doi.org/10.1371/journal.pdig.0000197.t003
分析个人声学和语言特征
评估声学和语言特征以确定它们与研究参与者健康状况的关联。对于每个特征,使用逻辑回归评估aMCI和HC队列之间差异的统计学意义,并调整年龄和性别。表 2 显示了 p 值小于 20.0 的 005 个要素。这组重要关联包括名称中具有“内容单元”的十个特征,并代表研究参与者响应中内容单元的各种计数或其响应的“主题”相关性。词性各部分有四种词汇特征或单词数:不定冠词、介词、名词和功能词。一个分数是声学特征 - 记录响应期间参与者声音基频的标准偏差。其余特征是响应长度的不同度量:音节、单词、短语、句子和完整句子。
p 值低于 20.0 的 005 个得分代表分析中考虑的 20 个要素中的 91 个。为了补充 p 值并考虑多重测试,在表 2 中,我们提供了错误发现率 (FDR)。FDR 表示表 2 或表 3 中该 FDR 行或以上处误报的特征比例的估计值。产生表2中p值的特征和检验不是独立的,因为它们都是从相同的响应中提取的,因此使用了允许相关检验的保守的Benjamini-Yekutieli程序[46]。S1 文件中的表 D 是表 2 的扩展版本,显示了所有 91 个要素的 p 值和 FDR。S1文件中图A中的面板A和B显示了所有91个特征的p值和FDR的直方图。
对于每个特征,还使用逻辑回归评估naMCI和HC队列之间差异的统计学意义,并调整年龄和性别。如表E以及S1文件中图B的面板A和B所示,这些关联检验与naMCI和HC队列的p值分布几乎没有名义上的显着特征,p值低于0.05,估计FDR低于1的特征为零。这表明,该分析中对比naMCI和HC组的任何发现都是假阳性。naMCI队列中的参与者也少于aMCI队列。由于这些原因,这里考虑的特征分析侧重于识别和表征aMCI和HC队列之间的差异,而不是使用naMCI队列进行分析。
即使有统计证据表明aMCI和HC队列的声学或语言特征不同,也可能对区分队列不是特别有用。通过使用特征作为分类器来确定每个特征对检测队列成员的实际意义。在任何使用这些分数的实际分类任务中,年龄和性别应该可用于被评估的对象,因此使用年龄、性别和单个声学或语言特征作为预测因子进行 L2 惩罚的逻辑回归分类器。分类器性能用接收者-操作员特征曲线下面积 (AUROC) 量化,获得 10 次 5 倍交叉验证迭代的平均分数。为了进行比较,使用仅使用年龄和性别来识别案例的惩罚逻辑回归模型作为基线。用于分离aMCI和HC队列的基线模型的AUROC为0.61。表 2 中提供的功能将分类器性能提高到基线模型高达 0.83,但至少为 0.65。请注意,统计显著性程度(低 p 值和低 FDR)的排序顺序与作为分类器的实际显著性程度(高 AUROC)几乎相同。
表 2 中的最后一列标记为“效应方向”,表示用于计算 p 值的逻辑回归模型中声学或语言特征的估计回归系数的符号。对于分析,aMCI病例编码为1,对照组编码为0,因此正效应方向表明,在调整年龄和性别后,aMCI病例的特征值通常高于对照组。表 2 中显示的所有功能(除一个功能外)都具有负面效应方向,因此控件往往具有较高的这些功能值。表2中具有负面效应方向的特征都是图片描述转录本中各种数量的计数,因此它们可以表明对照组的反应比aMCI参与者更长。这表明,更多的洞察力可能来自考虑特征对的比率或对比度。表2中唯一具有正效应方向的特征是“F0的声学标准偏差”。这一结果表明,aMCI队列中的参与者在他们的反应过程中,他们的声音的基本频率或音调往往有更多的变化。用于分析所有 91 个声学和语言特征以区分 aMCI 和 HC 队列的 AUROC 和效果方向显示在 S1 文件的表 D 中。用于区分naMCI和HC队列的特征的相应分析结果显示在S1文件的表E中。
为了进一步表征91个声学或语言特征中的每一个与年龄和性别一起对aMCI与HC进行分类时的性能,计算了额外的性能测量。准确度、灵敏度、特异性、精密度和 F1 显示在 S1 文件的表 G 中。选择计算这些其他测量所需的风险评分阈值以最大化 F1,从而使特异性至少为 0.85。同样,这些性能测量值是根据每个声学或语言特征对naMCI与HC进行分类计算的,结果显示在S1文件的表H中。
图 2 中使用带有嵌入箱形图的小提琴图显示了表 1 中三个特征队列的分布。特征在表2和图1中以相同的顺序显示,“不同相关内容单元的计数”在表1的第一行和图1的面板A中,依此类推。在每个面板中,显示了三个小提琴图,从左到右分别代表aMCI队列,HC队列和naMCI队列。选择这些特征是因为aMCI和HC队列中不同,并且每个面板中左侧和中间图的视觉比较证实了这两个队列中这些特征的典型值存在差异。相比之下,在每个面板中形成正确图的naMCI特征与HC评分的区别小于aMCI特征。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 表2018中的2年语音或语言特征用小提琴和嵌入式箱形图显示,以显示这些特征在三个研究队列中的分布:aMCI,naMCI和健康对照。
这些特征的 p 值低于 0.005,与 aMCI 或 HC 队列中的成员相关联,通过逻辑回归确定,并根据年龄和性别进行调整。这些图与表 2 中的行采用相同的字母数字顺序,面板 A 显示不同相关内容单位计数的值队列中的分布,后续面板显示 p 值递增的特征。特征与 aMCI 与 HC 队列状态关联的相应 p 值如表 1 所示。与 HC 队列状态相比,没有特征的错误发现率低于 1.0。答:不同相关内容单元的计数。B:相关内容单元的计数。C:不定冠词的计数。D:介词计数。E:名词计数。F:双方总内容单位不同。G:双方总内容单位。H:所有内容单元的计数。I:图片右侧的内容单位计数。J:音节计数。K:字数。L:所有不同内容单元的计数。M:图片右侧不同内容单元的计数。N:句子计数。O:短语计数。P:F0的声学标准偏差。问:完整句子的计数。R:图片左侧的内容单位计数。S:所有功能字的计数。T:图片左侧不同内容单元的计数。
https://doi.org/10.1371/journal.pdig.0000197.g001
成对的声学或语言特征的对比
对特征对之间的对比的分析可以补充对单个特征的分析。例如,两个健谈的研究参与者可能同时具有高单词数和高句子数。但是第一个参与者的字数可能比平均值高 1 个标准差,句子计数比平均值高 2 个标准差,而第二个参与者的字数可能比平均值高 2 个标准差,句子计数比平均值高 1 个标准差。本研究中考虑的所有特征都是分位数归一化,因此它们的有效单位是与平均值的标准差。在此方案中,第一个参与者对单词((1-2 = -1)的句子)有对比,而第二个参与者对单词((2-1 = 1)的句子)有对比。对比的不同值和符号表明,第一个参与者对许多句子或短句有很多单词,而第二个参与者对几个句子或长句子有很多单词。
根据录音计算所有946对声学特征的这种对比度,并根据响应记录计算所有1081对语言特征的这种对比度。每个对比度都生成为表 3 第一列中命名的分位数归一化特征 A 与第二列中命名的特征 B 之间的差异 (A-B)。
分析这些对比以评估其区分aMCI和HC队列的能力,就像评估单个特征以产生表2中的结果一样。对比的回归和分类分析结果如表3所示。
这些对比被用作逻辑回归模型中的预测变量。和以前一样,回归分析的结果是队列成员编码为aMCI = 1和HC = 0,年龄和性别被用作调整协变量。计算aMCI与HC逻辑回归对比的p值,并用于对表3的结果进行排序,最显着的结果位于表顶部。表 3 显示了 p 值低于 20.1e-5 的 4 个对比。图20显示了这2种对比分布的小提琴图。S1 文件中的表 F 显示了一组较长的结果,其中 61 个对比度的 p 值低于 5e-4。为了解决测试之间的多个测试和依赖关系,使用Benjamini-Yekutieli程序计算FDR以补充p值。由此得出的罗斯福估计值包含在表3中。在这些分析中评估的所有2007年对比度的p值和FDR的直方图显示在S1文件中图B的面板C和D中。通过对L5惩罚逻辑回归模型中的2倍交叉验证预测进行分类,以对比,年龄和性别作为输入变量,评估这些对比对分离aMCI和HC研究参与者的实际意义。仅以年龄和性别作为输入变量的基线模型的 AUROC 为 0.61,但将对比度与模型相加会导致 AUROC 高达 0.89(模型计数 [情态动词]—相关内容单元计数)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 表 3 中的语音或语言特征与与 aMCI 或 HC 队列成员相关的 20 个最显著 p 值的对比用小提琴和嵌入式箱形图显示。
相应的 p 值如表 3 所示。没有对比显示与naMCI与HC队列成员相关的错误发现率低于0.5。这些图与表 3 中的行采用相同的字母数字顺序,面板 A 显示了模态计数减去介词计数的分位数归一化值之差的值在队列中的分布,随后的面板显示了与递增的 p 值的对比。答:模态计数减去介词计数。B:模态计数减去相关内容单元计数。C:亲句减去介词数。D:模态计数减去不定冠词计数。E:模态计数减去名词计数。F:亲句减去相关内容单位的数量。G:模态计数减去双方总内容单位不同。H:模态数减去字数。I:每个单词的音节最小减去不同相关内容单位的计数。J:模态计数减去图片右侧的内容单位计数。K:模态计数减去音节计数。L:每个单词的音节最小减去相关内容单位的计数。M:亲句减去不同相关内容单元的数量。N:亲句减去音节数。O:模态计数减去所有内容单元计数。P:亲句减去名词数。问:模态计数减去双方总内容单位。R:模态计数减去所有不同内容单元的计数。S:亲句减去所有内容单元的计数。T:模态计数减去不同相关内容单元的计数。
https://doi.org/10.1371/journal.pdig.0000197.g002
将显示产生 p 值的逻辑回归的估计回归系数的效应方向或符号。逻辑回归的结果编码为 aMCI = 1 和 HC = 0,因此正效应方向表明 aMCI 的成员往往比对照组具有更高的对比度值,或者 aMCI 病例往往具有相对较高的表 3 列 A 列中的特征值,而对照组倾向于具有相对较高的 B 列中的特征值。
计算相应的p值,FDR和分类AUROC进行分析,以区分每种对比与naMCI与HC状态的相关性。如S1文件中图B的图C和D所示,零对比度使FDR低于1,与naMCI与HC状态相关联。
图1和图2中的小提琴图分别显示了特征和对比度的分布,没有调整年龄和性别。表2和表3中的分析确实考虑了年龄和性别,一个合理的先验是,这些因素的调整至少对某些特征或对比很重要。例如,音调或基频随年龄和性别而变化。在表2和表3的分析中,声学特征和对比度最显著的是基频F0的标准差、语音中断及其对比度。为了直观地显示性别对这些措施的影响,S0文件中的F1标准差小提琴图,语音中断及其对比度显示在图C中,按队列(aMCI或HC)和性别分层。
使用特征的加权组合按诊断进行分类
表3中提供的对比显示aMCI和HC队列的分离比表2中的单个特征更显着,p值较低,AUROC较高。扩展了某些特征提供有关队列成员资格的补充信息或在考虑其相对水平时信息量最大的想法,构建了更大特征集的线性组合,并优化了选择要使用的信息量最大的特征集以及组合中每个特征的权重。
弹性网络逻辑回归算法用于查找语音和语言特征的优化加权组合,以分离aMCI和HC队列。这些模型预测基于年龄、性别和从图片描述数据中提取的特征,在 aMCI 队列与 HC 队列中的对数几率尺度上。算法的调整参数或惩罚是通过 5 倍交叉验证选择的。选择惩罚后,通过平均来自另外10次5倍交叉验证的惩罚逻辑回归的样本外预测,对aMCI和HC队列中的每个研究参与者进行样本外预测。我们将这些预测命名为“PD aMCI风险评分”。我们使用相同的程序对三个PD风险评分进行风险评分,以区分HC队列和naMCI,并将HC与组合(aMCI + naMCI)分开。
在交叉验证期间,测量语音震颤的声学特征中的缺失值分别针对每个训练测试拆分进行插补。年龄和性别在弹性网拟合过程中没有受到惩罚,因此他们被迫进入最终预测模型。完整的 91 个图片描述特征集用作弹性网拟合过程的输入,但最终分类模型仅使用信息丰富的特征子集。所选特征及其权重显示在 S1 文件的表 K 中。
这些PD风险评分用于计算用于分离研究队列对的AUROC,如表4所示。为了进行比较,还根据Miro健康评估平台中实施的大量神经行为测试的输入特征,计算了用于分离这些队列的AUROCs,并在以前的工作中进行了描述[24]。如表4所示,PD风险评分的分类性能不如基于大量评估的风险评分强。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 4. MCI风险评分在分离研究参与者队列时的表现。
https://doi.org/10.1371/journal.pdig.0000197.t004
使用另一种方法来制作第二组PD风险评分。在该分析中,使用惩罚多项回归同时从图片描述中找到年龄、性别和声学或语言分数的组合,以对 aMCI 与 HC、naMCI 与 HC 以及 aMCI 与 naMCI 进行分类。如S5文件中的表I所示,AUROC在0倍交叉验证下测量的分离这三组的性能分别为86.0、51.0和78.1。
讨论
我们的分析表明,基于从图片描述中提取的特征作为MCI检测筛选工具的自动分类器的性能将随着研究或临床来源人群中MCI亚型的比例而有很大差异。我们使用弹性网络逻辑回归[27]来筛选和组合从图片描述响应中提取的91个数字特征,以制作区分MCI病例和健康对照(HC)的分类器。进行了三项独立的分析来考虑MCI的不同亚型:HC与aMCI,HC与naMCI和HC与联合MCI(aMCI+naMCI)。该方法使用基于年龄,性别,声学和语言特征的惩罚逻辑回归模型的预测作为每个研究参与者成为病例风险的衡量标准。这些预测是对个人成为病例的对数几率的估计,较高的值与病例相关,较低的值与对照相关。
评估这些预测,这里称为PD MCI风险评分,作为分类器,我们发现PD-aMCI风险评分的AUROC为0.88,用于将aMCI病例与HC分开,但PD-naMCI风险评分的AUROC仅为0.61,用于将naMCI病例与HC分开。从HC中分离aMCI和naMCI组合的AUROC分别为18例和15例,为0.74。用于区分HC与具有混合亚型的MCI病例的AUROC介于对HC与aMCI(强于0.88)和HC与naMCI(较弱,为0.61)进行分类时的PD风险评分表现之间。S1文件中的表D和E以及图A和B显示,在HC vs aMCI分析中,从图片描述响应中提取的特征在按诊断对研究参与者进行分类时具有高AULOCs或低p值,而不是在HC与naMCI分析中。
这些结果表明,当使用图片描述响应进行区分时,区分aMCI和HC比区分naMCI和HC更容易。这与使用其他神经解剖学检测反应来区分HC与aMCI或naMCI的分析一致,其中HC与aMCI的分类性能更强[24]。这表明,检测MCI或区分MCI与HC的方法的报告性能将取决于一组MCI研究参与者中aMCI和naMCI亚型的比例。我们建议MCI检测研究应按亚型评估和报告MCI病例计数。
我们使用基于声学和语言特征的分类器的结果与先前研究的结果兼容,如S1文件中的表A所示。查看报告用于HC与MCI分类的AUROC的研究,Asgari等人[13]报告的AUROC为0.796,Fraser等人[16]报告为0.73,Roark等人[20]报告为0.703。这些结果类似于本研究中HC与联合MCI(aMCI+naMCI)分类的AUROC为0.74。S1文件表A中的其他研究没有确定其研究参与者的MCI亚型并分别分析亚型。Calza等人[14]确实将aMCI(记忆受损,其他认知领域未受损)病例与多域MCI(两个或多个认知功能受损,可能包括记忆)病例区分开来,但没有对两种已确定的亚型进行单独的分析。
对单个声学或语言特征的分析显示能够区分aMCI和HC,但不能区分naMCI和HC。从图片描述响应中提取的许多分数与aMCI与HC队列显着相关,如表2中逻辑回归分析的低p值和FDR所示。量表评分的许多对比也与aMCI与HC队列有关,如表3所示。这些评分或对比均与 naMCI 与 HC 队列显著相关;他们都在逻辑回归分析中估计FDR为1,这表明任何发现都是假阳性。鉴于naMCI病例数量很少,有15例,在这项研究中,我们不能得出结论,没有声学或语言特征可以将naMCI与HC区分开来,但这项研究无法找到任何特征。
在这项研究中,分析表明,基于图片描述转录的语言特征可能比来自录音的声学特征更能说明区分MCI病例和对照组。在通过逻辑回归对单个特征与aMCI与HC状态的关联进行逻辑回归分析中,表2所示的前0个特征中唯一具有最显着p值的声学特征是“F1的声学标准差”。S1 文件中的表 D 显示,与许多非声学特征相比,声学特征(特征名称中带有“声学”)在与 aMCI 与 HC 状态的关联检验中具有更高的 p 值,并且在用作分类器时具有更低的 AUROC。然而,区分aMCI与HC以及联合MCI(aMCI + naMCI)与HC的风险评分包括声学和语言特征。S<>文件中的表K显示了风险评分模型中使用的变量及其权重。总之,结果表明,区分aMCI和HC的信息量最大的个体特征主要是从转录本中提取的语言特征,但在声学特征中存在将aMCI与HC分开的互补信息。
S1文件中表E中的AUROC表明,没有单个特征特别擅长区分naMCI和HC。如S1文件中的表K所示,通过5倍交叉验证选择的区分naMCI和HC的风险评分只是以年龄和性别为预测因子的基线模型,但没有图片描述特征。由于naMCI病例包括那些有语言缺陷的人(与aMCI状态定义中的记忆缺陷相反),我们预计语言和声学特征至少可以表征一些naMCI病例,但我们将不得不用更大的naMCI病例样本重新审视这一假设。
我们看到,根据病例的亚型,区分MCI病例和HC病例的能力存在明显差异。我们建议,未来的研究必须确定和报告所分析的MCI病例的亚型。对每种MCI亚型进行单独分析,并进行分析以区分亚型将是最有用的。如 Calza 等人,2021 年报告 MCI 病例中亚型的分布,至少可以让读者评估研究结果与他们自己的临床或研究工作的相关性。
研究中只有18名aMCI和15名naMCI受试者,我们在分析中没有专注于区分MCI亚型。然而,我们用于生成风险评分的替代结构 - 用所有三个结果训练的惩罚多项式模型 - 给出了区分aMCI与HC,naMCI与HC以及aMCI与naMCI的风险评分。如S1文件中的表I所示,使用多项式风险评分分离aMCI与naMCI的AUROC为0.78。
可以从图片描述响应中提取的大量特征允许对个人在言语或语言方面遇到的功能缺陷进行丰富的叙述性描述。这些分数涵盖了研究参与者对图片描述任务的反应的几个维度:与Cookie盗窃图片相关的信息内容单元计数(例如“不同相关内容单元的计数”),语音稳定性(例如“F0的声学标准偏差”)和语速(例如“字数”)。单个 Miro Health 功能的标准化版本之间的对比或差异可以进一步了解研究参与者的表现。
我们知道语言样本可以为我们提供有关患者表达语言的详细信息。我们期望Miro Health实现图片描述任务的远程自我管理的便利性,语言特征提取的统一测试评分,以及声学特征的收集,将允许在研究和临床中扩展和常规化使用声学和语言评估。
局限性和今后的工作
基于图片描述特征和组合PD风险评分的分类结果在具有不同人口统计学和健康协变量分布的Miro Health用户的应用或研究中可能有所不同,或者在健康和MCI状态之间的临界区域有更多的Miro Health用户。
在这里,我们专注于将健康对照与患有遗忘性轻度认知障碍(aMCI)和非遗忘性轻度认知障碍(naMCI)的研究参与者区分开来。只有15名研究受试者在naMCI队列中,没有研究受试者患有其他疾病或诊断。在未来的工作中,我们将评估其他患者群体,这些患者群体在特征集合中可能具有与健康对照和aMCI队列不同的效果谱 - 更多的naMCI研究参与者,以及几个具有不同形式的失语症和失用症的组。
单个声学和语言特征以及分类性能分别在S1文件中的表G和H中汇总的特征对的差异是预先指定的,因此只有协变量调整(年龄和性别)受到过度拟合的影响(即,没有变量选择)。分类绩效度量的计算阈值设置为最大化F1,约束特异性至少为0.85。在特异性、敏感性和精确性之间需要权衡;作为一种潜在的筛选工具,我们将分析限制为具有高特异性。由于高特异性的限制,其他测量灵敏度、精密度和 F1 可能较低。
有许多类型的分类器可用于预测诊断,给定声学和语言特征列表作为输入,例如支持向量机、随机森林和神经网络。我们打算在获得更多可用数据时探索这些模型和其他模型。鉴于手头的小数据集,我们专注于组合分数,以制作易于解释的将HC与MCI病例组分开的分类器。这里使用的风险评分的替代结构,具有 3 种诊断(HC、aMCI、naMCI)的惩罚性多项式回归允许多类分类和成对 aMCI 与 naMCI 分类 (AUROC 0.78),但正确区分这些亚型需要具体考虑认知障碍的领域:aMCI 的记忆、naMCI 记忆以外的域和 mdMCI 的多个域。
支持信息
S1 文件 -
跳到无花果共享导航
1A. 相关研究摘要表A:将轻度认知障碍参与者与轻度认知障碍参与者分开的研究使用语言和语音声学功能的健康控件研究参与者计数依据子群数据类型特征提取分类方法性能本研究HC 62,aMCI 18,纳MCI 15录音和的成绩单对PD饼干盗窃任务。用英语。声学特性从分析PD录音和功能语言措施和信息内容单位效绩数据成绩单措施分类性能由单个功能,由对的对比功能,并通过分类器构建使用自动变量选择和全部组合声学和语言学具有 L1-,L2- 的特征受到处罚(“弹性网”)逻辑回归具有 p 值的 20 个要素低于 5e-3 且 FDR 达到或低于 0.113 表示关联与 HC 与 aMCI 队列。61对的对比具有 p 值的特征低于 5e-4 且 FDR 等于或低于 0.132 为与 HC 与 HC 的关联 vsaMCI队列。奥洛克 0.88用于肝细胞炎与肝病的分类aMCI 与惩罚物流回归分类器。阿斯加里等AL, 2017MCI 14, HC27的文字实录非对话68 计数前面的单词指定字支持向量机基线 AUROC 0.52。AUROC 0.725 使用全部字特征或 0.796
2预选时主题。在英语类专注于“相对论”功能子集Bschor etAL, 2001HC 40, MCI34、轻度DAT 21,中度至重度 DAT20的转录PD饼干盗窃。在英语。字数和相关内容单元与内容单元划分为对象, 位置,功能,以及操作组分类分析未使用。方差分析曾经统计检验单词差异跨诊断计数组DAT描述明显减少物体和人,操作、功能和本地化比 HC 或无变量差异化 HC 和MCI。卡尔扎等AL, 2021HC 48,aMCI 16,多-域 MCI16、早痴呆 16录音和的成绩单半-自发的对 3 的答复任务,包括一张照片描述任务(不是饼干盗窃)。用意大利语。87声学节律形态句法和词汇特征。要分类的 SVMMCI 与 HC 的组合。使用所有功能或手动选择子集。还有 p 值功能差异跨 MCI 的分布和科尔马戈罗夫的HC-斯米尔诺夫测试。HC 与 MCI 分类器 F1测量值 0.71 使用全部功能或 0.74 使用精选功能集。埃伊戈兹等AL, 2020270 HC 在时间评估。一半的研究参与者后续y 是诊断打开 AD 时或之前享年85岁年写对效绩数据的回应饼干盗窃。在英语。87 语言基于功能在书面上反应之后的逻辑回归变量选择。在语言学的补充特征, 人口统计和临床协变量和分数从电池 13神经心理学测试除了图片描述用于预测建模。维持测试集中的 AUROC用于预测诊断公元 85 岁 0.74 使用语言特征和 0.67使用语言和非语言特征。AUROC 0.60仅使用非语言变量。弗雷泽等AL, 2019HC 29, MCI26录音成绩单,以及眼动追踪功能来自PD饼干盗窃和两个阅读任务。在瑞典语。26 种语言功能, 12语音或声学功能,加上眼动追踪功能和阅读结果理解测试非线性支持向量机内核(径向基础函数)和 L2-受罚的物流回归AUC 0.71 使用组合图片中的功能描述(语言和语音)和 SVM 或逻辑回归。AUC0.88 使用所有任务和功能以及 SVM 或逻辑回归。AUC0.40 用于带语音的 SVM仅功能。AUC 0.73 用于带有语言的 SVM仅功能。戈什托利亚等2019HC 25, MCI公元25年 25 年的录音自发的语音, 在匈牙利语声学或语音特征从自定义神经网络支持向量机器。人口变量包含在模型。HC vs MCI:F1 56.5 使用人口特征;F10.756 添加声学特征;F1 0.727 加法
3的分析录音和语言功能来自的分析成绩单语言特征;F10.783 添加声学和语言特征;F1 0.857添加声学和语义语言功能埃尔南德z-多明戈Z等人,201825 HC 英寸参考分析。217 HC, 257公元 43 年MCI 在分类n 分析录音和效绩数据实录饼干盗窃任务。用英语。梅尔频率倒谱系数从录音和语言特征摘自效绩数据成绩单带语音的 SVM,语言和其他“信息覆盖”从中提取的特征帕金森性能因使用语音,语言或覆盖范围功能作为输入支持向量机。最佳平均值语言性能+ 覆盖功能:AUROC 0.79 HC 与 AD;0.76 HC 与 (AD+MCI)金等,2016DAT 30,MCI 30, HC30文字实录来自PD饼干盗窃。韩语正确比率信息股(CIU) 至形态字数,比例的CIU到句法词,主要概念,和数字内容字数通过言语。统计检验值差异功能而不是评估分类性能HC明显更高性能比 MCI组仅在内容词到言语国王和AL, 2015HC 15, MCI公元23年 26 年录音 4任务:图片描述计数向后句重复语义流畅性(哺乳动物)人声特征基于长度和周期性有声和无声段录音成对分析诊断。分类功能后使用 SVM按显著性选择曼恩的门槛-惠特尼试验关联诊断准确性:HC 与 MCI 0.79HC 与公元 0.87 年MCI 与公元 0.80洛克等AL, 2011HC 37, MCI37录音和文字实录来自研究参与者复述三句子故事。两个复述:立即一个在听到故事;另一个30分钟后不相关的活动的时间戳词和对齐的暂停到成绩单。措施演讲生产率,停顿,以及对齐方式原创故事计算。语言和语音功能选择依据边际关联试验用于关联诊断。最好执行 SVM 使用精选功能加结果来自 9神经心理测试用于 SVM 的 AUROC使用不同分类器功能集:个人意义重大言语和语言特点: 0.703使用9神经心理学测试成绩: 0.815重要功能 + 9神经心理学测试成绩:0.861特米斯托克Leous等人,2018HC 30, MCI25的录音参与者阅读 144每个元音都是已识别和分段自分类使用具有 1- 的神经网络10 个隐藏层精度(5 倍 cv) 0.82有 4 或 5 个隐藏层;0.83,隐藏6个或更多
4word passage. In Swedish.the recording, and processed toprovide: duration,F0, and formantsF1-F5layers. Hold-out set accuracy (90-10 split) 0.75 with 7 hidden layers.Themistoc leous et al, 2020MCI 26, HC 29Recordings of PD Cookie Theft. In SwedishAcoustic featuresand also counts and rates of syllablesTests of statistical differences in values of features across diagnostic groups and of regression coefficients for diagnosis in regression models for features rather than assessment of classification performanceSyllable duration, articulation rate, shimmer, cepstral peak prominence, and difference of the first harmonic and third amplitude were statistically significantly different between HC and MCI groupsPD = picture description assessment task. HC = healthy control. MCI = mild cognitive impairment. AD = Alzheimer’s Disease. DAT = dementia of Alzheimer’s type. SVM = support vector machine. AUROC = area under the receiver operator characteristic curve. F1 = measure of classifier performance. FDR = Benjamini-Yakutieli false discovery rate.B. Miro Health Picture Description features by diagnostic cohort表 B. 参与者特征原始分数变量慧聪平均值 (标准偏差)aMCI平均值 (标准偏差)纳麦克里平均值 (标准偏差)声学APQ (%)9.62 (2.22)10.7 (2.4)10.6 (2.9)声学 ATRI (%) 或 ATrI43.1 (12.1)32.8 (14.4)45.5 (8.5)声学自动灵敏度31.3 (6.6)26.1 (12.0)32.9 (6.1)声学DDP3.35 (1.24)3.61 (1.49)3.68 (1.22)声学深紫外52.5 (13.3)61.5 (16.9)46.8 (12.7)声学硬盘录像 (%)51.0 (10.8)55.4 (10.1)46.5 (13.2)声学 F0 (赫兹)151 (29.0)153 (42.0)138 (25.0)
下载
无花果分享
S1 文件。
https://doi.org/10.1371/journal.pdig.0000197.s001
(文档)
引用
1.罗伯茨R,诺普曼DS。MCI 的分类和流行病学。临床医学 2013 29 月;4(753):72–24094295.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
2.Jak AJ,Preis SR,Beiser AS,Seshadri S,Wolf PA,Bondi MW,Au R.弗雷明汉心脏研究中轻度认知障碍和痴呆风险的神经心理学标准。国际神经心理学杂志 2016 华侨城;22(9):937–943.密码:27029348
查看文章PubMed/NCBI谷歌学术搜索
3.米罗健康[互联网]。www.mirohealth.com。[引用日期2022年6月<>日]。可用: https://www.mirohealth.com/
4.Berube S, Nonnemacher J, Demsky C, Glenn S, Saxena S, Wright A, et al. 二十一世纪的偷饼干:健康与失语者说话者的口语叙述测量。美国言语语言病理学杂志[互联网].2019 Mar 11 [引用日期2021 Apr 18];28(1S):321–9.可用时间: https://pubmed.ncbi.nlm.nih.gov/30242341/ pmid:30242341
查看文章PubMed/NCBI谷歌学术搜索
5.Goodglass H, Kaplan E, Weintraub S. BDAE: The Boston Diagnostic Aphasia Exam.3rd ed.宾夕法尼亚州费城:利平科特·威廉姆斯和威尔金斯;2001
6.沃莱蒂 R, 利斯 JM, 贝里沙 V.用于评估认知和思维障碍的自动语音和语言特征的综述。IEEE Journal of Selected Topics in Signal Processing [Internet].2020 Feb 1 [引用日期2022 Mar 21];14(2):282–98.可用时间: https://arxiv.org/abs/1906.01157 pmid:33907590
查看文章PubMed/NCBI谷歌学术搜索
7.马丁内斯-尼古拉斯一世,略伦特TE,马丁内斯-桑切斯F,梅兰JJG。阿尔茨海默病和轻度认知障碍患者自动语音和语音分析的十年研究:一篇系统综述文章。心理学前沿[互联网].2021 23 月 12;8021952.可用时间: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC33833713/ pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
8.库珀光伏。话语产生与正常衰老:口头图片描述任务的表现。老年学杂志。1990 1 月 45;5(210):P 4–2394918.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
9.Forbes-McKay KE,Venneri A.通过图片描述任务检测早期阿尔茨海默病中微妙的自发语言下降。神经科学[互联网].2005;26(4):243–54.可用: http://dx.doi.org/10.1007/s10072-005-0467-9 pmid:16193251
查看文章PubMed/NCBI谷歌学术搜索
10.Giles E,Patterson K,Hodges Jr.在阿尔茨海默氏症早期痴呆患者中的波士顿饼干盗窃图片描述任务中的表现:缺少信息。相学。1996 10 月;4(395):408–<>.
查看文章谷歌学术搜索
11.温特劳布S.原发性进行性失语症。神经病学档案。1990 1 月 47;12(1329):<>.
查看文章谷歌学术搜索
12.约克斯顿,博克尔曼博士。对失语者和正常说话人的连接语音样本的分析。言语和听力障碍杂志。1980 45 月;1(27):36–7354627.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
13.Asgari M,Kaye J,Dodge H.预测自发口语的轻度认知障碍。阿尔茨海默氏症和痴呆症:转化研究和临床干预。2017 3 月;2(219):28–29067328.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
14.Calzà L,Gagliardi G,Rossini Favretti R,Tamburini F.用于识别轻度认知障碍和痴呆的语言特征和自动分类器。计算机语音与语言。2021 65 月;101113:<>.
查看文章谷歌学术搜索
15.Eyigoz E,Mathur S,Santamaria M,Cecchi G,Naylor M.语言标记预测阿尔茨海默病的发作。电子医学。2020 100583 月;33294808.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
16.Fraser KC, Lundholm Fors K, Eckerstr?m M, ?hman F, Kokkinakis D. 使用级联分类器从多模态语言数据预测 MCI 状态。衰老神经科学前沿。2019 2 月 11;31427959.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
17.Gosztolya G, Vincze V, Tóth L, Pákáski M, Kálmán J, Hoffmann I. 使用 ASR 和语言特征基于自发言语识别轻度认知障碍和轻度阿尔茨海默病。计算机语音与语言。2019 53 月;181:97–<>.
查看文章谷歌学术搜索
18.Hernández-Domínguez L,Ratté S,Sierra-Martínez G,Roche-Bergua A.在图片描述任务中对阿尔茨海默病和轻度认知障碍患者进行基于计算机的评估。阿尔茨海默氏症和痴呆症:诊断,评估和疾病监测。2018;10:260–8.密码:29780871
查看文章PubMed/NCBI谷歌学术搜索
19.国王 A, 萨特 A, 索林 A, 霍里 R, 托莱多-罗宁 O, 德罗莫 A, 等.用于评估痴呆前期和阿尔茨海默病患者的自动语音分析。阿尔茨海默氏症和痴呆症:诊断,评估和疾病监测。2015 1 月 1;1(112):24–27239498.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
20.Roark B, Mitchell M, Hosom JP, Hollingshead K, Kaye J. 用于检测轻度认知障碍的口语衍生测量。IEEE 音频、语音和语言处理事务。2011 7 月 19;7(2081):90–22199464.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
21.Themistocleous C,Eckerstr?m M,Kokkinakis D.使用深度顺序神经网络识别瑞典语语音的轻度认知障碍。神经病学前沿。2018 15 月 9;30498472.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
22.Themistocleous C,Eckerstr?m M,Kokkinakis D.语音质量和语音流利度将轻度认知障碍个体与健康对照区分开来。金斯伯格SD,编辑。公共图书馆一号。2020 13 月 15;7(0236009):e32658934.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
23.Hier DB, Hagenlocker K, Shindler AG.痴呆语言解体:病因和严重程度的影响。大脑和语言。1985 25 月;1(117):33–2411334.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
24.Agis D, Goggins MB, Oishi K, Oishi K, Davis C, Wright A, et al.用扩大的美国国立卫生研究院卒中量表描绘卒中的大小和部位。中风。2016 47 月;6(1459):65–27217502.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
25.Keator LM, Faria AV, Kim KT, Saxena S, Wright AE, Sheppard SM, et al.有效的床旁测量对急性卒中患者的语言恢复具有预后意义。认知和行为神经病学。2020 33 月;3(192):200–32889951.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
26.斯隆, 格伦 S, 梅福德, 赵志, 徐敏, 周刚, 等.通过数字信号处理和机器学习验证基于移动传感器的神经行为评估。认知和行为神经病学。2022 35月;3(169):178–<>.
查看文章谷歌学术搜索
27.Zou H, Hastie T. 通过弹性网络的正则化和变量选择.《皇家统计学会杂志》:B辑(统计方法)。2005 67 月;2(301):20–<>.
查看文章谷歌学术搜索
28.金春, 崔华, 李建英.自发言语分析量表对阿尔茨海默氏症轻度认知障碍和痴呆患者的有用性。通信科学与障碍。2016 8 月 21;2(284):94–<>.
查看文章谷歌学术搜索
29.Bschor T,Kühl KP,Reischies FM.阿尔茨海默型痴呆和轻度认知障碍患者的自发言语。国际老年心理[互联网]。2001;13(3):289–98.可用时间: http://dx.doi.org/10.1017/s1041610201007682 pmid:11768376
查看文章PubMed/NCBI谷歌学术搜索
30.Knopman DS, Roberts RO, Geda YE, Pankratz VS, Christianson TJH, Petersen RC, et al.电话访谈对正常认知、轻度认知障碍或痴呆受试者认知状态改变的验证。神经流行病学。2010;34(1):34–42.pmid:19893327
查看文章PubMed/NCBI谷歌学术搜索
31.徐艺华, 李迪, 金SG, 金国华, 金德, 金乙乔, 等.轻度认知障碍(MCI)和痴呆筛查的认知状态(TICS)和改良TICS(TICSm)电话访谈的有效性。老年学和老年医学档案。2011 52 月;1(26):e30–<>.
查看文章谷歌学术搜索
32.叶萨瓦奇贾,谢赫吉。9/老年抑郁症量表(GDS)的最新证据和较短版本的开发。临床老年病学家。1986 18 月 5;1(2–165):73–<>.
查看文章谷歌学术搜索
33.莱扎克医学博士。创伤性脑损伤后人格障碍、社交障碍和身体残疾之间的关系。头部创伤康复杂志。1987年 <>月
查看文章谷歌学术搜索
34.马雷克·2008. 梅奥-波特兰适应性清单手册.修订版 http://www.tbims.org/mpai/manual.pdfwww.tbimis.org/combi/mpai。10年2019月<>日访问。
查看文章谷歌学术搜索
35.Folstein MF,Folstein SE,McHugh PR.“迷你精神状态”:一种为临床医生对患者认知状态进行分级的实用方法。精神病学研究杂志。1975 1 月 12;3(189):98–<>.
查看文章谷歌学术搜索
36.Chapman KR, Bing-Canar H, Alosco ML, Steinberg EG, Martin B, Chaisson C, et al. 进入阿尔茨海默病试验的迷你精神状态检查和逻辑记忆评分。阿尔茨海默氏症的研究与治疗。2016 8 月;1(1):1–26899835.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
37.彼得森 RC, 洛佩兹 O, 阿姆斯特朗 MJ, 格奇乌斯 TS, 甘古利 M, 格洛斯 D, 等.实践指南更新摘要:轻度认知障碍:美国神经病学学会指南制定、传播和实施小组委员会的报告。神经学。2018 16 月 90;3(126):35–29282327.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
38.Nasreddine ZS, Phillips NA, Bedirian V, Charbonneau S, Whitehead V, Collin I, et al.蒙特利尔认知评估,MoCA:轻度认知障碍的简短筛查工具。美国老年医学会杂志。2005 53 月;4(695):9–15817019.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
39.曼宁 C, 苏迪亚努 M, 鲍尔 J, 芬克尔 J, 贝塔德 S, 麦克洛斯基 D.斯坦福CoreNLP自然语言处理工具包。在:计算语言学协会第52届年会论文集:系统演示。美国宾夕法尼亚州斯特劳兹堡:计算语言学协会;2014.
40.范罗森G,德雷克佛罗里达州(2009)。Python 3 参考手册。加利福尼亚州斯科茨谷:创造空间。
41.Boersma P. Praat:通过计算机做语音学。2006. [引用日期2021-18-<>] www.fon.hum.uva.nl.可用: http://www.praat.org/
查看文章谷歌学术搜索
42.Mazumder R, Hastie T, Tibshirani R. 用于学习大型不完全矩阵的谱正则化算法。机器学习研究杂志。2010 1 月 11;2287:322–21552465.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
43.Mazumder R, Hastie T. softImpute: Matrix Complete via Iterative Soft-Thresholded SVD [Internet].R 包。2021 [引用日期2022-6-<>]。可用: https://cran.r-project.org/web/packages/softImpute/index.html
查看文章谷歌学术搜索
44.阿德勒D,凯利SD.小提琴图:小提琴图。R 包版本 0.3.7 [互联网]。2021 [引用日期2021-18-<>] 可用: https://github.com/TomKellyGenetics/vioplot
查看文章谷歌学术搜索
45.R基金会。R:统计计算的R项目[互联网]。R-project.org。2019. 可用: https://www.r-project.org/
查看文章谷歌学术搜索
46.本贾米尼 Y, 叶库铁利 D.依赖关系下多重测试中错误发现率的控制。安·斯塔特 [互联网]。2001;29(4):1165–88.可用: http://www.jstor.org/stable/2674075
查看文章