《厦门论文发表-改进工作流程以破解生物声学中的小型、不平衡、嘈杂但真实的 (SUNG) 数据集:倭黑猩猩呼叫的案例》期刊简介
厦门论文发表-改进工作流程以破解生物声学中的小型、不平衡、嘈杂但真实的 (SUNG) 数据集:倭黑猩猩呼叫的案例
抽象
尽管积累了数据和研究,但破译动物的声音交流仍然具有挑战性。在大多数情况下,研究人员必须处理构成小型、不平衡、嘈杂但真实的 (SUNG) 数据集的稀疏记录。SUNG 数据集的特点是录音数量有限,通常是嘈杂的,并且发声的个体或类别之间的数量不平衡。因此,SUNG 数据集提供了一个有价值但不可避免地扭曲的通信系统愿景。在分析中采用最佳做法对于有效提取可用信息并得出可靠结论至关重要。在这里,我们展示了应用于SUNG数据集的机器学习的最新进展成功地解开了倭黑猩猩复杂的声音曲目,我们提出了一种可以对其他动物物种有效的工作流程。我们在三个特征空间中实现声学参数化,并运行监督均匀流形近似和投影(S-UMAP)来评估呼叫类型和单个签名如何在倭黑猩猩声学空间中聚类。然后,我们实现三种分类算法(支持向量机,xgboost,神经网络)及其组合,以探索倭黑猩猩调用的结构和可变性,以及它们编码的单个签名的鲁棒性。我们强调分类性能如何受到特征集的影响,并确定信息量最大的特征。此外,我们强调在评估分类性能时需要解决数据泄漏问题,以避免误导性解释。我们的研究结果确定了几种可推广到任何其他动物交流系统的实用方法。为了提高使用SUNG数据集进行声乐传播研究的可靠性和可复制性,我们建议:i)比较几个声学参数化;ii)使用监督UMAP可视化数据集,以检查物种声学空间;iii) 采用支持向量机作为基线分类方法;iv) 明确评估数据泄漏并可能实施缓解策略。
作者摘要
破译动物的声音交流对大多数物种来说都是一个巨大的挑战。声音互动的录音有助于了解动物在何时对谁说什么,但科学家经常面临数据收集,其特点是录音数量有限,大多是嘈杂的,并且个体或发声类别之间的数量不平衡。这样的数据集远非完美,但它们是我们了解难以记录的物种交流的最佳机会。机会可能特别局限于记录濒危物种,例如我们的近亲,倭黑猩猩和黑猩猩。我们提出了一种有效的工作流程,使用机器学习中开发的最新方法分析这些不完美的数据集。我们详细介绍了这种方法的工作原理及其在解开倭黑猩猩复杂声乐曲目方面的表现。我们的研究结果导致确定了几种可推广到其他动物交流系统的实用方法。最后,我们提出了方法学建议,以提高这些不完美的数据集的声音交流研究的可靠性和可重复性,我们称之为SUNG(小,不平衡,嘈杂,但真实的数据集)。
数字
Fig 13Fig 14Fig 15图1图2表1Fig 3Fig 4Fig 5Fig 6Table 2Fig 7Fig 8Fig 9Table 3Fig 10Fig 11Fig 12Fig 13Fig 14Fig 15图1图2表1
引文: Arnaud V, Pellegrino F, Keenan S, St-Gelais X, Mathevon N, Levréro F, et al. (2023) 改进工作流程以破解生物声学中的小型、不平衡、嘈杂但真实的 (SUNG) 数据集:倭黑猩猩呼叫的情况。公共科学图书馆计算生物学19(4): e1010325. https://doi.org/10.1371/journal.pcbi.1010325
编辑 器: Frédéric E. Theunissen,加州大学伯克利分校,美国
收到: 24月 2022, 1;接受: 2023年13月2023日;发表: <>月 <>, <>
版权: ? 2023 阿尔诺等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 所有相关数据都在手稿及其支持信息文件中。代码可在 http://github.com/keruiduo/SupplMatBonobos 获得。
资金: 我们感谢法国高等和研究教育部(https://www.enseignementsup-recherche.gouv.fr/en)和圣艾蒂安大学(https://edsis.universite-lyon.fr/)的SIS博士学院(SK博士资助,编号ENS 2012/398),魁北克希库蒂米大学(http://www.uqac.ca)(VA),圣艾蒂安大学(https://www.univ-st-etienne.fr/fr/index.html)(佛罗里达州和新墨西哥州的研究休假,弗吉尼亚州的客座教授职位和研究补助金),里昂大学的LABEX ASLAN(ANR-10-LABX-0081)(https://aslan.universite-lyon.fr/)(佛罗里达州,弗吉尼亚州和FP)在法国国家研究机构(https://anr.fr/),法兰西大学学院(https://www.iufrance.fr/ 运营的未来投资计划(ANR-11-IDEX-0007)中(NM)和加拿大研究生奖学金(XSG) - 加拿大社会科学和人文研究理事会(SSHRC)的Michael Smith外国研究补充(CGS-MSFSS)(https://www.sshrc-crsh.gc.ca/home-accueil-eng.aspx)。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
介绍
破解动物发声通信密码一直是生物声学学家、进化生物学家和动物行为学家面临的一个激励性挑战,由于数据收集和机器学习的进步,以及精心设计的实验方法(例如,[1-3]).在这些非凡成就的基础上,我们是否可以推测动物发声交流的难题将很快得到解决?可能不是真的。对几十个物种的高度理解不应掩盖这样一个事实,即对于绝大多数动物物种来说,目前还知之甚少[4]。对于大多数动物物种来说,整洁、干净和庞大的数据集是遥不可及的,生物声学学家必须应对小型、不平衡、嘈杂但真实 (SUNG) 数据集,其特征是数据匮乏,例如跨个体、上下文或呼叫类别的录音数量不平衡,以及嘈杂和有时混响的录音环境。尽管它们不完善,但这些数据集通常收集起来非常耗时,并且需要广泛而具体的专业知识来注释,因为它们告诉我们可能严重濒危或具有重大科学意义的动物物种的复杂通信系统。因此,在分析此类数据集时采用最佳做法变得越来越重要,既要提供可重复的研究,又要就物种通信系统得出可靠的结论,除此之外,还要就有关通信系统的进化、多样性和复杂性的更一般问题。我们在本文中提出了一个操作工作流程,旨在帮助生物声学学家解决SUNG数据集在具体情况下经常遇到的问题,并在解决倭黑猩猩(Pan paniscus)声乐曲目的案例研究中说明了其相关性。
在哺乳动物中,个体经常在“此时此地”的发射环境中产生可能为其同种动物提供信息的发声。此外,这些信号还可以为发射器身份提供特殊线索,这通常是领土防御、社会互动和凝聚力的基本信息(例如,[5])。在社会物种中,特别是那些生活在裂变聚变系统中的物种(即,随着动物分裂(裂变)或合并(聚变)成亚群,社会群体的大小和组成随时间而变化),因此,在声音交流中,“谁”与“什么”一样重要(例如,[5,6])。因此,许多研究试图确定哪些声学原语(又名特征)分别编码“谁”和“什么”,以便通过自然和重新合成声音刺激的播放实验来测试关于语音交流所实现的功能的假设[7-9]。在一些通信系统中,发射器身份和上下文信息是按顺序编码的(一种称为时间隔离的策略),导致直接识别它们各自的声学基元[10],但在其他物种中,区分上下文特定信息和声音特征发展的声学特征可能更加复杂和具有挑战性[11,12]。
因此,将“谁”与“什么”区分开来的关键步骤是通过自动分类来评估潜在声学特征的辨别力,以推断它们在通信中作为信号的假定作用,携带一些关于发射器的身份或意图、呼叫类型和话语上下文的信息。这个过程属于监督机器学习领域,包括训练分类器根据先验类别(标签)区分数据样本(训练集)。然后,根据分类器将区分决策正确推广到属于相同类别(测试集)的新看不见的数据样本(也称为观察值)的能力来衡量分类器的性能。当分类器的决策是正确的,但基于错误的前提时,就会出现一个常见但有时被忽视的有害问题,因为训练集和测试集中的样本不是从独立的数据集中提取的,并且除了类别标签本身之外共享混淆属性(例如,泄露有关记录个体身份信息的背景声学噪声), 一种在数据挖掘和机器学习中被称为数据泄漏的现象([13];另见[14]中的“赫斯基与狼”实验,这是一个引人注目的例子)。十五年前,Mundry和Sommer展示了排列检验(统计学中众所周知的非参数检验类别[15,16])如何与判别函数分析(DFA)相结合,以限制这种非独立性导致判别力高估的风险[17]。实质上,置换DFA(pDFA)通过将真实数据达到的正确分类性能与从该真实数据集派生的大量随机排列版本产生的分类分布进行比较,对可判别性进行稳健估计。例如,如果实际数据达到的性能属于分布的前 1%,则确认存在显著的可区分性(alpha = 1%)。与由于潜在数据泄漏引起的混杂相比,该程序导致对类别差异的真正可区分性进行了相当保守和准确的评估。它已成为生物声学分析的标准方法,尽管其局限性(例如[18,19]在黑猩猩中;[20]在侏儒猫鼬中;[21] 在啄木鸟中,在最近的出版物中;另请参阅斑马雀中的[22],以与其他两个分类器的比较)。它源自经典DFA,确实有其主要缺点:它对数据集中异常值的存在非常敏感,并且可以考虑的最大特征数量以及观测值的数量受到数据集结构和观测值之间依赖性的约束(参见[17]进行彻底的讨论)。此外,它既不是评估 SUNG 数据集可区分性的最佳分类算法,也不是最准确的分类算法(有关替代方案,请参见下文)。作为一个矛盾的结果,一方面可以预期pDFA低估了数据集中存在的信息(由于次优分类),另一方面,高估了类的可区分性(因为残余的非独立性)。与此同时,在其他科学领域,通过在更可控的评估配置中实施更强大的统计和机器学习算法,已经取得了令人印象深刻的改进来解决类似的问题。如前所述,包括深度学习神经网络在内的此类算法最近已成功应用于动物交流,主要是在数据缺乏不是问题的情况下(例如,[23],但请参阅[2,24]以应用于较小的数据集;[25] 对于最近的综述;[26] 从更广阔的角度看)。
除了自动分类之外,对投射到信息特征空间中的动物叫声语料库的图形探索通常是理解其曲目结构的重要步骤。在“发现阶段”中,其特征是没有分配给每个调用的预先存在的标签(所谓的无监督情况),这样的图形表示可以表明底层类的存在。在稍后阶段,当呼叫类型或单个发射器上的标签已经由人类专家分配时,此类标签可用于指导图形投影(监督情况)。因此,由此产生的表示有助于诊断手动标记的一致性和充分性。由于通常涉及多个声学特征,因此需要降低维数以获得人性化的低维表示,通常是在两个(平面)或三个(体积)维度上。虽然这种减少传统上是通过线性或近线性变换实现的,例如主成分分析或多维缩放,但最近出现了创新的非线性方法,例如t分布随机邻域嵌入(t-SNE,[27])和均匀流形近似和投影(UMAP,[28])。这些方法通常会导致复杂数据集中存在的局部结构的直观表示,但牺牲了全局结构的重要性。t-SNE和UMAP都已成功应用于动物交流,无论是作为评估曲目离散性与分级的探索性方法,还是比较几个特征集的相关性(参见[29-32]的例子;[33,34] 深入讨论这些方法的潜在好处,以及它们在小数据集中的局限性)。
在本文中,我们将自动分类工作流程应用于SUNG数据集,其结构对于大多数生物声学学家来说应该是相当传统的:以不同长度的序列产生的几个呼叫记录,属于六种类型,由十几个人产生。该数据集由圈养倭黑猩猩(Pan paniscus)发出的呼叫录音组成。它提供了一个案例研究,其中根据个人的发声识别个人和识别呼叫类型并非易事。倭黑猩猩声乐曲目在几十年前的两项开创性研究中进行了描述,强调了其分级性质[35,36]。它由近十几种原型类型构成,这些类型将调制的浊音与尖叫分量共轭,也表现出非线性现象。尽管倭黑猩猩的定量研究仍然很少见,但最近有研究表明,在倭黑猩猩发声中可以检测到单个特征,并且这种特征的可靠性因呼叫类型而异[37]。在这里,我们对几种分类方法进行了系统比较,以评估声乐曲目中单个倭黑猩猩特征的强度和稳定性。我们的结果确定了性能水平是发声中缺乏内在编码信息的结果还是次优分类方法的结果。
因此,我们解决的研究问题是,与DFA方法相比,最先进的自动分类方法是否可以更准确地估计SUNG数据集中编码的信息,并更全面地了解动物通信系统的功能?我们提出并评估了几种方法的相关性,这些方法可用于克服SUNG数据集中固有的困难。最后,本文的目的是提出一种可供生物声学学家在具体情况下使用的操作工作流程。
图1给出了所提出的方法的图形概述,并反映了论文的组织结构。更具体地说,在第一节(图1;A块)中,我们首先介绍了SUNG数据集的主要特征,并介绍了倭黑猩猩呼叫的曲目以及典型的生物声学定量方法所揭示的分级结构和个体变异性的最显着方面。根据定义,这些曲目和数据集描述完全依赖于物种,但这是通用动物交流研究的一般原则。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 为分析动物发声数据集而实施的工作流。
A区是物种依赖性的,说明了倭黑猩猩的情况。其他块在 SUNG 数据集上是通用的。一个。将传统的生物声学方法应用于倭黑猩猩数据集以推断呼叫类型模板。B.三组不同的声学特征(生物声学,DCT和MFCC)相关联,以表征倭黑猩猩声学空间。运行监督 UMAP 以直观地评估呼叫类型和单个可分离性。评估三种最先进的分类器及其集成组合的性能,并在两项任务中与判别分析(DFA)的性能进行比较:识别呼叫类型(倭黑猩猩具有由不同呼叫组成的语音库)和发射器之间的区分(识别单个声音签名)。C.然后评估准确性对训练集和测试集的组成以及对诱导数据泄漏的敏感性。
https://doi.org/10.1371/journal.pcbi.1010325.g001
在第二节(图1;B块)中,除了标准的生物声学集外,我们还介绍了两个特征集(即DCT和MFCC集),以提高噪声发声分析的鲁棒性。S-UMAP 表示导致对倭黑猩猩曲目结构的视觉确认,并首次评估自动分类任务(呼叫类型分类和个体签名检测)的难度。然后,我们测试三种分类算法,这些算法与有限的可用数据量及其类别之间的不平衡兼容,并根据被认为适用于 SUNG 数据集的几个指标报告结果。我们还构建了组合/堆叠分类器来测试参数集和分类算法之间的互补性,目的是与生物声学中经典使用的DFA方法获得的基线相比,提高分析的整体稳健性。本节中开发的图形表示和自动分类方法都是高度通用的,可以转置到其他 SUNG 数据集。
在第三节(图1块C)中,我们深入评估了由于非独立性而导致的数据泄漏对分类结果的影响。我们首先演示了为什么在增加训练数据集和测试数据集之间的独立性时,不应通过报告性能来忽略数据泄漏。我们将它们与完全随机的训练/测试分区的结果以及(故意设计不当)增加依赖性的分区的结果进行比较。我们强调修复潜在的数据泄漏问题是一个重要问题,并展示了遗传算法的使用如何允许构建训练和测试数据集,从而产生偏差较小的准确性估计。我们还说明了使用 SUNG 数据集完全避免数据泄漏的挑战性。
第四部分讨论了我们研究的主要成就和局限性,并提出了我们处理SUNG数据集的最终建议。
在第五部分中,我们详细介绍了该方法,并讨论了生物声学学家如何应用这种数据科学方法来探索生物学问题。虽然为了便于理解,整篇论文还介绍了关键的方法学方面,但为了保持易读性,大部分细节只在本综合章节中讨论。
数据集和分析代码在在线存储库 http://github.com/keruiduo/SupplMatBonobos RMarkdown html页面上提供。此外,还提供了我们在第五节中推荐的简化工作流程的分步演示。
I. 唱歌数据集:倭黑猩猩录音
什么是 SUNG 数据集?
SUNG 数据集的特点是数据稀疏和匮乏,个人、上下文或呼叫类型之间的录音数量不平衡,以及嘈杂和有时混响的录音环境。这些约束的第一组是现场条件所固有的。无论是在动物园还是在野外,发声的录音通常涉及很少的个体(通常少于二十个),在呼叫类型、上下文和个体的比例不平衡。
小。
在一些相当罕见的情况下,可以收集包含数万个呼叫的大型语料库(例如,[38-40]),有时甚至可以根据单个发射器或发声类型进行标记[41,42]。然而,在大多数情况下,生物声学学家必须处理有限的数据集,这在计算机和数据科学界被认为是小的。事实上,由几千个观测值组成的数据集在这些领域被认为是小的(例如,[43])。因此,生物声学(以及许多其他科学领域)的许多研究都是基于对小数据集进行的定量分析,这些数据集几乎无法从标准机器学习方法中受益。
不平衡。
数据集通常呈现人们希望自动表征的类别之间的不平衡。这可以在大型数据集中观察到([44]就调用类别而言),但当数据集本身大小适中时,这种情况更为常见。然后,它可以涉及发声类型、上下文或个体[45],甚至监测应用中的物种[43,46]。
吵。
录音总是在背景声景和噪音方面具有独特特征的环境中进行。所有这些方面都会影响声学特征的提取和自动分类,限制可用数据的数量和质量,并使评估因数据泄漏而面临潜在的误解。这些障碍在生态学和行为学研究中得到了很好的识别(例如,参见[47]关于鸟类识别背景下声学特征提取和建模的优雅建议),但它们仍然存在问题,与现在有大量数据的人类语言研究形成鲜明对比(参见例如,[48]最近的自动语音识别系统的比较)。
真正。
尽管现场记录的数据集并不完美,但它们提供了物种通信系统的扭曲但真实的视图。失真的来源可能是某些个体或发声环境比其他人更难记录(影响观测值的数量),或者某些发声发生在更退化的声学环境中(影响观测值的质量)。然而,这些数据集由真实的观测结果组成,对于表征通信系统及其可变性具有洞察力。
因此,处理宋语料库需要克服这些限制。虽然没有神奇的配方,但在本文的其余部分,我们将以倭黑猩猩为例,展示一种可以用于其他动物通信系统的非常通用的程序。倭黑猩猩——以及一般的类人猿——给生物声学学家带来了一个难题。所有物种(Gorilla beringei,Gorilla gorilla,Pan paniscus,Pan 穴居人,Pongo pygmaeus)都濒临灭绝或极度濒危[49]。因此,在野外或圈养中收集数据具有挑战性,并且仅限于少数可访问的动物群体,导致数据集不完美,这些数据集结合了SUNG数据集的大部分相关方面。实质上,倭黑猩猩发声数据集太小,太嘈杂,并且涉及的动物太少(这个词次优),而语料库可以常规地 - 或者至少更容易 - 记录在其他物种中。因此,它提供了一个示例案例来评估我们为 SUNG 数据集提出的程序,尽管某些方面仍然特定于 bonobo 案例(例如声学参数化的细节)。
倭黑猩猩声乐交流的快速概述
倭黑猩猩在大部分日常活动中用于发声,不同的呼叫类型在上下文中以灵活的方式使用,导致复杂而有意义的组合(例如,党派间旅行招募;食物偏好;见[36,50,51]等)。倭黑猩猩声乐曲目复杂且分级:每种呼叫类型中的声学特征可能不同,并且不同类型的声音沿着声学连续体分布。已经提出了两种呼叫类型的描述,并且基本上是趋同的[35,36]。大多数呼叫被专家自信地标记为属于 12 种类型之一(窥视、大喊大叫、打嗝、窥视大喊大叫、软树皮、树皮、尖叫树皮、呜呜声、口哨、尖叫哨子、咕噜声和尖叫声),尽管逐渐变化导致一定程度的不确定性。然而,与其他具有离散曲目的灵长类动物(例如普通狨猴)相比,自动执行此操作是一项困难得多的挑战[2,52])。这种分类基于可检测到时的音调轮廓特征(频率调制和持续时间)和人声努力(通过高次谐波和非线性现象中能量的存在来说明)。
除了“什么”的背景信息之外,“谁”信息对于驾驭复杂的倭黑猩猩裂变聚变社会至关重要。然而,最近的研究表明,高唤醒呼叫中的个体声音特征比低唤醒呼叫更突出[37]。根据这一结果,在高唤醒呼叫的基础上识别个体将更容易。然而,播放实验表明,倭黑猩猩能够根据低唤醒呼叫(窥视-yelp;[53])。 呼叫类型对单个变体进行编码的倾向实际上可能因曲目而异。这种情况本身并不奇怪,因为其他哺乳动物物种已经报道过这种情况[54,55]。
其他限制来自倭黑猩猩声乐曲目被分级并且仅部分理解的事实。因此,即使标记倭黑猩猩呼叫也是一项更复杂的任务,因为分级曲目固有的呼叫类型之间缺乏明确的声学边界,而不是未分级或分级较低的曲目(例如,[2])。这导致难以识别属于潜在基本事实(或黄金标准)的事件,据此可以评估自动分类方法的性能。当自动识别呼叫发射器时,这个黄金标准问题就会消失,当在发射器之间没有重叠的情况下直接观察到操作时,就会知道其正确身份。但是,即使是这种所谓的简单情况在倭黑猩猩中也可能很复杂,因为它们的声音活动通常是不可预测的,这使得在所有群体成员中检测发射器变得困难。此外,第一个发射器通常会触发其他几个人的发声,导致突然强烈的发声活动(伴有重叠的发声)。在这种情况下,有时不可能将发射器身份明确分配给序列中生成的调用,并且需要大量的记录时间才能获得足够的调用,而发射器身份是明确已知的。此外,即使已知发射器的身份,确定声学特征是否与识别发射器相关也不是一件容易的事。为了说明这一点,让我们假设声学特征A允许自动分类器在发射器时完美地识别一个人,但在识别所有其他个体方面表现不佳。相反,仅考虑特征B会导致所有个体的识别略好于机会。从动物的角度来看,哪个特征最重要?在这种情况下,答案可能是两者兼而有之,但这个例子旨在强调,在数十个可用的评估指标(平均识别率、准确性等)中选择正确的评估指标可能会影响最终的行为学解释(参见第五节的“绩效指标”)。
在这项研究中,我们使用[37]中分析的语料库的数据集。它来自20只成年倭黑猩猩(14只雌性,6只雄性),它们被安置在三个动物园(荷兰的Apenheul,法国的La Vallée des Singes和比利时的Planckendael),总共记录了380个小时。白天使用Sennheiser MKH70-1超定向麦克风和Zoom H4数字多轨录音机(44.1 kHz采样率,每个样本16位,.wav文件)在各种环境中(觅食,梳理,攻击等)进行录音。详见[37])。如上所述,典型的录音会话包括低声音活动的时期和其他具有大量发声的时期,这些序列通常交织着几个人。因此,该数据集包括在相当长的一段时间内完成的录音,但也包括在录音会话的同一声乐序列中产生的呼叫。在解决数据泄漏问题时,这方面很重要(第三节)。发声被手动分割,识别,然后由另外两名实验者(通过共识决策)根据对频谱图上信号的目视检查和对基频的估计进行双重检查,f0,使用语音分析软件Praat [56]。
录音的音频质量参差不齐,许多通话是在混响和具有挑战性的环境中录制的,用于自动传输。0检测,往往导致普拉特的不确定性。f的时间调制0因此,它是从窄带频谱图中半自动得出的,这要归功于基于鼠标输入的自制普拉特脚本,该脚本至少在f上输入了两个点。0实验者在频谱图上进行跟踪,从而可以估计插值轨迹。补充信息(S1图)中给出了五种最常见呼叫类型的频谱图样本。
图2说明了为什么这个数据集可以被定性为SUNG:记录的环境可能是远处自由放养的围栏或室内房间;每个人的呼叫数量存在相当明显的不平衡(详见表1),音频回合嘈杂、混响且分析复杂。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. SUNG 生物声学数据集的一个例子:社交环境中倭黑猩猩叫声的录音。
一个。每个人都可以在室外围栏和建筑物内记录。B.呼叫数因个体(由彩色矩形编码的不平衡分布)和呼叫类型(由每个人的内部矩形编码)而异。五位最具代表性的个人被命名。图表上未显示四个代表性最低的个人。详细分类见表1。C.典型记录回合的频谱图(从Jill2录音中提取的5.698秒)显示了隔离高质量呼叫的难度。可以识别吉尔产生的三个软树皮序列(由蓝色边界分隔的部分)。其他人在背景中发声(用橙色大括号标记的部分)。吉尔的第三次呼叫没有被分析,因为它与其他发声重叠太多。Jil698 录音以 S1 声音的形式提供,并在 S4 文本中进行了描述。图片来源:F. Levréro(上)和F. Pellegrino(下)。
https://doi.org/10.1371/journal.pcbi.1010325.g002
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 用于自动分类的数据集中每个人和每个呼叫类型的呼叫数。
五种呼叫类型是:Bark (B),Peep (P),Peep Yelp (PY),Soft Bark (SB)和Scream Bark (SCB)。
https://doi.org/10.1371/journal.pcbi.1010325.t001
我们使用了一个由来自 1 名受试者的 971,20 个呼叫组成的数据集,进行了初步定量研究,以表征每种类型的音调轮廓(第 II 节和图 2)(在去除没有任何音调成分的咕噜声和尖叫声之后)。因此描述了以下 10 种呼叫类型:窥视 (P)、Yelp (Y)、打嗝 (H)、窥视耶尔普 (PY)、软树皮 (SB)、树皮 (B)、尖叫树皮 (SCB)、呜呜哨 (WW)、哨子 (W) 和尖叫哨 (SCW)。对于第 II 节和第三节中报告的自动分类任务,我们从五种最常见的呼叫类型Bark (B)、Soft Bark (SB)、Peep (P)、Peep Yelp (PY) 和 Scream Bark (SCB) 中选择了至少 7 个呼叫的十个个体(3 个女性,70 个男性),这些个体至少可以调用 1 个呼叫(560,1 个呼叫,按呼叫类型和个体在表 <> 中划分)。
跨个体可变性的草图
对于每种表现出音调轮廓的呼叫类型(除了咕噜声和尖叫声),我们估计了基频(f0) 对应于平均值 f0估计其所有样本的轨迹。f0轮廓提取在Praat中自动执行,并手动校正粗略误差(通常是次谐波检测)。这些 f0图 3 中显示了十种类型的音调调用的模板,其中 f0可以提取。应该注意的是,打嗝(H),呜呜哨(WW)和尖叫哨(SCW)是非常罕见的人声作品,因此它们的模板是从少量样本中估计出来的,这导致我们没有在以下部分中考虑它们。仅考虑钟形曲线类型(P、PY、SB、B 和 SCB),在 f 上可以看到连续体0随着 f 的增加而增加的尺寸0平均值和偏移,除了树皮和尖叫树皮之间,它们的主要区别在于没有或存在尖叫成分(如确定性混沌,见[57,58])。这方面没有被 f 捕获0轨迹,但两类之间的平均谐波差异较大(方法信息见第五节“声学特征的提取”),SCB的谐波平均比B低2.2 dB。 导致高度突出的感知粗糙度。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. f的模板0(音高)为每种呼叫类型。
平均 f0轨迹(黑线)是根据所有记录(使用普拉特)计算的。阴影区域覆盖了分布的 50% 或 80%(分别为蓝色和灰色区域)。对于每种类型的呼叫,各个呼叫都按时间刻度为该类型的平均持续时间。N = 分析的呼叫数;Dur = 呼叫持续时间(平均值和标准偏差,以毫秒为单位);危害=和谐(平均值和标准偏差,以dB为单位)。这些类型按平均持续时间的增加进行排名:窥视(P),Yelp(Y),打嗝(H),窥视Yelp(PY),软树皮(SB),树皮(B),尖叫树皮(SCB),抱怨哨子(WW),口哨(W)和尖叫口哨(SCW)。
https://doi.org/10.1371/journal.pcbi.1010325.g003
为了进一步说明倭黑猩猩声乐曲目的分级方面,我们还计算了f0个人级别的模板。它们的分布如图4(左)所示,每个模板的缩影(比例为1/10千) 在二维空间中表示:平均 f0和平均持续时间。f 变化很大0在各个窥视模板中观察到,它们的短持续时间将它们与其他类型区分开来。树皮类型跨越了声学空间的大面积,持续时间和f都有很大差异0.对于给定的个体,时间和频率维度的相对权重可能会有所不同,如图 4(右)所示,对于个体 #19 和 #20。平均而言,单个 #20 产生的调用比单个 #19 产生的调用音调更高,但其 SB 模板的各自位置突出了额外的差异,该位置非常接近 #19 的 B,而就 #20 的持续时间而言,它介于 Yelp 和 Bark 之间。这一观察表明,观察到的个体间差异并不完全受到解剖学差异的限制,每个人的曲目类似于人类语言学中的白话。这种类别重叠的分级曲目对自动分类方法来说是一个艰巨的挑战[59]。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 调用 f 的表示0个人级别的模板。
每种颜色/色调组合对应于一种呼叫类型(P、Y、PY、SB、B、SCB,如图 3 中定义)。每条曲线都是个人 f 的缩影0模板。指示呼叫类型(首字母缩略词和颜色)和个人身份(数字索引)。将显示至少提供 3 个样本的所有个人和呼叫类型。突出显示个人 #19 和 #20 的曲目(粗线)。
https://doi.org/10.1371/journal.pcbi.1010325.g004
II. 自动分类:从DFA到最先进的方法
提取声学特征
对于给定的物种,鉴于生产机制的广泛多样性,选择适合其发声的特征空间的任务并非易事[60]。因此,需要行为学和生物声学专业知识来确定一组初始的相关维度(持续时间、光谱能量分布等)并进一步完善它。这导致了物种特定的特征集,例如此处在倭黑猩猩SUNG数据集中使用的生物声学集,遵循灵长类动物呼叫分析的相当标准的方法,该方法已经在倭黑猩猩研究中使用(例如,[50])。
为了研究每个单独的发声,我们还考虑了两组特征:MFCC集和DCT集。所有三个功能集在第五节中有详细说明,并在补充信息(S1表)中进行了总结。MFCC集改编自人类语音处理中常用的梅尔频率倒谱系数分析[61]。虽然不太常见,但它已经成功地应用于灵长类动物的叫声识别和个体识别(例如[3,62])。这种全频谱方法是不可知的,因为它不针对特定的呼叫特征(例如上升或下降的音高,谐波结构等),但它可能能够突出标准生物声学方法无法捕获的细粒度频谱差异。据我们所知,DCT组从未用于灵长类动物发声的研究。它基于对人类语音的研究,其中DCT(离散余弦变换)系数可用于表征时变声音,例如双元音,根据加性余弦分量[63,64]。只有 7 个维度,它是一个表征调用音调轮廓的最小集合(其 f0轨迹)、其声学粗糙度(近似于其谐波噪声比)及其持续时间。采用这三个特征集旨在测试分类任务中哪个是最有效的,一旦分类过程考虑了特征相关性,它们是冗余的还是互补的(有关详细信息,请参阅第五节)。
图形评估:监督 UMAP
数据集包括 1560 行和 217 个要素、目标变量和其他元数据。所有特征都是数字,为了在此数据集上执行探索性数据分析(EDA),我们在其监督版本(S-UMAP)中利用了UMAP。它提供了一个信息丰富的图形表示,用于a)检查数据点的手动标记与其特征之间的充分性(在我们的例子中,标签与呼叫类型和个人签名有关),b)检查是否存在可能指示错误标签的极端数据,以及c)评估不同组的聚类程度,从而估计自动分类任务的难度。
为了估计S-UMAP提供的分区质量,从而量化呼叫类型和单个签名的聚类程度,我们计算了剪影分数的值[65]。剪影评分(另见第五节)最初是作为解释和验证聚类分析的图形辅助而开发的。它们根据聚类的内聚性和聚类之间的分离提供聚类质量的度量。轮廓分数的值范围为 -1 到 1。较大的正分数表示数据点接近同一聚类的元素,小的正分表示接近决策边界的数据点,而负分表示它更接近另一个聚类中的元素。
我们为我们的观察结果生成了一个S-UMAP表示,考虑了降维过程的随机性,对单个签名和呼叫类型的描述都有100次重复的轮廓分数分布。我们每次都考虑了三个生物声学(20个特征),DCT(7个特征)和MFCC(192个特征)集合的组合特征(总共217个特征,因为持续时间和HNR由前两组共享)。我们计算了每次调用 100 次重复的平均剪影分数、每个班级的平均分数(或平均剪影宽度)、每个班级的标准偏差,最后是整个数据集的总体平均剪影分数(或总体平均剪影宽度)。
如图5所示,S-UMAP表示在呼叫类型(左)和单个签名(右)方面都表现出高度聚类的模式。然而,呼叫类型和单个签名之间的聚类程度不同(见下文)。这一观察结果得到了总体平均剪影得分的支持,呼叫类型分别为 0.94 分和 0.63 分(单个签名)。这可以解释为对数据点进行分类的难度程度的指标。因此,人们可以直观地假设呼叫类型比单个签名更容易区分。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 通过S-UMAP将倭黑猩猩呼叫投影到二维声学空间中,该S-UMAP根据生物声学,DCT和MFCC集的原始声学特征计算(1,560次调用;每个点= 1次调用;不同的颜色编码不同的手工标记类别)。
左。返回页首。由呼叫类型监督的 S-UMAP 投影。底。对应于呼叫类型聚类的剪影配置文件,由剪影分数的 100 次重复分布构建,每个呼叫类型的平均值和标准偏差分别由虚线垂直线和水平线表示。右。返回页首。由个人身份监督的S-UMAP投影。底。与单个签名聚类相对应的剪影轮廓,由 100 次重复的轮廓分数分布构建,每个个体的平均值和标准偏差分别由虚线垂直线和水平线表示。
https://doi.org/10.1371/journal.pcbi.1010325.g005
每个班级的平均剪影分数衡量每个聚类的质量。关于呼叫类型,窥视(0.9)表现出最低但仍然相当高的聚类程度,而吠叫则表现出最高的聚类程度(0.98)。这验证了人类专家对呼叫类型的手动标记,并且,尽管倭黑猩猩曲目具有梯度性质,但说明了所采用的呼叫类型分类的稳健性[35,36]。
关于个人签名,吉尔、祖阿尼和赞巴的剪影得分高于0.9。相比之下,Lina和Djanoa的通话得分接近0。更准确地说,这两种动物的叫声(以及Vifijo的叫声)不形成一个单一的集群,而是两个子集群,这有助于降低它们的轮廓分数。在图5中可以进一步观察到,Bolombo产生的两个红色软树皮与棕色的吉尔星团(图表的左上象限)重叠。Github存储库上可用的文件“6_Analysis_UMAP_and_Silhouette.html”中包含的交互式图表还显示,两者都是从相同的声音序列中提取的(如第一节中描述的录音过程中所定义)。其他类似的例子表明,这种模式不是一个孤立的模式,当一个人表现出极端的数据点(可能与另一个集群重叠,也可能不重叠)时,这些数据点通常是从相同的原始声乐序列中提取的。
自动分类方法和评估方法
多标签分类任务旨在将由一组预测因子描述的观测值分配给几个预定义类之一(此处为调用类型或个人身份)。此任务在这里被视为监督学习任务,其中可以在一组具有已知类的示例上训练模型,然后用于对新类进行分类。我们选择将数据集中 80% 的数据点随机分配给训练集,其余 20% 分配给测试集。我们选择了一种判别分析形式(DFA,详见第五节)作为基线,因为它是动物交流领域广泛使用的分类技术,包括个体识别任务([17,37,66-71]等)。我们还实施了其他三种监督方法(详见第五节),它们可以被描述为数据科学中的“最先进的”(SOTA)。SVM(支持向量机)被认为是 21 年初的最佳分类方法之一圣世纪,广泛用于分类问题,包括生态学和行为学(例如,[72-75])。Xgboost是梯度树提升的优化版本[76]——一种技术,其中i)使用梯度下降来构建一系列决策树,其中误差逐渐最小化,ii)增强结果森林中最佳树的影响力。它目前被认为是自动分类或回归的最佳算法之一[77,78],即使与涉及神经网络(NN)的最新深度学习方法[79]相比也是如此。NN已经存在了几十年,但是在发现如何有效地训练更深层次的架构之后,它们的性能在过去十年中得到了显着改善[80]。尽管它们在计算机视觉和自然语言处理方面取得了迄今为止最好的性能,模型现在涉及多达数千亿个参数(例如,[81]),但这些大型网络需要(非常)大的训练数据集,尽管最近进行了尝试,但这些数据集不太适合SUNG数据集的上下文[82].相反,我们将考虑“浅”密集神经网络(两到四个完全连接的层,包括输出层)非常适合小型数据集和我们不同预测变量集的大小,因为它们已被证明在类似的应用中有效(例如,[3,83])。
我们的每种SOTA方法都涉及许多超参数的调整(有关详细信息,请参阅第五节),这些值会影响给定数据集的性能[84]。虽然参数(例如,NN中神经元之间的连接值)在训练阶段进行调整,但超参数(例如NN每层中的层数和神经元数量)不是,必须以其他方式指定。我们已经实现了机器学习中的常用方法,通过去除训练集的一部分(所谓的验证集)来找到手头数据的超参数的最佳值,这个过程称为超参数调优。
为了评估我们不同分类技术的性能,我们必须特别考虑数据集中的不平衡(见第五节)。对于我们的SOTA方法,我们首先通过为每个类别分配一个与其成员数量成反比的权重来做到这一点,作为平衡代表性不足的数据的一种方式。对于DFA,我们遵循以前的研究来建立减少的平衡训练集(见第五节)。其次,我们考虑了一个适应不平衡数据集的指标,因为并非所有指标都适合这种情况。特别是,易于解释的标准精度返回偏向于代表性更强的类的结果。因此,除了标准精度(为了与以前的研究进行比较,我们保留了标准精度)之外,我们还考虑了三个度量:多类对数损失(又名交叉熵),接收器工作特性曲线下的多类面积(称为AUC)和平衡精度:
– 多类对数损失会惩罚实际概率和预测概率之间的背离 - 值越低越好。对数损失与接下来的两个指标的不同之处在于,它考虑的是概率而不是分类输出。
多类AUC [85]扩展(两类)AUC,具有多类问题的两种可能的二值化策略:i)将其简化为几个一对一的问题或ii)将其简化为几个一对一的问题(结果可以在两种情况下平均)。我们采用了第二种选择,同时还考虑了类的先验分布,以更好地解决不平衡问题。
– 平衡准确度 (bac) 定义为在每个类别上获得的召回率(又名灵敏度)平均值。这解决了标准精度因不同大小的类而偏差的问题。与对数损失和 AUC 相比,平衡精度具有易于理解的优势。
一对训练集和测试集会导致这四个索引中的每一个都有一个值。然而,分类器性能的此类估计器对每个集合的确切组成很敏感,因此可能会低估或高估真实(不可观察)性能。为了尽量减少这个问题,我们实施了一个标准程序,包括重复100次随机训练测试集创建的整个过程,以在集合组合中引入波动。对于每个性能指标,它导致 100 个值的分布,其平均值和标准差提供了分类器性能的可靠估计器。
我们进一步评估了在对调用进行分类时用作预测因子的不同特征的重要性(在 100 次迭代中取平均值),以检测其中一些特征是否比其他特征发挥明显更大的作用。我们分析了特征集“生物声学”和“DCT”的特征,但没有考虑MFCC,因为它们的大量导致对单个特征的影响非常有限,而且几乎没有意义(详见第五节)。
除了先前的迭代方法外,为了评估性能是否明显高于偶然性,我们基于蒙特卡罗排列检验计算了一个随机基线[86]。它由 1,000 个排列重采样实例组成,即 1,000 对随机绘制的训练测试集,每次都会根据任务对预测变量 (PV) 调用类型或发射器身份的值进行预先嵌套随机洗牌。嵌套随机采样在这里意味着PV的随机洗牌发生在“次要”变量的每个级别内,即PV为调用类型时的发射器身份,以及PV为发射器身份时的调用类型。考虑到这两个变量之间的相互作用和数据分布的不平衡,该抽样导致基线的保守估计[41,87]。对于每个性能度量,1,000 对训练和测试集导致性能值在原假设下分布(即,预测变量和预测变量之间没有关系)。然后,可以通过将导致性能等于或优于非排列配置的随机数据集的数量除以测试的数据集总数(即 1,000)来获得原始分析所实现的性能的经验 p 值。1,000次迭代的平均性能进一步提供了对机会性能的可靠估计[17,37]。
不同的特征集和分类器可能会对数据集中存在的信息进行不同的建模。这表明,他们可以通过积累个人优势同时减轻个人弱点来组合以实现更好的表现。所谓的集成方法已经成功地开发了用于大量机器学习挑战。组合不同模型的三种流行方法是:i)bagging(使用训练数据集的不同子样本构建模型);ii)提升(链接模型以逐渐减少预测误差(如xgboost))和iii)堆叠(将多个并行模型应用于相同的观察结果[88]。可以使用不同的堆叠方法:简单的堆叠方法,如投票或平均预测,以及涉及其他主管模型(称为超级学习器)的更高级方法,这些模型使用初始模型的预测作为输入。我们作为超级学习器实现了带有惩罚线性回归的堆叠,以解释基础模型输出之间存在的强相关性(有关详细信息,请参见第 V 节)。
一旦定义了集成学习器,就可以以与非集成学习器完全相同的方式评估其性能,从而可以估计集成策略的增益。我们定义并实现了 a) 三个堆叠学习器组合三个分类器中每个分类器的所有特征集,b) 三个堆叠学习器相反地组合每个特征集的三个分类器,最后 c) 第七个配置堆叠特征集和分类器的所有组合(完整描述可以在第 V 节的“集成”中找到),并与单个分类器一起测试它们。
我们主要在下面报告具有平衡准确性的结果,因为它比对数损失和AUC更直接地解释。有关该方法的更多详细信息,请参见第 V 节以及 Github 存储库的文件。特别是,提供了复制分析的完整代码。重要的是,建议的工作流程的简化版本也作为单独的文件提供,以便提出易于适应另一个数据集的过程。
三、自动分类:结果
任务 1:识别呼叫类型
此任务包括将测试集中的每个调用分类为属于表 1 中列出的五个类别之一,而不管生成它的个人是谁。我们的结果(图6和表2)证实,所考虑的五种调用类型在某种程度上是可判别的,使用最佳分类器的平衡精度达到0.794。相比之下,机会水平等于 0.200。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 将 Bonoboo 呼叫类型分类为所用分类器和声学集的函数的性能。
红色条显示集成分类器组合 9 个主分类器所实现的性能。其他条对应于将每个分类器与不同的声学特征集(生物声学、DCT、MFCC)相关联的配置。配置按性能从上到下递减进行排序。性能报告为平衡精度。绿色、绿松石色和紫色分别表示在生物声学、DCT 和 MFCC 特征集上训练的模型。机会级别由垂直的红色虚线表示。误差线报告评估过程的 100 次迭代的性能标准偏差。
https://doi.org/10.1371/journal.pcbi.1010325.g006
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. 将呼叫类型的分类性能表征为所用分类器和声学集函数的指标。
报告四个指标:对数损失、AUC、平衡精度和准确性。主配置(上半部分)和集成配置(下半部分)实现的最佳性能以粗体显示。对于 AUC、准确度 (acc) 和平衡准确度 (bac),色阶突出显示列中从最低分数(浅橙色)到最高分数(深橙色)的进度。
https://doi.org/10.1371/journal.pcbi.1010325.t002
SVM、NN 和 xgboost 这三个分类器的性能优于 DFA 方法,无论是生物声学集还是 DCT 集,并且与所考虑的指标无关。因此,DFA部分遗漏了声学特征中可用的一些判别性信息。使用DFA获得的平衡精度确实只有0.596。这种性能与使用相同方法获得的性能相当(在调用类型标记略有不同的 37 类任务中,准确率为 57%)。
为了将判别分析的结果与机会水平进行比较,通过重组(见第五节)创建了修改后的数据集,并对其应用了DFA。这个 1,000 倍迭代过程提供了对随机精度分布的可靠估计。在此重组过程后获得的经验p值等于p = 0.001。
撇开堆叠的学习器不谈,还可以看出 i) 使用 MFCC 集获得的结果比使用生物声学或 DCT 集获得的结果差,ii) 对于给定的特征集,xgboost 和 svm 达到非常可比的性能,优于使用 NN 方法获得的性能。性能最佳的配置将 xgboost 与生物声学集相结合,因为它的性能往往优于 svm 与生物声学集的组合(分别为 0.747 和 0.718)。尽管 MFCC 集对调用的描述更丰富,但使用它不会带来任何优势,甚至会降低分类器的性能。我们的MFCC表示的维度非常大(192个维度),而且相当不典型。彻底的讨论超出了本文的范围,但基于在调用中间执行倒谱分析并添加 delta 和 delta-delta 系数的更传统的表示表现更差(有关更多详细信息,请参阅 S1 文本)。使用生物声学集实现的更好性能与以下事实一致:生物声学特征是每个呼叫类型主要由专家生物声学学家和灵长类动物学家定义的基石(例如,[87,89,90]对于最近的观点)。最后,DCT套件达到的性能几乎与生物声学套件一样好,这一事实非常令人鼓舞:这表明少数声学描述符成功地捕获了信号中存在的大多数相关信息。
在集成方面,所有七种配置都提高了它们所基于的分类器(或学习器)的性能。通过堆叠所有九个学习者,获得最佳结果。这种改进再次明显,特别是与DFA方法相比。
此外,对于堆叠分类器,观察到的精度和平衡精度之间的差异往往小于单独处理每种算法的精度和平衡精度之间的差异,这表明前者更好地处理类不平衡。与随机基线的比较显示,所有结果(对于考虑的所有指标)都明显高于机会水平,p < 0.001。
图9专注于性能最佳的方法——7种不同配置的堆叠——显示了100次迭代的平均混淆矩阵。它证实了分类的质量,但也强调了B混淆的风险最高,B相对经常与SB,SCB和PY混淆,而P和PY是最容易识别的调用。因此,混淆主要发生在持续时间“相邻”的调用类型之间。此外,人们可以注意到,实施的方法似乎对类不平衡相当稳健,两个最差的表现(正确分类的72.2%和73.3%)分别达到了两个最常见的调用类型B和SB)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 7. 平均混淆矩阵,用于评估过程的 100 次迭代,报告最佳配置中呼叫类型的分类率(组合 9 个主要分类器的集成分类器)。
类型按出现次数递减从下到上排序(PY:最频繁;渣打银行:最不频繁)。百分比根据参考值,并沿行求和为 1。单元格颜色的值与其百分比成正比(越深,越大)。
https://doi.org/10.1371/journal.pcbi.1010325.g007
图 8 显示了使用 xgboost 估计的不同声学描述符的相对重要性。持续时间似乎是最重要的特征,其次是 f0.onset 和 f0.offset。对于 DCT 方法,dct2 – 与 f 的曲率相关0轨迹和持续时间是两个主要的预测因子。对这两个特征集的详细比较分析超出了本文的范围,因为它过于特定于倭黑猩猩的情况,但可以提到两个有趣的方面。首先,持续时间的重要性在两组中相似。其次,DCT集中的dct2等全局形状因子似乎捕获了分布在生物声学集中多个维度的信息(曲率)。它证实了呼叫形状本身是显着且相关的,这意味着生物声学特征的协变可能比局部影响每个特征的微小声学波动更重要。SVM 和 NN 方法提供了类似的信息。这些结果表明,呼叫类型可以用很少的声学描述符来表征。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图8. 使用 xgboost 对呼叫类型进行分类时,声学特征的平均重要性,对于评估过程的 100 次迭代。
左。生物声学套件的特点。对。DCT 集的特点。条形图说明了每个声学特征对分类性能的相对影响。误差线报告评估过程 100 次迭代中重要性度量的标准偏差。
https://doi.org/10.1371/journal.pcbi.1010325.g008
任务2:识别个人签名
此任务包括将测试集中的每个呼叫分配给从表 1 中列出的十只倭黑猩猩中产生该呼叫的个人,而不考虑呼叫类别。机会水平对应于等于 0.100 的 bac。这 0 类问题中的最佳性能 (bac = 507.10) 低于 5 类调用类型分类。但是,它再次比使用 DFA 给出的要好得多 (bac = 0.236)。在识别个人方面,DFA方法与其他方法的性能差异甚至大于呼叫类型(图9和表3)。无论考虑何种指标,SVM、NN 和 xgboost 这三个分类器在生物声学和 DCT 集方面再次优于 DFA。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 9. 将倭黑猩猩个体签名分类为所用分类器和声学集的函数的性能。
红色条显示集成分类器组合 9 个主分类器所实现的性能。其他条对应于将每个分类器与不同的声学特征集(生物声学、DCT、MFCC)相关联的配置。配置按性能从上到下递减进行排序。性能报告为平衡精度。绿色、绿松石色和紫色分别表示在生物声学、DCT 和 MFCC 特征集上训练的模型。机会级别由垂直的红色虚线表示。误差线报告评估过程的 100 次迭代的性能标准偏差。
https://doi.org/10.1371/journal.pcbi.1010325.g009
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. 将单个特征码的分类性能表征为所用分类器和声学集函数的指标。
报告四个指标:对数损失、AUC、平衡精度和准确性。主配置(上半部分)和集成配置(下半部分)实现的最佳性能以粗体显示。对于 AUC、准确度 (acc) 和平衡准确度 (bac),色阶突出显示列中从最低分数(浅橙色)到最高分数(深橙色)的进度。
https://doi.org/10.1371/journal.pcbi.1010325.t003
撇开堆叠的学习器不谈,MFCC 集、生物声学集和最后的 DCT 组获得最佳性能。对于这三个功能集,性能最佳的分类器方法始终是 xgboost,但在考虑 MFCC 时,使用 svm 可以实现相同的性能级别。与我们在调用类型中发现的相反,MFCC 描述的丰富性增强了各个签名之间的区别。这一结果表明,倭黑猩猩的声音特征是由于每个个体排列其叫声的方式的显着差异引起的(如图4所示,在个体#19和#20的模板之间观察到的差异),辅以MFCC比标准生物声学特征更容易捕获的细微变化。相反,DCT 表示仅近似于通过呼叫的和谐度增强的音调轮廓。因此,它可能无法解释个体声音的这种微妙差异,即使它仍然捕捉到呼叫相对位置的个体差异。
在融合方面,七种配置中的六种提高了他们所基于的学习者的性能,而将三种算法 NN、SVM 和 xgboost 与相同的生物声学特征集堆叠在一起并没有带来任何改进。这表明天花板效应。通过堆叠所有 9 种配置获得最佳结果。
与调用类型一样,所有分类结果(无论考虑的指标如何)都明显高于机会水平,p < 0.001。然而,不平衡数据集的影响是惊人的。由于集成配置导致最佳性能 - 九种不同配置的堆叠 - 一方面,我们为数据集贡献最大的四个个体(Jill,Zuani,Zamba,Vifijo)获得了相当好的性能(高达79.8%的正确识别)(图10)。另一方面,对于贡献较少的个体来说,表现不大,尽管高于偶然性(例如,Bolombo = 正确识别的 17.3%;布西拉 = 28.1%)。因此,阶级失衡对我们的结果产生了重大影响,尽管采用了阶级权重来减轻它。这些结果表明,当获得较差的个人分类分数时,很可能是由于分类器错误,而不是由于个人呼叫中缺乏特殊特征。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 10. 平均混淆矩阵,用于评估过程的 100 次迭代,报告最佳配置中单个签名的分类率(组合 9 个主要分类器的集成分类器)。
通过减少呼叫数(吉尔:最大数量;布西拉:最低数字)。百分比根据参考值,并沿行求和为 1。单元格颜色的值与其百分比成正比(越深,越大)。
https://doi.org/10.1371/journal.pcbi.1010325.g010
通过检查每个特征对分类性能的影响(图11),最终可以观察到它们的重要性在更广泛的特征集中比在调用类型分类任务中观察到的更加分散。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 11. 声学特征的平均重要性,对于评估过程的 100 次迭代,当使用 xgboost 对单个签名进行分类时。
左。生物声学套件的特点。对。DCT 集的特点。条形图说明了每个声学特征对分类性能的相对影响。误差线报告评估过程 100 次迭代中重要性度量的标准偏差。
https://doi.org/10.1371/journal.pcbi.1010325.g011
四、解决可能的数据泄露问题
数据泄漏是指分类决策基于分类器在其训练阶段巧合获得的信息的情况。让我们想象一下,两只灵长类动物A和B在室外围栏里发声,对观察者有不同的发声行为。A是“害羞”的,与录音机保持一定距离,而B则更加好奇,渴望靠近录音机。对于两个人的等效声音努力,A和B的录音之间的强度水平会有所不同。在后处理中没有强度归一化的情况下,自动分类器可以轻松地选择训练集中可用的此信息,并根据它们与记录器的距离而不是它们的声学特征来正确区分 A 和 B。因此,分类器决策受到真正感兴趣的任务的混淆 - 发射器的位置而不是它们的内在特征的污染。在这个简化的示例中,很容易检测到问题,但实际情况可能涉及更微妙的泄漏形式,分类器可以利用这些泄漏并取得不必要的成功。
当对大型数据集进行分类评估时,仔细的实验设计可以防止落入最明显的陷阱中,但其他泄漏源仍然可能被证明是有问题的(有关更多信息,请参阅[13]进行一般性讨论,[47]有关动物物种声学监测的方法,以及[91]用于音乐分类评估)。在 SUNG 数据集的背景下,情况更加复杂:根据定义,它们并没有提供所有可能的发声情况的忠实样本,而是提供降级的、尽管信息丰富的视角。在本节中,我们将说明案例研究中检查的两个维度。在第一小节中,我们将展示如何在语音签名识别的上下文中识别和缓解与序列中呼叫发生相关的泄漏问题。在第二小节中,我们研究了数据结构如何导致潜在的混杂因素的存在,而这些混杂因素无法用 SUNG 数据集有效排除。
人声序列效果
在上一节中报告的自动分类方法中,每个观察单元由一个调用组成。当这些叫声从相同的声带序列中提取时,可能会出现问题(如第一节中描述的录音过程中所定义),这在动物数据集中很常见。这种情况违反了观测值的独立性(伪复制),并可能破坏分类性能的有效性。具体来说,我们如何确保分类器不会使用表征整个调用序列的某些特征来识别发射器?如果是这种情况,例如 [7] 所建议的那样,单次调用分类性能可能会被高估。
为了解决这个问题,我们比较了三种不同的子采样场景来构建训练和测试子集。第一个(称为默认)对应于第 II 节中报告的结果。它只是包括不对如何将调用分配给一个或另一个子集进行任何控制,除了确保两个集合中个体出现的相似分布。第二个(公平场景)包括通过将尽可能多的序列分配给训练集或测试集来最小化重叠(即属于同一语音序列的调用),以便在训练期间看到的序列的音景在对测试阶段的调用进行分类时不提供任何信息。此优化是使用名为 BaLi 的内部工具执行的(有关详细信息,请参阅第 V 节中的“评估数据泄漏”)。如果有足够的数据序列来匹配训练集和测试集之间的类型和个体分布,理论上可以实现完全独立,但实际上数据集的有限大小会导致残留泄漏(见下面的结果)。
最后,第三种情况(偏斜)包括最大化两个集合共享的序列的比例(但仍具有不相交的调用集)。根据定义,偏斜方案设计不当,因为它会最大化数据泄漏,这会自动导致对分类性能的高估。然而,它在提供可以比较默认和公平情景的上限性能方面具有指导意义。
为简单起见,我们只考虑单个签名的分类,而不考虑调用类型的分类。
为了评估数据泄漏的影响,我们遵循了第二节“自动分类方法和评估方法”中描述的重采样策略,并在每个采样场景之后绘制了100次训练集和测试集。我们方法的输出如图 12 所示。在左侧,水平轴对应于重叠程度的度量,定义为所有序列出现在单个集合中所需的调用交换次数(忽略训练集应比测试集大四倍的约束,因为整个数据集的拆分率为 80%-20%)。因此,计数值等于零,以实现理想的公平拆分,训练集和测试集之间没有重叠的序列。可以看出,什么都不做(默认)实际上更接近最大化重叠(偏斜)而不是最小化重叠(公平)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 12. 采样对数据泄漏的影响(考虑所有序列)。
应用了三种方案:默认、公平和偏斜。左。根据训练集和测试集之间的序列重叠,每个策略的 100 次运行分布(0:无重叠)。右。在对单个特征进行分类时,场景对分类器和声学特征集的每个组合的性能(平衡精度)的影响。
https://doi.org/10.1371/journal.pcbi.1010325.g012
我们假设偏斜场景的性能最高,公平场景的性能最低。除了在默认抽样之后的上一节中报告的 100 次运行之外,我们还为“公平”和“偏差”方案计算了 100 次运行。为了简单起见,我们撇开了集成学习器,专注于我们的 9 种初始配置。
结果可以在图12的右侧找到。我们的假设得到了证实,即防止序列重叠会导致性能降低,当最大化它会导致性能膨胀时。前者更可靠,因为它们对应于最重要的观察之间(即训练集和测试集之间)之间的非独立问题的最小化。然而,可以观察到,不同策略之间的差异很小,这就提出了一个问题,即是否真的有必要控制序列中的调用分组。此外,分类器和预测变量集之间的一般表现模式没有差异。我们不同指标的结果相似(请参阅 Github 存储库中的文件“5_Analysis_Classification_Performances.html”)。
对先前观察结果的一种解释可能在于调用如何在我们的数据集中按顺序进行具体组织。在我们的 571,1 次调用数据集中的 560 个序列中,259 个序列仅包含一个调用,111 个序列由 2 个调用组成,201 个序列包含 2 个以上的调用。序列中的调用可以是相同类型,也可以是不同类型的调用。这可以解释为什么不同场景之间的差异是有限的:根据定义,训练集和测试集不能共享一个调用长序列。
为了进一步测试这种可能性,我们构建了一个仅由至少 3 个元素序列中的调用组成的子集——所有 10 个个体仍然存在,总共 1 个序列中的 079,201 个调用。然后,我们遵循与主数据集相同的方法,在估计了 100 种不同配置的预测因子和分类器集的最佳超参数后,考虑了三种不同的场景,每种场景运行 9 次。图 13 报告的结果如图 12 所示。虽然整体模式没有变化,但人们可以在图的左侧注意到默认场景非常接近偏斜场景,这意味着“最简单”的方法接近数据泄漏的最坏情况。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 13. 采样对数据泄漏的影响(考虑至少三次调用的序列)。
Three scenarios are applied: Default, Fair and Skewed. Left. Distribution of the 100 runs for each strategy in terms of sequence overlap between training and test sets (0: no overlap). Right. Influence of strategy on performance (balanced accuracy) for each combination of classifiers and acoustic feature sets when classifying individual signatures.
https://doi.org/10.1371/journal.pcbi.1010325.g013
在分类性能方面(图 13,右),可以观察到公平情景与其他情景之间的差异更大(例如,使用 MFCC 的 xgboost 的公平和默认之间的平衡准确性差距为 12.5%)。它强调,当分类器可以提取在现实生活条件下无法访问的信息时,性能显然被高估了。
我们的调查结论是一个警示故事:应该控制序列中调用的发生,以防止高估分类性能,随着每个序列的平均调用数增加,这种情况更是如此。绝对应该避免偏斜情况,因为它大大高估了分类性能。相反,人们应该尝试实施公平策略,以获得偏差最小的性能估计。如果手动完成,可能会很脆弱,但Bali等优化工具提供了一种减轻组合负担的有效方法(参见第V节中的“评估数据泄漏/Bali”)。默认策略仅包括没有任何策略,当数据泄漏(错误或正确)未被识别为问题时,可以说是一种常见做法。值得一提的是,当数据匮乏不是问题时,从业者通常会采取保守的方法,避免大多数数据泄漏,例如,系统地将不同日期完成的记录分配给训练和测试集。因此,我们的警告主要与 SUNG 数据集相关。
泄漏控制:SUNG 数据集的一些限制
在前面的部分中,我们评估了每个呼叫是否具有足够的特殊信息,以自动将其归因于产生它的个人。同样,我们评估了分类器可以在多大程度上区分一种调用类型与其他调用类型。在这两个任务中,每个调用都出现在训练或测试子集中,从而保证在调用级别没有子集重叠。接下来,我们评估了以相同顺序生成的呼叫之间的泄漏的影响。尽管如此,我们并没有实现子集之间的完全独立,如下所示。
首先考虑呼叫类型的分类,理想情况下,分类器将使用从许多人那里记录的大量数据进行训练。然后,评估将包括测试这些分类器是否正确地概括了他们对其他个体产生的呼叫的决定,这些呼叫不同于训练集中存在但属于同一组的呼叫,以避免潜在的方言差异。然而,由于数据可用性有限,这种实验设计超出了SUNG数据集的范围。
考虑到个体签名,相同的动物在逻辑上出现在训练和测试子集中,但是,可以通过为每个子集分配不同的呼叫类型来改善它们的分离。在为调用类型控制的这种配置中,分类决策必须基于单个不变特征,而不是基于类型特定信息从训练到测试子集的潜在传输。
为了探索这个选项,考虑到我们初始数据集的不平衡——例如,没有来自 Kumbuka 的 SCB,只有来自 Busira的五个 SB,参见表 1——我们构建了一个简化的数据集,其中类型和个体的每个组合至少由 18 个调用表示。这种选择保留了原始数据集的58%,并导致图14(上图)所示的五个个体和四种类型之间的细分。从这个子集中,可以绘制几个训练/测试重新分区,以保证对于给定的个人,调用类型在集合之间有所不同。例如,在图 1 中间面板所示的配置示例 #14 中,分类器在 Djanoa 和 Zuani 产生的 Peeps、Peep-Yelps 和软树皮上进行训练,并在它们的树皮上测试它们的签名(在训练阶段分类器看不到)。对于其他三个个体,重新分区不同,但相同的分离原则适用于呼叫类型的控制。配置示例 #2(图 14,底图)显示了类型和个体的另一种可能拆分。此过程还会产生不太均匀平衡的分裂,例如,一种类型由训练集中的单个个体表示,并在所有其他个体的测试集中存在。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 14. 在为分类/区分任务构建训练和测试集时最小化信息泄漏的策略图示。
上面的面板显示了缩减数据集中每个人的呼叫类型的分布。中间和下方的面板显示训练集和测试集的两种配置,其中给定个人的每种呼叫类型仅出现在两个集合中的一个中。
https://doi.org/10.1371/journal.pcbi.1010325.g014
值得注意的是,这些配置并不能反映动物所经历的日常情况。更准确地说,倭黑猩猩曲目的叫声类型数量有限这一事实意味着倭黑猩猩听到社交伙伴发出以前从未从这种特定动物那里听到过的叫声是极其罕见的。然而,这种方法通过在各自的类型和个体特征之间提供最大的分离,为SUNG上下文中的分类器提供了一个有趣的压力测试。
我们使用与前几节相同的分类器架构执行了这些额外的分类实验(针对单个签名任务),有两个主要结果。首先,表现在很大程度上有所下降,尽管本质上也比偶然性好。我们的解释是,个体签名既包括可以从语音中提取的特征(因此在这个过程中分类器可以访问),也包括产生每种类型的特殊方式(分类器无法访问),正如我们在第一节中对跨个体变异性的研究所表明的那样。 其次,训练/测试拆分配置之间的性能差异比我们在 princeps 实验中观察到的要大得多。在这种特别具有挑战性的环境中,这种不稳定性表明数据集的有限大小,加上倭黑猩猩曲目的分级性质,不允许训练足够健壮的分类器,以从单个效应(调用由训练或测试集中的个体产生的类型)中抽象出来。结果在补充信息(S2文本)中提供。
五、讨论:主要成就和局限性
在提高我们对倭黑猩猩声乐曲目中信息编码方式的理解的同时,本文主要具有方法论目标。我们的目标是评估不同发声处理方法(声学分析、数据可视化和自动分类)的适用性,以描述来自 SUNG 数据集的发声编码信息,这些信息代表了生物声学研究中通常获得的信息(图 1)。我们的方法包括几个特征空间中的声学表征,通过S-UMAP从中得出图形表示,然后实现几种分类算法及其组合,以探索倭黑猩猩呼叫的结构和变化(图6)以及它们编码的单个签名的鲁棒性(图9).我们评估了数据泄漏概念在评估分类性能方面的重要性,以及尽管存在固有的挑战,但仍需要考虑它(图 12、13 和 14)。
主要发现
描述声音信号的特征
我们将传统上用于描述灵长类动物发声的一组 20 个声学参数(生物声学集)与一组简化的七个半自动计算参数(DCT 集)和包含 192 个参数的更全面的光谱时间参数化(MFCC 集)进行了比较。虽然传统的声学参数似乎足以表征呼叫类型,但在表征单个特征时,分类器似乎受益于更细粒度的声学描述(例如 MFCC 提供的描述)。这可能是因为MFCC参数化没有对特定频谱或时间参数的相对显著性做出任何假设[3],并且编码了与发射器的解剖学和生理学相关的细微差异,超出了呼叫的整体基本特征,在全光谱上。这些参数具有足够的特殊性,足以表明猿类可以在现实生活中正确识别发射器[92,93]。当然,基于算法的自动分类仅与动物在必须解码同种发声所携带的信息时执行的认知任务部分相关[94,95],主要结果有两个。首先,由于它的社交经验,每只猿都建立了良好的先验和期望,谁可以在何时以及如何发声。此外,在真实情况下,通话可能会通过上下文信息得到增强,这些信息可能涉及视觉线索和有关小组成员先前移动和位置的最新信息。这些因素可能会导致任务简化,并且可以假设个体同种个体声音识别在倭黑猩猩中非常准确。一项使用单一呼叫类型(即窥视-yelp)播放的实验研究已经证明了这一点[53]。
使用呼叫类型标识设置的DCT所达到的性能仅略差于最佳性能,这一事实表明该表示形式充分捕获了它们的基本方面。根据设计,第一个 DCT 系数根据平均音高 (DCT0)、全局斜率 (DCT1)、曲率 (DCT2) 来表征呼叫音调轨迹,而高阶系数则编码呼叫中更快速的变化。因此,系数的符号和大小可能与频谱图上的视觉特征相关联,因此更直观。这是非常令人鼓舞的,因为可以预期,自动特征提取可以快速开发用于倭黑猩猩(可能还有其他哺乳动物)的叫声,同时也利用了声学预处理的最新改进[25,47,96]。采用多个特征集也可能是提取非冗余信息的良好做法,尤其是在小型数据集中。特征本身的性质可能因物种而异。一方面,我们实现的生物声学和DCT集本质上旨在表征f0形状,从而描述音调信号。因此,它们非常适合大多数倭黑猩猩曲目。另一方面,MFCC和相关的时谱表示能够处理音调和非音调调用,提供了一个非常通用的特征空间,可以适应各种声学通信系统。专家预定义的声学特征(生物声学或DCT集)和不可知的光谱时间表示(MFCC集)之间的互补性与[33]在人声曲目的无监督可视化背景下的结论相呼应。
可视化
无论是使用说明性的原始频谱图(如[35]和[36])还是聚合模板(如本文中的图3和图4),发声的图形表示对于捕获任何语音通信系统的结构和特征至关重要。将数据集投影到特征空间中可提供有关其可变性和聚类的其他信息。最近的非线性归约和预测(如UMAP)对于探索和发现大型数据集的结构特别方便和强大,正如[33]令人信服地指出的那样。然而,这些作者承认,在小数据集的背景下,无监督的UMAP表示可能无法阐明其结构(另见[34])。在这里,我们通过展示监督 UMAP 提供了一种优雅的方法,将我们的倭黑猩猩 SUNG 数据集从其声学描述转换为由手动标记类别告知的信息丰富、简约和歧视性的潜在特征空间,从而克服了这一限制。这种表示反过来可以用作数据块性、标签的一致性(无论是呼叫类型还是个人)以及由此产生的判别潜力的指示。虽然我们在本文中没有详细介绍这方面,但值得一提的是,这种表示还可以帮助诊断每个数据点并检测潜在的错误标记,特别是通过使用交互式绘图作为 Github 存储库中文件“6_Analysis_SUMAP_and_Silhouette.html”中提供的绘图。
自动分类
我们实现了三个分类器(svm,xgboost和NN),并将它们的性能与判别分析(DFA)的性能进行了比较,DFA是一种经典用于分析动物发声所携带信息的方法,特别是声音特征。我们的结果表明,在识别呼叫类型和单个签名方面,所有三种模型都明显优于DFA。根据设计,DFA基于线性决策边界,并且可能被证明没有足够的判别力来处理涉及类之间非线性分离的分类任务(有关线性与非线性决策边界之间差异的说明,请参阅S3文本)。因此,DFA可能会错过声学类别的识别,因此不是评估复杂声乐曲目的分类性质或人声特征准确性的最适当方法。此外,在评估个体签名时(如图8中的混淆矩阵所示)所达到的性能显示了数据集非常有限的个体(三个代表性最少的个体中的每一个大约~75次调用)和代表性最大的个体(三个个体~200次调用或更多)之间的鲜明对比。这种差异提醒我们,我们已经按照机器学习通常预期的标准处理了一个非常小的数据集(表1)。将数据集大小适度增加,每个人仅增加几百个观测值肯定会显著提高分类器的性能,这也表明,调用类型分类的整体性能更好,我们在每个类别中至少有 200 个调用。
从数据科学家的角度来看,有趣的是,集成方法可以提高性能。这首先意味着这三个特征集在某种程度上编码了互补的信息。此外,这三个分类器以不同的方式利用它们。显然,生物声学学家不一定痴迷于实现最佳分类性能。事实上,经常必须寻求性能和可解释性之间的权衡(透明和可解释的特征比不透明的参数化更可取),而令人望而却步的计算时间也可能是一个障碍。从我们的经验中得出的总体情况是,神经网络虽然比DFA更好,但由于整个深度学习框架的技术要求,部署起来比svm和xgboost更具挑战性,并且没有超越那些更简单的方法。相比之下,svm 和 xgboost 的性能都相当不错,并且在具有足够功能集的两个任务(呼叫类型和个体识别)中都达到了非常相似的结果。高精度分类器,例如精心优化的xgboost或由SVM和xgboost组成的堆叠学习器,在需要高精度时可能非常有用,例如在检查新的声乐曲目时,或用于野生动物的被动声学监测([97-99]最近的概述)。它们也是自动分类未标记调用并增加数据集大小的最佳选择,这个过程称为迭代伪标记[100]。然而,它们的缺点是优化此类模型依赖于探索复杂的超参数空间,因此需要一些扎实的机器学习专业知识。即使 xgboost 似乎在 svm 上具有优势,我们也因此建议像 svm 这样的简单分类器提供足够的权衡,提供足够的信息,更容易实现,并且比 xgboost 少得多的计算机密集度(特别是在调整不同的超参数和控制良好的交叉验证框架所需的重复过程中)。
绩效评估必须非常谨慎。处理 SUNG 数据集意味着要考虑数据稀疏性、类不平衡和潜在的数据泄漏。通过采用正确的指标和模型,并通过仔细控制训练集和测试集之间的混杂因素引起的泄漏,可以在一定程度上减轻它们的不利影响。在具有非常大的语料库(基于数千个说话者和各种录音条件,仅举两个方面)的语音或说话人识别中观察到的高度鲁棒性是相对较小的数据集无法实现的。即使人们小心翼翼地将不同时间录制的呼叫分配给训练集和测试集,在评估单个签名时,固有地存在一些残留数据泄漏,因为录音之间的声景、录音条件和设备经常有所不同。这些警告使得比较方法和论文变得困难。在这方面,应鼓励提供基于共享数据集的统一评估框架的多中心挑战[47]。
概括和建议
除了对一组倭黑猩猩的声乐曲目中观察到的变异性和可以从它们的叫声中推断出的声音特征进行彻底的定量表征之外,我们的结果还确定了几种可推广到任何其他动物交流系统的实用方法。我们建议采用它们可以在信息增益和可重复性方面改善标准生物声学工作流程,尤其是对于 SUNG 数据集。对于一些机器学习专家来说,这些方法可能看起来是标准的[25],但目前的文献表明,它们尚未被系统地采用。然而,这不是一个灵丹妙药,应该考虑这些建议是否与感兴趣的背景相关。
我们建议:
比较几个声学参数化,因为它们可能是互补的;
使用监督UMAP可视化数据集以检查物种声学空间;
采用SVM(支持向量机)而不是判别泛函分析作为基线分类方法;
明确评估数据泄漏并可能实施缓解策略。
矛盾的是,另一个建议是不要过分依赖宋语料库,并在解释时保持谨慎。无论机器学习的进步多么令人印象深刻,收集大量高质量的记录仍然是获得动物通信系统全面而强大的图像的唯一途径。
今后的工作
本研究中实施的方法在性能和复杂性之间提供了合理的平衡。最近的几种方法提供了有趣的替代方案或潜在的改进。频谱图的直接使用,无论是作为图像还是作为参数矩阵,已经应用于小鼠[44],大西洋斑点海豚[101],家猫[102],普通狨猴[52]等。然而,它们在复杂和分级曲目上的表现仍有待评估,并且可能需要根据每个物种调整频谱图参数[82,96]最近微调了一个在人声上训练的深度学习模型,以检测黑猩猩的声音特征。这个过程很有希望,因为从概念上讲它应该有效,但结果需要在严格控制数据泄漏的更大任务中得到确认。其他神经网络架构也已成功在大型数据集上实现(例如,[103]在小鼠超声发声上)。在将长音频回合分割为呼叫方面也取得了进展[52,104,105],但提出的解决方案目前难以应对SUNG数据集典型的不利条件(重叠呼叫,非平稳噪声等)。尽管如此,所有这些方法都有望提高足够大的数据集的分类准确性,但主要的性能限制来自数据集本身。如前所述,其低音频质量可以通过适当的声学预处理部分补偿,但互补方法在于通过数据增强技术[106]或通过开发多物种模型或迁移学习方法[107]进行人工扩展。然而,这些技术并不是灵丹妙药,其有效实施还需要额外的研究[44]。
最后,本文讨论的自动分析方法提供了有效的工具,帮助生物声学学家处理人声曲目。拟议的工作流程解决了全球理解动物通信系统的一个中间但必不可少的阶段,因此它参与了将最近的机器学习方法应用于生物声学的集体努力。
六、详细方法论
道德声明
为本文进行的所有研究都是观察性的。所有数据收集协议均按照相关准则和法规执行,并得到圣艾蒂安大学机构动物伦理委员会的批准,授权号为42-218-0901-38 SV 09。
提取声学特征
生物声学:这组声学参数的灵感来自[37]中描述的过程。它由使用 Praat(版本 6.0.24,从 2017 年 <> 月开始)计算的参数组成,这些参数总结了0每个呼叫的形状和能量分布。使用Praat计算的呼叫谐波(或谐波噪声比,HNR)也包括在内。与粗糙度感知相关,HNR测量声学信号的周期性和非周期性分量之间的比率。如果以dB表示的HNR接近20 dB,则认为发声主要是周期性的。如果HNR相当接近0 dB,则意味着其谐波和噪声分量中的能量相等。此过程将生成 20 个要素。需要手动操作:呼叫分段和 f0-峰值定位。
MFCC:这套使用 Matlab 中的语音框工具箱计算的,于 2019 年 32 月从 https://github.com/ImperialCollegeLondon/sap-voicebox 下载,是根据分布在 500-12000 Hz 频段上的 23 个三角形滤波器计算的梅尔频率倒谱分析开发的。计算连续帧的系数(~50 ms持续时间和32%重叠),并应用汉明窗口。命令v_melcepst(S,Fs,'dD',33,1024,512,500,12000/Fs,3/Fs)应用于音频信号S,以频率Fs采样。还计算一阶和二阶导数(所谓的 delta 和 delta-delta 系数),结果为 32 x 96 = 192 维。最终的 MFCC 集由通过调用计算的平均值和标准偏差组成。此过程将生成 <> 个要素。需要手动操作:呼叫分段。
DCT:这个集合是用普拉特计算的,主要基于f0轮廓,在其上应用离散余弦变换 (DCT)。DCT是语音学中用于参数化基频轮廓的方法(f0)和共振峰[63, 64, 108, 109]。 此参数化将信号分解为一组值,这些值是构成 f 的频率递增的余弦幅度0发声开始和偏移之间的值序列。每个系数表征 f 形状的一个方面0相对于余弦的轨迹。第 0 个 DCT 系数是与原始 f 的平均值成比例的值0弹道;第一个系数相当于平均值的变化幅度和方向;第二个与其轨迹曲率有关。较高的阶系数表示较高频率余弦的幅度,因此对应于有关f的越来越详细的信息0轨迹的形状。在下面的分析中,f0等高线已由前五个 DCT 系数近似。通话时长和谐度也包括在内。Praat脚本中用于计算DCT系数的公式来自[63]。此过程将生成 7 个特征(5 个 DCT 系数 + 持续时间 + 和谐度)。需要手动操作:呼叫分段和 f0 轮廓检查。
以下方法学表述中详述的所有分析均使用R软件实施[110]。本节末尾提供了软件包的详细列表。
数据选择和预处理
我们从初始数据集中选择了个体和呼叫类型的子集,特别是五种类型P(窥视),PY(peep-yelp),SB(软树皮),B(树皮)和SCB(尖叫树皮),以及这五种类型中呼叫超过70个的个体,即Bolombo,Busira,Djanoa,Hortense,Jill,Kumbuka,Lina,Vifijo,Zamba和Zuani。这一选择产生了一个包含 1,560 个观测值的数据集(S1 数据)。
在吉尔生产的树皮中只发现了一个缺失的值。该 f0发声中心的值(F0.mid)无法检测到。我们本可以选择简单地删除这种情况,但为了为具有大量缺失值的数据集提供更通用的解决方案,我们使用了随机森林算法。该算法根据与 f 相关的变量的观测值进行训练0(q1f, q2f, q3f, f.max, q1t, q2t, q3t, t.max, f0.sta, f0.mid, f0.end, f0.av, f0.max, tf0.max, f0.slope.asc, f0.slope.desc, f0.slope.1st.half, f0.slope.2nd.half, f0.onset, f0.offset) 以提供合理的重建。
在应用分类器之前,通过将不同的预测变量集集中在平均值并使用标准差(z 评分)重新缩放来对它们进行标准化。
数据不平衡
我们的数据集的特点是我们的观察(呼叫)分布在个体和呼叫类型中的方式不平衡(更不用说其他维度,例如排放背景)。表1总结了情况。
虽然代表性最高的个人吉尔(Jill)有362个电话,但代表性最少的个人(Busira和Bolombo)约占这一数量的20%。调用类型分布更均匀,发生次数范围从 206 到 443。重要的是要注意,有些人缺乏某些呼叫类型,例如Kumbuka和SCB,或者只有少数出现,例如,Bolombo的六个B或Busira的五个SB。
这种不平衡是SUNG数据集的共同特征,在考虑分类方法时应予以考虑。尽管排列 DFA 本质上是为了处理这种类型的不平衡而设计的,但我们考虑了其他方法的几种选择。报告结果的类权重与每个类中的观测值数量成反比,这比欠采样、过采样或 SMOTE(合成少数过采样技术)产生更好的结果。
应该注意的是,我们只关注了分类目标领域的不平衡,即在对个体进行分类时,我们只考虑每个人的不同调用次数,而不考虑呼叫类型,反之亦然。
监督 UMAP 和剪影分数
为了计算监督的 UMAP 表示,我们使用了 uwot 包的 umap() 函数,具有以下设置:100 个邻居、0.01(默认值)的最小距离和二维。欧几里得距离用于查找最近的邻居。目标标签(呼叫类型或单个签名)也作为参数传递,以执行监督降维 (S-UMAP)。具体来说,超参数n_neighbors和min_dist用于控制最终投影中局部结构和全局结构之间的平衡[111]。n_neighbors是用于构建初始高维图的相邻点(针对每个数据点)的数量。这意味着像 100 这样的高值会迫使算法专注于非常广泛的结构(以损失更详细的局部结构为代价)。min_dist是最终低维空间中点之间的最小距离。它控制UMAP聚合点的程度,低值导致更多的聚集嵌入[84]。
对于轮廓分数(轮廓宽度),我们使用了线索包的get_silhouette()函数。在这里,轮廓分数是使用默认的欧氏距离度量计算的。
东风
在判别分析的第一步中,使用训练样本来计算一组线性判别函数。为了测试呼叫类型的独特性,从每种呼叫类型中随机选择训练样本,而不控制个人。同样,为了测试个体的声音特征,训练样本是从每个人的发声中随机选择的。对于每种呼叫类型和每个人,选择的发生次数是相同的。这个数字等于每个呼叫类型(即206×2/3)和每个个体(即71×2/3)分析的最小发声数量的三分之二。这些从训练样本计算的判别分析模型用于对所有剩余事件进行分类。因此,对于每个人和每种类型的发声,至少有三分之一的发生被包括在测试样本中。我们使用随机选择的训练和测试样本对这些判别分析进行了 100 次迭代。性能指标和正确分类的百分比是通过对100个测试样本中每个样本获得的结果求平均值而获得的。
与下面提到的SOTA方法相比,判别分析不会自动处理预测变量之间的多重共线性,这必须明确解决。我们选择通过计算方差膨胀因子(VIF)来识别和减少生物声学和DTC集中的共线性。正如[112]所建议的,我们使用了逐步策略。我们使用的逐步VIF函数是由Marcus W. Beck编写的,是从 https://gist.github.com/fawda123/4717702 下载的。计算所有预测变量的 VIF 值,如果它们大于预选阈值(此处为 5),我们依次删除具有最大 VIF 的预测变量,重新计算 VIF 并重复此过程,直到所有 VIF 都低于预选阈值。S1 表中的刻度表示 DFA 分析中包含的预测变量。关于MFCC,在192个特征中,仅使用了对应于96个标准化系数的前32个特征及其一阶和二阶导数,因为DFA算法将标准差的标准化值视为常数。为了减少用作输入的参数数量,同时也为了处理预测变量之间的多重共线性,主成分分析(PCA)被用作前端[41]。主成分(PC)的最佳数量是通过用不同数量的PC系数训练分类器,并使用本节上面提到的相同交叉验证技术估计该分类器的性能来确定的(参见图15)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 15. 散点图显示了DFA性能的演变,作为使用四种不同性能指标考虑的PC数量的函数(有关这些指标的详细信息,请参阅“自动分类方法和评估方法”)。
左。个人签名的分类。右。呼叫类型的分类。
https://doi.org/10.1371/journal.pcbi.1010325.g015
考虑到使用对数损失来调整SOTA模型的超参数,导致最小对数损失的PC数量被选为最佳选择。更具体地说,我们认为黄土回归(局部估计散点图平滑)更平滑,并选择了回归曲线的最小值。在黄土回归中,例如点 x 处的拟合加权向最接近 x 的数据加权。与 x 的距离被认为靠近它由范围设置控制,α。如果 span 参数太小,则 x 附近的数据将不足,无法进行精确拟合。如果它太大,回归将被过度平滑。测试了从 0.25 到 10 的跨度值,增量为 0.25,用于呼叫类型和单个签名。最终为两个值选择2.5 - 高于此阈值的值导致回归曲线最小值的坐标相同。对于单个签名,此阈值对应于 38 台 PC,对于呼叫类型,对应于 41 台 PC。这些PC分别解释了标准化MFCC及其一阶和二阶导数总方差的82%和84%。因此,DFA结果是通过分别用这38或41个主成分的系数描述每个调用来获得的。
培训/测试程序
在处理大型数据集并考虑监督式 ML 技术时,通常会在训练集和测试集之间拆分一次。然而,随着数据集大小的减小,这种二元抽样过程会增加抽样误差的风险。换句话说,结果可能在很大程度上取决于随机分为两组的特定观察结果,因为某些观察结果本质上比其他观察结果更难分类,这是人类说话人识别领域的一个众所周知的问题[113]。因此,通过单一拆分来评估性能是不谨慎的。应该注意的是,这个问题与对两个集合施加一些控制是正交的,因为我们所做的是为了确保在训练和测试这两个集合中的观察类别具有相似的代表性(例如,在对个体进行分类时,23%(362/1560)的调用应该是两个集合中的Jill)。为了解释之前的风险,我们平均了100次重复的表现,即超过100对训练和测试集,每次有80%-20%的分成。性能分布清楚地说明了采样误差的影响和范围,这些分布的整体对称性验证了使用平均值作为集中趋势的估计器。我们不仅计算了不同指标的平均值(见第二节),还计算了混淆矩阵的平均值,并评估了特征重要性。
SVM、NN 和 XGBboost 的超参数
我们为不同的“最先进的”分类器考虑了以下超参数(具有相应的可能值范围):
对于 svm:i) 核的性质(线性、多项式或径向),ii) 对于多项式核,度数(在 1 到 4 之间),iii) 成本参数 C,这是一个正则化参数,用于控制偏差-方差权衡(值介于 2^-7 和 2^7 之间,具有 2 次幂变换),以及 iv) 对于径向核, 参数 Gamma 或 Sigma,它确定决策边界如何弯曲以考虑训练观测值(介于 2^-13 和 2^5 之间的值,具有 2 次幂变换)。
对于 NN,有相当多的参数,例如涉及不同的权重初始化方案(glorot normal、he normal、glorot uniform 等)、优化器(rmsprop、adam 等)或正则化技术,如 dropout,我们只关注其中的一些:i) epoch 的数量,即训练周期(25 到 200 之间),ii) 最后一层之前的层数(1 到 3 之间), iii)第一层中的神经元数量(在5到100之间),iv)如果相关,第二层中的神经元数量(在5到100之间),v)如果相关,第三层中的神经元数量(在5到100之间), vi)前一层的每一层的脱落率(所有层共享一个值, 介于 0.1 和 0.5 之间)和 vii) 提供给初始层的输入的输入丢失率(顾名思义)(介于 0.1 和 0.5 之间)。最后一层包含的单元数等于分类问题的类数。与交叉熵损失函数相关的该层使用了softmax激活。我们为小批量选择大小 128,一个 glorot 均匀权重初始化方案和一个学习率为 0.001 的 Adam 优化器。
对于 xgboost,我们专注于 8 个参数,并为其他参数选择了默认值:i) 最大轮数/迭代次数,对于分类,它类似于要增长的树数(在 10 到 1000 之间),ii) 学习率 eta,它在每一轮后缩小特征权重,低值会减慢学习过程,需要通过增加数量来补偿轮数(在 0.01 和 0.2 之间), iii) 正则化参数 gamma,它依赖于跨树信息,通常对浅树(值在 2^-20 和 2^6 之间,幂 2 变换)带来改进, iv) 树的最大深度 - 树越深,它可以处理的问题就越复杂,但过度拟合的风险更高(值介于 1 和 10 之间), v) 最小“子权重”,对应于叶节点的实例权重的最小总和(由二阶偏导数计算),并有助于决定何时停止拆分树并阻止潜在的特征相互作用和相关过拟合(在 1 到 10 之间), vi) 提供给树的观测值数量(值在 50% 到 100% 之间), vii) 提供给树的特征数量(值在 50% 到 100% 之间),以及 viii) 正则化参数 alpha,它对叶权重执行 L1(套索)回归(值介于 2 之间?20和 26具有 2 次幂转换)。超参数调优对 xgboost 的计算要求最高,因为我们选择使用大范围的值,在某些极端情况下需要非常大量的计算。
调整过程。
探索超参数空间有不同的方法[114]。首先,可以使用随机搜索,其中尝试并比较随机选择的许多可接受的超参数值配置。但是,随着超参数数量的增加和可能的值范围的扩大,配置的数量必须增加。在我们的案例中,这种方法似乎不是最有效的。另一种选择是执行网格搜索,其中每个超参数的可能值范围导致许多均匀分布的值(可能使用对数/幂转换),并尝试和比较这些值的所有集。同样,随着超参数数量的增加,这种方法很快就会变得棘手,并且人们希望考虑密集网格。第三种选择是在需要先考虑某些超参数然后再考虑其他超参数时执行定制搜索,从而大大减少要探索的配置数量。例如,这种方法可以在xgboost中找到,但在其他技术中则找不到。第四种方法是基于模型的优化(MBO,也称为贝叶斯优化),其中概率模型逐渐学习超参数空间的结构以及哪些超参数值导致最佳性能[115]。这种方法的计算强度通常比以前的方法低得多。可以考虑多点方法,特别是当计算可以并行化时。
我们利用了基于多点随机森林的贝叶斯MBO过程,使用“置信下限”填充标准[25]进行了116次迭代,该标准适用于非纯数字的参数空间。我们确实将这种方法与以前的方法进行了比较,发现依靠基于模型的优化可以随着时间的推移获得最佳的性能比率。对于每个“最先进的”分类器和每组预测因子,我们并行化了该过程。
考虑到我们的 100 个重复训练-测试拆分,结合我们不同的算法和预测器集,为每个配置执行超参数优化将非常耗时。因此,我们决定将超参数调优与分类性能评估分开。对于每个分类器和每组预测变量,我们执行了 5 次重复的 5 倍交叉验证来评估超参数。我们假设这提供了足够的情况,即足够多的不同验证集,以计算在许多不同的配置(我们的 100 次重复)上平均表现良好的超参数的值。
用于调整超参数的性能指标。
调整超参数需要一个指标。我们考虑了对数损失,因为它是我们一组指标中唯一可用于训练神经网络的指标,而且因为在更理论的层面上,它对应于“纯粹”机器学习的观点,独立于“实际问题”(倭黑猩猩调用)——对数损失作为指标告诉我们模型在进行预测时是否有信心。
作为检查,我们还使用 AUC 来调整 SVM 和 xgboost 超参数,发现结果与对数损失获得的结果非常相似。
功能重要性
虽然一些算法(如 xgboost)有自己特定的技术来估计特征重要性,但我们选择了一种通用方法,可以应用于我们的三种算法 SVM、NN 和 xgboost 中的任何一种。它包括独立考虑特征集中的每个特征,并针对每个特征,将获得的具有初始值的预测的质量与在观测值中随机排列这些值后获得的预测的质量进行比较。直观地说,随机播放时的性能越低,要素及其值对观测值进行分类就越重要。这对应于 mlr 包 [84] 中函数 generateFeatureImportantData() 的实现,方法为 'permutation.important'。我们选择了 50 种随机排列,以避免偶然获得的极端结果。
我们考虑了生物声学特征和DCT的特征重要性,但由于变量的数量和难以为它们分配单个发音意义而忽略了MFCC。
同样,由于我们对每种算法和特征集配置运行了 100 次迭代,因此我们对这些交互的特征重要性值进行了平均,以抵消任何给定迭代的采样误差。
合奏
我们考虑了七种不同的堆叠合奏:
对于每个分类器(SVM,NN和xgboost),我们首先堆叠了对应于三个不同特征集(生物声学参数,DCT系数和MFCC系数)的模型。
– 对于每个特征集(生物声学、DCT、MFCC),我们相反地堆叠了对应于三个“最先进”分类器的模型。
– 最后,我们将对应于三个分类器处理的三个特征集的 9 个模型堆叠在一起。
至于超级学习器,我们考虑了带有L2惩罚的惩罚多项式回归(岭回归)[117]。
评估数据泄漏 / 巴厘岛
默认策略是通过随机抽样程序实现的,该过程仅控制训练集和测试集中相同比例的观测值类别。另一方面,公平和倾斜策略是通过一个名为Bali的内部工具实施的。基于R软件中面向对象的R6框架,Bali依赖于遗传算法(只有随机突变,没有基因组重组)和许多规则的定义 - 可能具有不同的权重 - 在创建指定大小的集合时要遵守。一些规则用于连续变量,旨在平衡或区分不同集合的行或列之间的均值或方差。其他人处理分类变量,旨在最大化或最小化多样性等。巴厘岛目前正在开发中,尚未公开分发。最终版本将很快在知识共享许可下在github上发布,并在 http://github.com/keruiduo/SupplMatBonobos 中交叉引用。
我们首先定义了一个规则,以确保训练集和测试集中个体出现的分布相似。当仅给出此规则时,算法始终如一地实现目标,其结果类似于默认策略。通过添加第二条规则来防止或最大化两组序列的重叠,我们分别实现了公平和偏斜策略。
分步演示
由于我们建议采用 SVM 作为基线分类方法,因此在 Github 存储库 (http://github.com/keruiduo/SupplMatBonobos) 中提供的文件“5_Example_mlr_svm.html”中提供了一个分步演示,其中使用 SVM 来预测具有一小组声学特征(包括持续时间、HNR 和 7 个 DCT 系数)的单个特征。该代码包括受监督的 UMAP 的计算和交互式显示。
实现
我们依赖于以下 R 包:
– 对于通用 ML 函数和过程,DFA 的插入符号 [118] 和 SV、NN、xgboost 和集成学习器的 MLR [84, 119]
– DFA 的 MASS [120]
– 对GMM的麦克鲁斯特 [121]
– 拆分堆栈形状以准备具有相同比例的对象类的集合 [122]
– mlrMBO 用于基于模型的超参数优化 [116]
– 对于 100 次重复的并行化以评估性能,parallelMap [123]
– 神经网络的 keras(基于 CPU 的版本 2.8,Python 3.9)[124]
– 各种图形的 ggplot2 [125]
– UWOT 用于 UMAP [126] 和用于计算剪影分数的线索 [127]
– 对于广义的数据处理,整洁 [84, 128]
– BaLi 算法的 R6 [129]
– 未命中森林以插补缺失值 [130]
– 绘制创建交互式 S-UMAP 图 [131]
可用于重现本文中详细介绍的实验的代码已在个人计算机(AMD 锐龙 9 5950X 16 核处理器,32GB RAM)上进行了测试和运行,并并行化了 i) SVM、NN 和 xgboost 的超参数调优,并重复交叉验证,ii) 估计 100 次运行的简单和堆叠学习器的分类性能, iii) 估计 1,000 次运行的随机基线。
支持信息
原始数据集。
显示 1/8: pcbi.1010325.s001.txt
跳到无花果共享导航
individual id sequence vocalization type type.cat location time context arousal frequency.jump subharmonics discontinuity uncoupling composition jitter start end duration duration.over.sequence.ratio sequence.duration sequence.SNR vocalization.HNR sequence.intensity.over.average.ratio q1f q2f q3f f.max q1t q2t q3t t.max f0.sta f0.mid f0.end f0.av f0.max tf0.max f0.slope.asc f0.slope.desc f0.slope.1st.half f0.slope.2nd.half f0.onset f0.offset curv.abs dct0 dct1 dct2 dct3 dct4 intercept coeff1 coeff2 coeff3 coeff4 slope.f0.h2 slope.h2.h3 spectral.slope sprectral.intercept m1 m2 m3 m4 E50.duration sex age rank zoo MFCC1mean MFCC2mean MFCC3mean MFCC4mean MFCC5mean MFCC6mean MFCC7mean MFCC8mean MFCC9mean MFCC10mean MFCC11mean MFCC12mean MFCC13mean MFCC14mean MFCC15mean MFCC16mean MFCC17mean MFCC18mean MFCC19mean MFCC20mean MFCC21mean MFCC22mean MFCC23mean MFCC24mean MFCC25mean MFCC26mean MFCC27mean MFCC28mean MFCC29mean MFCC30mean MFCC31mean MFCC32mean DeltaMFCC1mean DeltaMFCC2mean DeltaMFCC3mean DeltaMFCC4mean DeltaMFCC5mean DeltaMFCC6mean DeltaMFCC7mean DeltaMFCC8mean DeltaMFCC9mean DeltaMFCC10mean DeltaMFCC11mean DeltaMFCC12mean DeltaMFCC13mean DeltaMFCC14mean DeltaMFCC15mean DeltaMFCC16mean DeltaMFCC17mean DeltaMFCC18mean DeltaMFCC19mean DeltaMFCC20mean DeltaMFCC21mean DeltaMFCC22mean DeltaMFCC23mean DeltaMFCC24mean DeltaMFCC25mean DeltaMFCC26mean DeltaMFCC27mean DeltaMFCC28mean DeltaMFCC29mean DeltaMFCC30mean DeltaMFCC31mean DeltaMFCC32mean DeltaDeltaMFCC1mean DeltaDeltaMFCC2mean DeltaDeltaMFCC3mean DeltaDeltaMFCC4mean DeltaDeltaMFCC5mean DeltaDeltaMFCC6mean DeltaDeltaMFCC7mean DeltaDeltaMFCC8mean DeltaDeltaMFCC9mean DeltaDeltaMFCC10mean DeltaDeltaMFCC11mean DeltaDeltaMFCC12mean DeltaDeltaMFCC13mean DeltaDeltaMFCC14mean DeltaDeltaMFCC15mean DeltaDeltaMFCC16mean DeltaDeltaMFCC17mean DeltaDeltaMFCC18mean DeltaDeltaMFCC19mean DeltaDeltaMFCC20mean DeltaDeltaMFCC21mean DeltaDeltaMFCC22mean DeltaDeltaMFCC23mean DeltaDeltaMFCC24mean DeltaDeltaMFCC25mean DeltaDeltaMFCC26mean DeltaDeltaMFCC27mean DeltaDeltaMFCC28mean DeltaDeltaMFCC29mean DeltaDeltaMFCC30mean DeltaDeltaMFCC31mean DeltaDeltaMFCC32mean MFCC1std MFCC2std MFCC3std MFCC4std MFCC5std MFCC6std MFCC7std MFCC8std MFCC9std MFCC10std MFCC11std MFCC12std MFCC13std MFCC14std MFCC15std MFCC16std MFCC17std MFCC18std MFCC19std MFCC20std MFCC21std MFCC22std MFCC23std MFCC24std MFCC25std MFCC26std MFCC27std MFCC28std MFCC29std MFCC30std MFCC31std MFCC32std DeltaMFCC1std DeltaMFCC2std DeltaMFCC3std DeltaMFCC4std DeltaMFCC5std DeltaMFCC6std DeltaMFCC7std DeltaMFCC8std DeltaMFCC9std DeltaMFCC10std DeltaMFCC11std DeltaMFCC12std DeltaMFCC13std DeltaMFCC14std DeltaMFCC15std DeltaMFCC16std DeltaMFCC17std DeltaMFCC18std DeltaMFCC19std DeltaMFCC20std DeltaMFCC21std DeltaMFCC22std DeltaMFCC23std DeltaMFCC24std DeltaMFCC25std DeltaMFCC26std DeltaMFCC27std DeltaMFCC28std DeltaMFCC29std DeltaMFCC30std DeltaMFCC31std DeltaMFCC32std DeltaDeltaMFCC1std DeltaDeltaMFCC2std DeltaDeltaMFCC3std DeltaDeltaMFCC4std DeltaDeltaMFCC5std DeltaDeltaMFCC6std DeltaDeltaMFCC7std DeltaDeltaMFCC8std DeltaDeltaMFCC9std DeltaDeltaMFCC10std DeltaDeltaMFCC11std DeltaDeltaMFCC12std DeltaDeltaMFCC13std DeltaDeltaMFCC14std DeltaDeltaMFCC15std DeltaDeltaMFCC16std DeltaDeltaMFCC17std DeltaDeltaMFCC18std DeltaDeltaMFCC19std DeltaDeltaMFCC20std DeltaDeltaMFCC21std DeltaDeltaMFCC22std DeltaDeltaMFCC23std DeltaDeltaMFCC24std DeltaDeltaMFCC25std DeltaDeltaMFCC26std DeltaDeltaMFCC27std DeltaDeltaMFCC28std DeltaDeltaMFCC29std DeltaDeltaMFCC30std DeltaDeltaMFCC31std DeltaDeltaMFCC32std
Bolombo Bolombo_1071_3 1071 3 B long_call outside-bridge 15:18 conflict high_arousal 0 0 0 0 0 0 1.653141 1.845448 0.192307 0.1112134 1.729172 33.13484 18.19899 0.912 2688.959 2779.802 2911.693 2926.649 0.3685886 0.558071 0.7224384 0.6660918 2214.344 2888.422 2122.43 2632.018 2922.899 0.5867631 6279.357 -10072.79 7010.435 -7966.345 674.078 -765.9921 7846.784 3715.656848 -8.35082048 -319.5858297 63.85068889 -75.49240119 2223 14.3255 0.2006 -0.0051 0.00002 -15.124 -12.718 -21.03263 54.49129 2627.36 237.8879 -0.5023865 2.040579 38.50665862 M 16 Low Apen 0.62986 -2.8611 -0.25415 0.75906 1.8835 0.45692 -2.655 -0.66789 1.8689 -0.68013 -0.64818 -0.46612 -0.46685 0.74436 -0.70494 -0.33249 0.19351 0.35823 -0.038953 0.14995 0.031087 0.36425 0.17088 -0.16404 0.26527 0.11495 0.17515 -0.0015013 0.10446 0.2226 0.038137 -0.04069 -0.19614 -0.10605 0.0043077 -0.013914 0.033906 0.064823 -0.11712 -0.03413 0.12416 0.028645 -0.055685 -0.0066947 0.024816 0.019653 -0.023027 -0.056515 0.0095551 -0.0036579 -0.013818 -0.023046 -0.020243 0.012459 -0.012282 -0.0075983 0.010929 -0.0096241 -0.013255 -0.022264 -0.0105 0.011253 0.0015339 -0.0091441 0.021192 0.0087822 0.002904 -0.010642 -0.015366 -0.017519 0.020676 0.018602 -0.016351 -0.0063513 0.0093327 0.0087448 0.01598 -0.0048596 -0.015185 0.0064974 0.00063848 -0.0031449 -0.0046292 0.0025033 0.00044656 0.0075021 -0.000079287 -0.0063314 -0.0012774 -0.0012975 -0.0023054 0.0018106 -0.0061488 -0.0027817 0.00062305 -0.0018257 0.62986 -2.8611 -0.25415 0.75906 1.8835 0.45692 -2.655 -0.66789 1.8689 -0.68013 -0.64818 -0.46612 -0.46685 0.74436 -0.70494 -0.33249 0.19351 0.35823 -0.038953 0.14995 0.031087 0.36425 0.17088 -0.16404 0.26527 0.11495 0.17515 -0.0015013 0.10446 0.2226 0.038137 -0.04069 -0.19614 -0.10605 0.0043077 -0.013914 0.033906 0.064823 -0.11712 -0.03413 0.12416 0.028645 -0.055685 -0.0066947 0.024816 0.019653 -0.023027 -0.056515 0.0095551 -0.0036579 -0.013818 -0.023046 -0.020243 0.012459 -0.012282 -0.0075983 0.010929 -0.0096241 -0.013255 -0.022264 -0.0105 0.011253 0.0015339 -0.0091441 0.021192 0.0087822 0.002904 -0.010642 -0.015366 -0.017519 0.020676 0.018602 -0.016351 -0.0063513 0.0093327 0.0087448 0.01598 -0.0048596 -0.015185 0.0064974 0.00063848 -0.0031449 -0.0046292 0.0025033 0.00044656 0.0075021 -0.000079287 -0.0063314 -0.0012774 -0.0012975 -0.0023054 0.0018106 -0.0061488 -0.0027817 0.00062305 -0.0018257
Bolombo Bolombo_1125_1 1125 1 PY short_call outside-roof 11:07 food_delivery high_arousal 0 0 0 0 0 0 0.2459778 0.3599268 0.113949 1 0.113949 6.428583 7.290009 1 1320.255 1911.072 1993.167 1991.538 0.3432836 0.5456716 0.7371144 0.61339 1926.656 1987.858 1650.15 1900.996 1997.424 0.4254883 1459.621 -5304.725 1074.214 -5927.364 61.20283 -337.7087 3668.554 2686.816552 120.931155 -89.78614567 16.31240838 -7.401956891 1940 -0.9405 0.1991 -0.0043 0.00002 -20.046 -6.468 -26.57112 73.09753 1899.8 107.4481 -1.080067 2.75437 76.42278563 M 16 Low Apen 3.59 -1.5562 0.65868 -0.30403 -0.33876 1.3967 0.44155 -0.60348 -0.81243 -0.57583 0.39291 0.17719 0.038699 0.19109 -0.68056 -0.56553 0.27244 0.26584 0.4 -0.038611 -0.23172 0.018475 0.13006 0.37243 0.35455 -0.074016 -0.12842 0.098851 0.14395 0.11865 0.052366 -0.02508 -0.016023 -0.065423 -0.068233 0.000028308 -0.068507 0.0074396 0.12049 -0.012635 -0.075207 0.012163 -0.0010364 0.033258 0.073138 0.020971 0.022001 -0.014953 -0.029211 0.027547 -0.0052683 0.0081342 0.034256 0.0024527 -0.030762 -0.0023847 -0.02124 -0.0084575 0.020588 0.001227 -0.0026617 0.0057754 -0.011418 -0.0056284 -0.013305 0.0061771 0.0093297 0.010048 -0.0034867 -0.032495 -0.016181 0.013556 0.019256 0.0057095 -0.012556 -0.012079 -0.010743 -0.001931 0.0050587 0.0012914 -0.0048816 -0.018771 -0.012539 0.0014747 0.0031571 0.0042675 -0.0014221 -0.006574 -0.0031842 0.0012567 0.007155 0.0014487 -0.0038618 -0.00066943 0.0049578 -0.001668 3.59 -1.5562 0.65868 -0.30403 -0.33876 1.3967 0.44155 -0.60348 -0.81243 -0.57583 0.39291 0.17719 0.038699 0.19109 -0.68056 -0.56553 0.27244 0.26584 0.4 -0.038611 -0.23172 0.018475 0.13006 0.37243 0.35455 -0.074016 -0.12842 0.098851 0.14395 0.11865 0.052366 -0.02508 -0.016023 -0.065423 -0.068233 0.000028308 -0.068507 0.0074396 0.12049 -0.012635 -0.075207 0.012163 -0.0010364 0.033258 0.073138 0.020971 0.022001 -0.014953 -0.029211 0.027547 -0.0052683 0.0081342 0.034256 0.0024527 -0.030762 -0.0023847 -0.02124 -0.0084575 0.020588 0.001227 -0.0026617 0.0057754 -0.011418 -0.0056284 -0.013305 0.0061771 0.0093297 0.010048 -0.0034867 -0.032495 -0.016181 0.013556 0.019256 0.0057095 -0.012556 -0.012079 -0.010743 -0.001931 0.0050587 0.0012914 -0.0048816 -0.018771 -0.012539 0.0014747 0.0031571 0.0042675 -0.0014221 -0.006574 -0.0031842 0.0012567 0.007155 0.0014487 -0.0038618 -0.00066943 0.0049578 -0.001668
Bolombo Bolombo_1131_1 1131 1 P short_call outside-roof 11:09 food_delivery high_arousal 0 0 0 0 0 0 0.1459573 0.2115567 0.06559939 1 0.06559939 9.558964 10.50261 1 1143.951 1824.939 1835.706 1831.187 0.3625994 0.5952299 0.777048 0.6795312 1855.447 1833.138 1819.543 1833.487 1855.447 0 0 -547.3191 -680.1375 -414.5007 -22.3083 -13.5955 617.7894 2592.999203 17.2445093 1.419030295 1.35383769 1.337446298 1858 -0.7777 0.0144 -0.0002 0.000001 -10.452 -27.457 -35.52787 115.7559 1833.51 12.32193 0.208964 1.762627 120.9127097 M 16 Low Apen 4.7904 -1.3773 -0.43566 -0.37268 -0.18898 0.11863 1.164 0.2661 -1.0668 -0.71679 0.54813 0.24156 0.17484 0.89588 0.078116 -0.97036 -0.70457 0.58889 0.5552 -0.16559 -0.032813 -0.3455 -0.56748 -0.26481 0.51571 0.54602 -0.13442 -0.1124 -0.20797 -0.059346 -0.025638 0.1488 -0.042689 -0.071047 0.028496 -0.025892 -0.029926 -0.035283 0.10851 0.055299 -0.10902 -0.1083 0.031842 0.067854 0.023767 0.077122 0.0176 -0.058846 -0.057051 0.028616 0.054342 -0.0057903 -0.033996 -0.0061738 -0.00098463 -0.030999 0.015641 0.039281 0.0063766 -0.021534 -0.057342 -0.0027195 -0.0019313 0.032766 -0.0076759 0.054789 0.043101 -0.0044428 -0.0046096 -0.023507 -0.075951 -0.024599 0.056599 0.03686 -0.020146 -0.020531 -0.0095573 -0.047559 0.004604 0.060078 0.031336 -0.040017 -0.028735 0.0073495 -0.0022673 0.0081666 0.036756 0.012009 -0.016024 -0.024993 -0.00326 -0.00034944 -0.00012256 0.00013545 0.0080029 -0.0035369 4.7904 -1.3773 -0.43566 -0.37268 -0.18898 0.11863 1.164 0.2661 -1.0668 -0.71679 0.54813 0.24156 0.17484 0.89588 0.078116 -0.97036 -0.70457 0.58889 0.5552 -0.16559 -0.032813 -0.3455 -0.56748 -0.26481 0.51571 0.54602 -0.13442 -0.1124 -0.20797 -0.059346 -0.025638 0.1488 -0.042689 -0.071047 0.028496 -0.025892 -0.029926 -0.035283 0.10851 0.055299 -0.10902 -0.1083 0.031842 0.067854 0.023767 0.077122 0.0176 -0.058846 -0.057051 0.028616 0.054342 -0.0057903 -0.033996 -0.0061738 -0.00098463 -0.030999 0.015641 0.039281 0.0063766 -0.02153
1 / 8
下载
无花果分享
S1 数据。 原始数据集。
https://doi.org/10.1371/journal.pcbi.1010325.s001
(TXT)
S1 图 五种调用类型的频谱图示例。
https://doi.org/10.1371/journal.pcbi.1010325.s002
(蒂夫)
S1 表。 声学功能和功能集的说明。
https://doi.org/10.1371/journal.pcbi.1010325.s003
(英文)
S1 文本。 SVM 与不同 MFCC 集的分类性能比较.
https://doi.org/10.1371/journal.pcbi.1010325.s004
(英文)
S2 文本。 控制单个签名任务中的呼叫类型。
https://doi.org/10.1371/journal.pcbi.1010325.s005
(英文)
S3 文本。 线性和非线性决策边界之间的差异图示。
https://doi.org/10.1371/journal.pcbi.1010325.s006
(英文)
S4 文本。 S1 声音中提供的录音说明。
https://doi.org/10.1371/journal.pcbi.1010325.s007
(TXT)
S1 声音。 录音示例(吉尔呼叫#698)。
https://doi.org/10.1371/journal.pcbi.1010325.s008
(WAV)
确认
我们衷心感谢阿彭休尔、普朗肯达尔和辛格山谷动物园的欢迎,特别是倭黑猩猩饲养员的支持。
引用
1.Coye C,Zuberbühler K,Lemasson A.雌性戴安娜猴的形态结构发声。动画行为。2016;115: 97–105.
查看文章谷歌学术搜索
2.图尔森,里贝罗S,佩雷拉DR,爸爸JP,德阿尔伯克基VHC。用于狨猴发声自动分类的机器学习算法。斯莫特曼M,编辑。公共图书馆一号。2016;11: e0163041.密码:27654941
查看文章PubMed/NCBI谷歌学术搜索
3.米尔克 A, 祖伯布勒 K.一种在自由放养的动物中自动识别个体、物种和呼叫类型的方法。动画行为。2013;86: 475–482.
查看文章谷歌学术搜索
4.Aubin T,Mathevon N,编辑。脊椎动物声学通信中的编码策略。湛:施普林格国际出版社;2020. https://doi.org/10.1007/978-3-030-39200-0
5.Janik VM, Sayigh LS, Wells RS.标志性的哨子形状向宽吻海豚传达身份信息。国家科学院院刊 2006;103: 8293–8297.密码:16698937
查看文章PubMed/NCBI谷歌学术搜索
6.快速NJ,Janik VM。宽吻海豚在海上相遇时交换标志性的口哨。生物学进展 2012;279: 2539–2545.密码:22378804
查看文章PubMed/NCBI谷歌学术搜索
7.Clay Z, Zuberbühler K. Bonobos从呼叫序列中提取意义。豪斯伯格M,编辑。公共图书馆一号。2011;6: e18786.密码:21556149
查看文章PubMed/NCBI谷歌学术搜索
8.查尔顿BD,埃利斯WAH,布鲁姆J,尼尔森K,惠誉WT.雌性考拉更喜欢风箱,其中较低的共振峰表示较大的雄性。动画行为。2012;84: 1565–1571.
查看文章谷歌学术搜索
9.Levréro F, Carrete-Vega G, Herbert A, Lawabi I, Courtiol A, Willaume E, et al.声音的社会塑造不会损害山魈中亲属关系的表型匹配。纳特公社。2015;6: 7609.密码:26139329
查看文章PubMed/NCBI谷歌学术搜索
10.詹森达,坎特马,曼瑟MB。带状猫鼬(Mungos mungo)近距离呼叫中单个签名和上下文提示的分段串联。生物化学生物学. 2012;10: 97.密码:23206242
查看文章PubMed/NCBI谷歌学术搜索
11.Clay Z,Archbold J,Zuberbühler K.野生倭黑猩猩声音行为的功能灵活性。皮尔·2015;3: e1124.密码:26290789
查看文章PubMed/NCBI谷歌学术搜索
12.Fischer J, Wadewitz P, Hammerschmidt K. 声学通信中的结构变异性和交际复杂性。动画行为。2017;134: 229–237.
查看文章谷歌学术搜索
13.Kaufman S,Rosset S,Perlich C.数据挖掘中的泄漏:制定,检测和避免。第 17 届 ACM SIGKDD 知识发现和数据挖掘国际会议论文集 — KDD '11。美国加利福尼亚州圣地亚哥:ACM出版社;2011.第556页。https://doi.org/10.1145/2020408.2020496
14.Ribeiro MT,Singh S,Guestrin C.“我为什么要相信你?”:解释任何分类器的预测。第 22 届 ACM SIGKDD 知识发现和数据挖掘国际会议论文集.纽约:计算机协会;2016.第1135–1144页。https://doi.org/10.1145/2939672.2939778
15.费舍尔·实验的设计。纽约:哈夫纳;1935.
16.好的P.检验假设。假设的排列、参数和自举检验。纽约:施普林格;2005.第33–65页。DOI:10.1007/0-387-27158-9_3
17.Mundry R,Sommer C.非独立数据的判别函数分析:后果和替代方案。动画行为。2007;74: 965–976.
查看文章谷歌学术搜索
18.Crockford C, Gruber T, Zuberbühler K. 黑猩猩安静的胡变种因上下文而异。科学开放科学 2018;5: 172066.密码:29892396
查看文章PubMed/NCBI谷歌学术搜索
19.勒鲁 M, 博斯哈德 AB, 钱迪亚 B, 曼瑟 A, 祖伯布勒 K, 汤森德 SW. 黑猩猩将喘息声与食物叫声组合成更大的结构。动画行为。2021;179: 41–50.
查看文章谷歌学术搜索
20.Collier K, Radford AN, Stoll S, Watson SK, Manser MB, Bickel B, et al.侏儒猫鼬警报呼叫:调查复杂的非人类动物呼叫。生物学进展 R 社会 B 生物学. 2020;287: 20192514.密码:32962548
查看文章PubMed/NCBI谷歌学术搜索
21.加西亚 M, 特尼森 F, 塞贝 F, 克拉维尔 J, 拉维尼亚尼 A, 马林-库德拉兹 T, 等.物种辐射过程中通信信号和信息的演变。纳特公社。2020;11: 4970.密码:33009414
查看文章PubMed/NCBI谷歌学术搜索
22.萨胡PK,坎贝尔KA,奥普雷亚A,菲尔莫尔LS,斯特迪CB。比较斑马雀距离呼叫的分类方法。声学报 2022;151:3305–3314。密码:35649952
查看文章PubMed/NCBI谷歌学术搜索
23.Aodha OM, Gibb R, Barlow KE, Browning E, Firman M, Freeman R, et al.蝙蝠侦探 - 用于蝙蝠声学信号检测的深度学习工具。公共科学图书馆计算生物学. 2018;14: e1005995.密码:29518076
查看文章PubMed/NCBI谷歌学术搜索
24.Clink DJ,Klinck H. GIBBONFINDR:用于检测和分类声学信号的R包。arXiv;2019.
查看文章谷歌学术搜索
25.Stowell D. 计算生物声学与深度学习:回顾和路线图。皮尔·2022;10: e13152.密码:35341043
查看文章PubMed/NCBI谷歌学术搜索
26.Valletta JJ, Torney C, Kings M, Thornton A, Madden J. 机器学习在动物行为研究中的应用。动画行为。2017;124: 203–220.
查看文章谷歌学术搜索
27.Maaten L van der, Hinton G Visualizing Data using t-SNE.J Mach Learn Res. 2008;9: 2579–2605.
查看文章谷歌学术搜索
28.McInnes L,Healy J,Melville J. UMAP:用于降维的均匀流形近似和投影。arXiv;2020.
查看文章谷歌学术搜索
29.Goffinet J, Brudner S, Mooney R, Pearson J. 低维学习特征空间量化了声乐曲目中的个体和群体差异。电子生活。2021;10: e67855.pmid:33988503
查看文章PubMed/NCBI谷歌学术搜索
30.史密斯-维达雷 G, 阿拉亚-萨拉斯 M, 赖特 TF.在社区筑巢的鹦鹉的接触呼叫中,个体签名超过了社会群体身份。行为生态 2020;31: 448–458.
查看文章谷歌学术搜索
31.Valente D, De Gregorio C, Torti V, Miaretsoa L, Friard O, Randrianarison RM, et al. 在低维结构中寻找意义:随机邻居嵌入应用于Indri indri声乐曲目的分析。动物。2019;9: 243.密码:31096675
查看文章PubMed/NCBI谷歌学术搜索
32.Valente D, Miaretsoa L, Anania A, Costa F, Mascaro A, Raimondi T, et al. Indri (Indri indri) 和 Diademed Sifaka(Propithecus diadema)声乐曲目的比较分析.国际 J 灵长类动物。2022;43: 733–751.
查看文章谷歌学术搜索
33.塞恩伯格 T, 蒂尔克 M, 根特纳 TQ.查找、可视化和量化不同动物声乐曲目的潜在结构。公共科学图书馆计算生物学. 2020;16: e1008228.密码:33057332
查看文章PubMed/NCBI谷歌学术搜索
34.Thomas M, Jensen FH, Averly B, Demartsev V, Manser MB, Sainburg T, et al.生成动物发声的无监督、基于频谱图的潜在空间表示的实用指南。动画生态学报 2022;91:1567–1581。pmid:35657634
查看文章PubMed/NCBI谷歌学术搜索
35.Bermejo M, Omedes A. 在利伦古(刚果民主共和国)的野生倭黑猩猩(Pan paniscus)的初步声乐曲目和声乐交流。叶灵长类动物 国际 J 灵长类动物。1999;70: 328–357.密码:10640882
查看文章PubMed/NCBI谷歌学术搜索
36.德瓦尔·圈养倭黑猩猩(Pan paniscus)的交流曲目与黑猩猩相比。行为。1988;106: 183–251.
查看文章谷歌学术搜索
37.Keenan S, Mathevon N, Stevens JMG, Nicolè F, Zuberbühler K, Guéry J-P, et al.个人声乐特征的可靠性因倭黑猩猩的分级曲目而异。动画行为。2020;169: 9–21.
查看文章谷歌学术搜索
38.阿加迈特, 张春杰, 奥斯曼斯基, 王鑫.对普通狨猴(Callithrix jacchus)声乐曲目的定量声学分析。爱可声学报 2015;138: 2906–2928.密码:26627765
查看文章PubMed/NCBI谷歌学术搜索
39.Bjorck J, Rappazzo BH, Chen D, Bernstein R, Wrege PH, Gomes CP. 非洲森林象被动声学监测的自动检测和压缩.Proc AAAI Conf Artif Intell.2019;33: 476–484.
查看文章谷歌学术搜索
40.钟 M, 卡斯特罗特 M, Dodhia R, Lavista Ferres J, Keogh M, Brewer A. 使用深度学习神经网络模型的白鲸声学信号分类。2020;147:1834–1841。密码:32237822
查看文章PubMed/NCBI谷歌学术搜索
41.埃利·JE,特尼森·驯化斑胸草雀的声乐曲目:一种数据驱动的方法,用于破译通信信号的信息承载声学特征。动画Cogn. 2016;19: 285–315.pmid:26581377
查看文章PubMed/NCBI谷歌学术搜索
42.普拉特 Y, 陶布 M, 普拉特 E, 约维尔 Y.埃及果蝠在不同上下文和发声过程中发声的注释数据集。科学数据。2017;4: 170143.pmid:28972574
查看文章PubMed/NCBI谷歌学术搜索
43.Pellegrini T. 基于深度学习的中非灵长类物种分类与混合和SpecAugment。2021年演讲间。ISCA;2021.第456–460页。
查看文章谷歌学术搜索
44.普雷莫利 M, 巴吉 D, 比安切蒂 M, 格努蒂 A, 邦达斯基 M, 马斯蒂努 A, 等.使用机器学习技术和卷积神经网络自动分类小鼠发声。Cymbalyuk G 编辑。公共图书馆一号。2021;16: e0244636.密码:33465075
查看文章PubMed/NCBI谷歌学术搜索
45.Ludovico LA,Ntalampiras S,Presti G,Cannas S,Battini M,Mattiello S. CatMeows:一个公开可用的猫发声数据集。在:Loko? J,Skopal T,Schoeffmann K,Mezaris V,Li X,Vrochidis S等,编辑。多媒体建模。湛:施普林格国际出版社;2021.第230–243页。https://doi.org/10.1007/978-3-030-67835-7_20
46.科隆纳JG,中村EF,罗索OA。无监督生物声学信号分割的特征评估。专家系统应用2018;106:107–120。
查看文章谷歌学术搜索
47.Stowell D, Petrusková T, ?álek M, Linhart P. 多个物种个体的自动声学识别:改进跨记录条件的识别。J R Soc 接口。2019;16: 20180940.pmid:30966953
查看文章PubMed/NCBI谷歌学术搜索
48.Filippidou F, Moussiades L. Α IBM、Google 和 Wit 自动语音识别系统的基准测试。在:Maglogiannis I,Iliadis L,Pimenidis E,编辑。人工智能应用与创新。湛:施普林格国际出版社;2020.第73–82页。https://doi.org/10.1007/978-3-030-49161-1_7
49.自然保护联盟。世界自然保护联盟濒危物种红色名录。版本 2022–1。2022 [引用日期29-2022-<>].可用: https://www.iucnredlist.org/en
50.Clay Z, Zuberbühler K. 倭黑猩猩中与食物相关的叫声序列。动画行为。2009;77: 1387–1396.
查看文章谷歌学术搜索
51.Schamberg I, Cheney DL, Clay Z, Hohmann G, Seyfarth RM. 倭黑猩猩使用呼叫组合来促进党派间旅行招募。行为生态社会生物学。2017;71.
查看文章谷歌学术搜索
52.Oikarinen T, Srinivasan K, Meisner O, Hyman JB, Parmar S, Fanucci-Kiss A, et al.使用双录音进行动物声音分类和来源归属的深度卷积网络。2019;145:654–662。密码:30823820
查看文章PubMed/NCBI谷歌学术搜索
53.Keenan S, Mathevon N, Stevens JM, Guéry JP, Zuberbühler K, Levréro F. 倭黑猩猩的持久语音识别。科学代表 2016;6: 22046.pmid:26911199
查看文章PubMed/NCBI谷歌学术搜索
54.Bouchet H, Blois-Heulin C, Pellier A-S, Zuberbühler K, Lemasson A. 红顶曼加贝(Cercocebus torquatus)声乐曲目中的声学变异性和个体独特性。比较心理学杂志. 2012;126: 45–56.密码:21875177
查看文章PubMed/NCBI谷歌学术搜索
55.Leliveld LMC,Scheumann M,Zimmermann E.夜间灵长类动物(Microcebus murinus)声乐曲目中个性的声学相关性。爱可声学报 2011;129: 2278–2288.密码:21476683
查看文章PubMed/NCBI谷歌学术搜索
56.Boersma P,Weenink D. Praat:通过计算机进行语音学。2017. 可用: http://www.praat.org/
57.Wilden I,Herzel H,Peters G,Tembrock G.哺乳动物发声中的次谐波,双音和确定性混沌。生物声学。1998;9: 171–196.
查看文章谷歌学术搜索
58.Riede T,Owren MJ,Arcadi AC.普通黑猩猩(Pan穴居人)喘息声中的非线性声学:频率跳跃,次谐波,双音和确定性混沌。Am J Primatol。2004;64: 277–291.密码:15538766
查看文章PubMed/NCBI谷歌学术搜索
59.Wadewitz P, Hammerschmidt K, Battaglia D, Witt A, Wolf F, Fischer J. 表征声乐曲目 - 硬与软分类方法。普罗波纳斯VJ编辑。公共图书馆一号。2015;10: e0125785.密码:25915039
查看文章PubMed/NCBI谷歌学术搜索
60.弗莱彻·动物生物声学。在:Rossing TD,编辑。施普林格声学手册。纽约州纽约:施普林格;2014.第821–841页。https://doi.org/10.1007/978-1-4939-0755-7_19
61.Bellegarda JR,Monz C.语言和语音处理统计方法的最新技术。计算语音朗. 2016;35: 163–184.
查看文章谷歌学术搜索
62.斯皮尔曼B,范沙伊克CP,塞蒂亚TM,萨贾迪SO。我该说谁在打电话?婆罗洲法兰雄性猩猩(Pongo pygmaeus wurmbii)长呼叫中呼叫者识别程序的验证。生物声学。2017;26: 109–120.
查看文章谷歌学术搜索
63.Watson CI,Harrington J.澳大利亚英语元音中动态共振峰轨迹的声学证据。J Acoust Soc Am. 1999;106: 458–468.密码:10420636
查看文章PubMed/NCBI谷歌学术搜索
64.Elvin J, Williams D, Escudero P. 西悉尼澳大利亚英语中单音和双元音的动态声学特性。2016;140: 576–581.密码:27475179
查看文章PubMed/NCBI谷歌学术搜索
65.卢塞乌·剪影:用于解释和验证聚类分析的图形辅助工具。计算应用数学学报 1987;20: 53–65.
查看文章谷歌学术搜索
66.Clink DJ, Bernard H, Crofoot MC, Marshall AJ.研究雌性婆罗洲长臂猿(Hylobates muelleri)大叫声的个体声音特征和地理变异的小规模模式。国际 J 灵长类动物。2017;38: 656–671.
查看文章谷歌学术搜索
67.法瓦罗 L, 甘巴 M, 阿尔菲力 C, 佩萨尼 D, 麦克埃利戈特 AG.非洲企鹅(Spheniscus demersus)的声音个性线索:一种源过滤器理论方法。科学代表 2015;5: 17255.密码:26602001
查看文章PubMed/NCBI谷歌学术搜索
68.李春华, 周春华, 韩春贤, 黄瑞忠.使用平均MFCC和线性判别分析自动识别动物发声。模式识别莱特. 2006;27: 93–101.
查看文章谷歌学术搜索
69.李 Y, 夏 C, 劳埃德 H, 李 D, 张 Y. 使用不同的分析技术识别雄性杜鹃的声音个性.禽研究 2017;8: 21.
查看文章谷歌学术搜索
70.马塞文 N, 科拉莱克 A, 韦尔德勒 M, 格利克曼 SE, 尤尼森 FE.鬣狗的笑声告诉了什么:性别,年龄,支配地位和个人签名在Crocuta crocuta的咯咯笑声中。BMC 生态学 2010;10: 9.密码:20353550
查看文章PubMed/NCBI谷歌学术搜索
71.Oyakawa C, Koda H, Sugiura H. 声学特征有助于野生敏捷长臂猿(Hylobates agilis agilis)歌曲的个性。Am J Primatol。2007;69: 777–790.密码:17294430
查看文章PubMed/NCBI谷歌学术搜索
72.程杰, 谢斌, 林春, 季林.鸟类的比较研究:使用四种机器学习方法和两种声学特征的呼叫类型独立物种和个体识别。生物声学。2012;21: 157–171.
查看文章谷歌学术搜索
73.Clink DJ, Crofoot MC, Marshall AJ.应用半自动声指指纹方法来监测马来西亚沙巴实验碎片化景观中的婆罗洲长臂猿雌性。生物声学。2019;28: 193–209.
查看文章谷歌学术搜索
74.Versteegh M, Kuhn J, Synnaeve G, Ravaux L, Chemla E, C?sar C, et al.灵长类动物叫声的分类和自动转录。J Acoust Soc Am. 2016;140: EL26–EL30.密码:27475207
查看文章PubMed/NCBI谷歌学术搜索
75.德泽卡什 G, 祖伯布勒 K, 达维拉-罗斯 M, 达尔 CD.一种机器学习方法,用于处理野生黑猩猩的婴儿求救呼叫和母性行为。动画杂志 2021;24: 443–455.pmid:33094407
查看文章PubMed/NCBI谷歌学术搜索
76.弗里德曼·贪婪函数近似:梯度提升机。Ann Stat. 2001;29: 1189–1232.
查看文章谷歌学术搜索
77.Chen T, Guestrin C. XGBoost: A Scalable Tree Boost System.第 22 届 ACM SIGKDD 知识发现和数据挖掘国际会议论文集.旧金山,参谋大学;2016.第785–794页。
查看文章谷歌学术搜索
78.Chen T, He T, Benesty M, Khotilovich V, Tang Y, Cho H, et al. xgboost: Extreme Gradient Boosting.2022. 可用: https://CRAN.R-project.org/package=xgboost
79.Shwartz-Ziv R,Armon A. 表格数据:深度学习并不是你所需要的全部。融合。2022;81: 84–90.
查看文章谷歌学术搜索
80.LeCun Y,Kavukcuoglu K,Farabet C.卷积网络和在视觉中的应用。2010年IEEE电路与系统国际研讨会论文集.2010.第253–256页。
查看文章谷歌学术搜索
81.Chowdhery A, Narang S, Devlin J, Bosma M, Mishra G, Roberts A, et al. PaLM: Scaling Language Modeling with Pathways.arXiv;2022.
查看文章谷歌学术搜索
82.勒鲁 M, 阿尔-胡德海里 OG, 佩罗尼 N, 汤森德 SW. 黑猩猩的声纹?来自人声迁移学习实验的见解。arXiv;2021.
查看文章谷歌学术搜索
83.Robakis E, Watsa M, Erkenswick G. 使用神经网络对灵长类动物长呼叫中的生产者特征进行分类。爱可声学报 2018;144: 344–353.密码:30075650
查看文章PubMed/NCBI谷歌学术搜索
84.Rhys H. Machine Learning with R, tidyverse, and mlr.谢尔特岛,参谋大学:曼宁出版社;2020.
85.手DJ,直到RJ。多类分类问题的 ROC 曲线下面积的简单概括。马赫学习。2001;45: 171–186.:1010920819831
查看文章谷歌学术搜索
86.Hesterberg T,Monaghan S,Moore D,Clipson A,Epstein R.Bootstrap方法和排列测试。在:Duckworth WM,McCabe GP,Moore DS,Sclove SL,编辑。统计实践导论.纽约:W.H.弗里曼;2003.
87.埃利·JE,特尼森·斑马雀使用每种呼叫类型特有的声音签名来识别个体。纳特公社。2018;9: 4026.密码:30279497
查看文章PubMed/NCBI谷歌学术搜索
88.鲍尔 E, 科哈维 R.投票分类算法的实证比较:装袋、提升和变体。马赫学习。1999;36: 105–139.:1007515423169
查看文章谷歌学术搜索
89.Hammerschmidt K,Fischer J. Baboon声乐曲目和灵长类动物声音多样性的演变。J 哼哼。2019;126: 1–13.密码:30583838
查看文章PubMed/NCBI谷歌学术搜索
90.莱曼 KDS, 詹森 FH, 格西克 AS, 斯特兰德堡-佩什金 A, 霍勒坎普 KE.斑鬣狗的长距离发声包含个体特征,但不包含群体特征。生物学进展 R 社会 B 生物学 2022;289: 20220548.pmid:35855604
查看文章PubMed/NCBI谷歌学术搜索
91.Rodríguez-Algarra F,Sturm BL,Dixon S.通过干预表征音乐分类实验中的混杂效应。反式国际音乐2019;2: 52–66.
查看文章谷歌学术搜索
92.Townsend SW, Deschner T, Zuberbühler K. 雌性黑猩猩(Pan troglodytes schweinfurthii)的交配呼叫传达了身份,但不能准确反映生育能力。国际 J 灵长类动物。2011;32: 914–923.
查看文章谷歌学术搜索
93.Levréro F,Mathevon N.野生婴儿黑猩猩的声音签名:小黑猩猩的声音签名。Am J Primatol。2013;75: 324–332.密码:23229622
查看文章PubMed/NCBI谷歌学术搜索
94.费杜雷克 P, 祖伯布勒 K, 达尔 CD.类人猿话语中的顺序信息。科学代表 2016;6.密码:27910886
View ArticlePubMed/NCBIGoogle Scholar
95.Linhart P, Mahamoud-Issa M, Stowell D, Blumstein DT. The potential for acoustic individual identification in mammals. Mamm Biol. 2022.
View ArticleGoogle Scholar
96.Knight EC, Poo Hernandez S, Bayne EM, Bulitko V, Tucker BV. Pre-processing spectrogram parameters improve the accuracy of bioacoustic classification using convolutional neural networks. Bioacoustics. 2020;29: 337–355.
View ArticleGoogle Scholar
97.吉布 R, 布朗宁 E, 格洛弗-卡普弗 P, 琼斯 KE.被动声学在生态评估和监测中的新机遇和挑战。方法生态学.2019;10: 169–185.
查看文章谷歌学术搜索
98.Kvsn RR,Montgomery J,Garg S,Charleston M.生物声学数据分析 - 分类法,调查和开放挑战。IEEE Access.2020;8: 57684–57708.
查看文章谷歌学术搜索
99.麦克劳林议员,斯图尔特·自动生物声学:生态学和保护方法及其在动物福利监测方面的潜力。J R Soc 接口。2019;16: 20190225.密码:31213168
查看文章PubMed/NCBI谷歌学术搜索
100.Xu Q, Likhomanenko T, Kahn J, Hannun A, Synnaeve G, Collobert R. 语音识别的迭代伪标签。2020年演讲间。ISCA;2020.第1006–1010页。
查看文章谷歌学术搜索
101.科尔斯多夫 D, 赫辛 D, 斯塔纳 T.用于海豚音频通信的自动编码器。2020年神经网络国际联合会议(IJCNN)。2020.第1-7页。
查看文章谷歌学术搜索
102.Pandeya YR,Kim D,Lee J.使用深度神经网络学习特征的家猫声音分类。应用科学 2018;8: 1949.
查看文章谷歌学术搜索
103.Ivanenko A, Watkins P, Gerven MAJ van, Hammerschmidt K, Englitz B 使用深度学习对小鼠超声发声的性别和菌株进行分类。公共科学图书馆计算生物学. 2020;16: e1007918.密码:32569292
查看文章PubMed/NCBI谷歌学术搜索
104.Steinfath E, Palacios-Mu?oz A, Rottsch?fer JR, Yuezak D, Clemens J. 使用深度神经网络快速准确地注释声学信号。Calabrese RL,Egnor SR,Troyer T,编辑。电子生活。2021;10: e68837.doi:10.7554/eLife.68837
105.Tachibana RO,Kanno K,Okabe S,Kobayasi KI,Okanoya K. USVSEG:一种用于分割啮齿动物超声发声的可靠方法。公共图书馆一号。2020;15: e0228907.pmid:32040540
查看文章PubMed/NCBI谷歌学术搜索
106.Kahl S,Wood CM,Eibl M,Klinck H. BirdNET:用于鸟类多样性监测的深度学习解决方案。生态通知。2021;61: 101236.
查看文章谷歌学术搜索
107.教务长吉隆坡,杨J,卡斯滕斯BC。迁移学习、系统发育距离和样本量对大数据生物声学的影响。生物Rxiv;2022.
查看文章谷歌学术搜索
108.扎霍里安,贾加尔吉·光谱形状特征与共振峰作为元音的声学相关性。J Acoust Soc Am. 1993;94: 1966–1982.密码:8227741
查看文章PubMed/NCBI谷歌学术搜索
109.Teutenberg J, Watson C, Riddle P. 使用离散余弦变换对 F0 轮廓进行建模和合成。2008年IEEE声学,语音和信号处理国际会议。2008.第3973–3976页。
查看文章谷歌学术搜索
110.R 核心团队。R:统计计算的语言和环境。维埃纳,奥特里奇:R 统计计算基金会;2022. 可用: https://www.R-project.org/
111.Coenen A, Pearce A. 了解 UMAP。2019 [引用日期29-2022-<>]。可用: https://pair-code.github.io/understanding-umap/
112.祖尔 AF, 伊诺 EN, 埃尔菲克 CS.用于数据探索以避免常见统计问题的协议:数据探索。方法生态学.2010;1: 3–14.
查看文章谷歌学术搜索
113.多丁顿 G, 利格特 W, 马丁 A, 普日博基 M, 雷诺兹 DA.绵羊、山羊、羔羊和狼:NIST 1998 说话人识别评估中说话人表现的统计分析。第五届国际口语处理会议(ICSLP 5)。ISCA;1998. P. 论文 1998–0608.doi:0.10/ICSLP.21437-1998
114.Feurer M, Hutter F. 超参数优化.在:Hutter F,Kotthoff L,Vanschoren J,编辑。自动化机器学习。湛:施普林格国际出版社;2019.第3–33页。doi:10.1007/978-3-030-05318-5_1
115.吴杰, 陈晓燕, 张华, 熊立德, 雷华, 邓世华.基于贝叶斯优化的机器学习模型超参数优化.电子科学技术学报. 2019;17: 26–40.
查看文章谷歌学术搜索
116.Bischl B, Richter J, Bossek J, Horn D, Thomas J, Lang M. mlrMBO:基于模型优化昂贵黑盒函数的模块化框架。arXiv;2018.
查看文章谷歌学术搜索
117.霍尔AE,肯纳德·岭回归:非正交问题的偏向估计。技术计量学。1970;12: 55–67.
查看文章谷歌学术搜索
118.Kuhn M. 使用插入符号包在 R 中构建预测模型。J 统计软件。2008;28.
查看文章谷歌学术搜索
119.Bischl B, Lang M, Kotthoff L, Schiffner J, Richter J, Studerus E, et al. mlr: Machine Learning in R. J Mach Learn Res. 2016;17: 1–5.
查看文章谷歌学术搜索
120.Venable WN, Ripley BD. Modern Applied Statistics with S.纽约州纽约:施普林格;2002. 可用: https://www.stats.ox.ac.uk/pub/MASS4/
121.Scrucca L, Fop M, Murphy TB, Raftery AE.MCLUST 5:使用高斯有限混合模型进行聚类、分类和密度估计。R J. 2016;8: 289–317.密码:27818791
查看文章PubMed/NCBI谷歌学术搜索
122.Mahto A. splitstackshape:在拆分串联值后堆叠和重塑数据集。2019. 可用: https://CRAN.R-project.org/package=splitstackshape
123.Bischl B, Lang M, Schratz P. parallelMap: Unified Interface to Parallelization Back-Ends.2021. 可用: https://CRAN.R-project.org/package=parallelMap
124.Chollet F, Allaire J, Falbel D. R 接口到keras.2022. 可用: https://github.com/rstudio/keras
查看文章谷歌学术搜索
125.Wickham H. ggplot2:用于数据分析的优雅图形。第2版柏林海德堡,阿勒曼:施普林格;2016. https://doi.org/10.1007/978-3-319-24277-4
126.Melville J, Lun A, Djekidel MN, Hao Y. uwot: 用于降维的均匀流形近似和投影 (UMAP) 方法。2022. 可用: https://CRAN.R-project.org/package=uwot
查看文章谷歌学术搜索
127.Chang F, Qiu W, Zamar RH, Lazarus R, Wang X. 线索: 基于局部收缩的非参数聚类的R包.J 统计软件。2010;33: 1–16.
查看文章谷歌学术搜索
128.威克姆 H, 阿弗里克 M, 布莱恩 J, 张 W, 麦高恩 LD, 弗朗索瓦 R, 等.欢迎来到整洁宇宙。J 开源软件。2019;4: 1686.
查看文章谷歌学术搜索
129.Chang W. R6:具有引用语义的封装类。2021. 可用: https://CRAN.R-project.org/package=R6
130.Stekhoven DJ, Bühlmann P. MissForest—混合类型数据的非参数缺失值插补。生物信息学。2012;28: 112–118.pmid:22039212
查看文章PubMed/NCBI谷歌学术搜索
131.Sievert C. 使用 R 的基于 Web 的交互式数据可视化,情节丰富且闪亮。博卡拉顿:CRC出版社;2020.