免费医学论文-用于自动昆虫识别的声音自适应表示
抽象
随着时间的推移,昆虫种群数量和生物多样性一直在迅速下降,监测这些趋势对于有效实施保护措施变得越来越重要。但监测方法往往是侵入性的,时间和资源密集,并且容易出现各种偏见。许多昆虫物种会产生特征性的声音,无需大量成本或精力即可轻松检测和记录。使用深度学习方法,可以自动检测和分类来自现场记录的昆虫声音,以监测生物多样性和物种分布范围。我们使用最近发布的昆虫声音数据集(多达66种直翅目和Cicadidae)和机器学习方法来实现这一点,并评估它们在声学昆虫监测方面的潜力。我们将传统的基于频谱图的音频表示的性能与LEAF(一种新的自适应和基于波形的前端)进行了比较。LEAF通过在训练过程中调整其特征提取参数,实现了比mel频谱图前端更好的分类性能。这一结果对于未来用于自动昆虫声音识别的深度学习技术的实施是令人鼓舞的,特别是随着更大的数据集可用。
作者摘要
昆虫是我们生态系统的重要成员。这些通常很小且躲避的动物对周围环境有很大的影响,人们普遍担心可能的数量下降。但是,可能很难足够详细地监控它们。我们调查了一个未充分利用的昆虫监测证据流:它们的声音。结合深度学习的最新进展,以及新策划的昆虫声音开放数据集,我们能够训练机器学习系统来识别昆虫物种,并具有令人鼓舞的强劲表现。由于昆虫的声音与人类的声音非常不同,我们调查的一个关键部分是将声音的标准(光谱)表示与称为LEAF的自动优化表示进行比较。在三个不同的数据集中,我们发现LEAF导致了更可靠的物种识别。我们的工作表明,声音识别可以有效地作为昆虫监测的新证据流。
数字
Table 5图1表1表2Table 3Fig 2Table 4Fig 3Fig 4Fig 5Table 5图1表1表2
引文: Fai? M,斯托威尔 D (2023) 用于自动昆虫识别的声音自适应表示。公共科学图书馆计算生物学19(10): e1011541. https://doi.org/10.1371/journal.pcbi.1011541
编辑 器: Ricardo Martinez-Garcia,德国高级系统理解中心(CASUS)
收到: 20月 2023, 25;接受: 2023月 4, 2023;发表: <>月 <>, <>
版权: ? 2023 法伊斯,斯托威尔。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 数据集是公开的:InsectSet32 at https://zenodo.org/record/7072196 InsectSet47 & InsectSet66 at https://zenodo.org/record/8252141 软件源代码: InsectSet32 at https://github.com/mariusfaiss/InsectSet32-Adaptive-Representations-of-Sound-for-Automatic-Insect-Recognition InsectSet47 & InsectSet66 https://github.com/mariusfaiss/InsectSet47-InsectSet66-Adaptive-Representations-of-Sound-for-Automatic-Insect-Recognition。
资金: MF得到了Martin&Temminck奖学金(Naturalis生物多样性中心)的支持,该奖学金为他提供了薪水。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 我已经阅读了该期刊的政策,这份手稿的作者有以下竞争利益:DS是PLOS Computational Biology的学术编辑。
介绍
直翅目昆虫是具有最多声音交流能力的动物分支,约有16,000种使用声学信号进行流,甚至更多的物种表现出声学防御信号[1]。直翅目中产生声音的主要模式是喘鸣,其中身体部位相互摩擦以产生可听见的振动,一个身体部位有一排细齿,另一个装有拨片,使牙齿振动。蝉科的3200种中的大多数通过快速变形鼓膜产生声音,产生一系列响亮的咔嗒声,使鼓室产生共振[2-4]。其中许多声音是物种特异性的,在某些情况下是物种识别的关键标准[5]。
昆虫种群数量的下降一直受到科学界和公众的广泛关注,但其中许多报告仅对少数代表性物种进行采样或关注有限的地理位置[6,7]。为了实施有效的保护工作,需要更密切,更广泛地监测物种和地理位置的种群[6]。昆虫,特别是直翅目和Cidada,是一个难以用常规监测方法(如目视调查和各种诱捕策略)检测的群体[8]。这主要是由于它们在热带雨林等经常难以接近和困难的环境中体积小,伪装和神秘的生活方式[9]。这些物种可能更容易通过它们产生的声音来检测。以直翅目为重点的声学监测方法已成功用于检测物种的存在和不存在,确定分布范围,检测其他神秘物种[10]以及评估栖息地的质量和恶化,因为它们可以作为指示物种[11]。此外,这种方法大多是非侵入性的,不像其他常见的监测方法那么复杂[8],并且可以高度自动化[9]。相比之下,视频监控高度依赖于照明条件和与被摄体的直接视觉接触,并且消耗更多的能量和数据存储[12]。
在本工作中,我们开发了一种用于直翅目和蝉类的声学分类的稳健方法,使用可以适应目标昆虫声学特征的深度学习方法。之前通过声音识别直翅目动物的一些尝试主要集中在手动提取声音特征,如载波频率或脉搏率[10,13]。在用于自动分类之前,必须手动选择这些要素并定义其参数。然而,选定的特征和参数可能并非在所有情况下都表现良好,例如当背景噪声干扰波形特征测量时,当非目标物种产生非常相似的声音时,或者当目标物种显示某些参数的强烈变化时[14]。例如,记录过程中的环境温度会影响直翅目鸣叫的频率,因为直翅目是温热生物[15]。直翅目在歌曲制作过程中随着环境温度调节肌肉收缩的速度。这导致大多数直翅目动物的声音频率更高,尤其是脉率增加,温度越高[15,16]。温度等辅助因素可以作为许多分类算法的输入;然而,这种变化使特征提取任务复杂化。Hao等人[14]探索了一种避免手动指定声学特征的替代方法,通过使用基于压缩的一般距离计算来定义频谱图斑块之间的“纹理”相似性度量。但是,据我们所知,自动优化输入数据的表示参数的方法仍未得到探索,尤其是与神经网络一起使用时。
深度学习方法是声学监测任务的最新有前途的方法,因为它们可以高精度地对复杂的声学信号进行分类,并且几乎不需要对输入数据进行手动预处理[17]。结合声音事件检测 (SED),可以对长篇现场记录进行分类,而无需手动提取要识别的特征或相关剪辑。然而,有许多挑战需要克服,有些是实际的,有些与特定的物种特征有关。为了应用机器学习方法,需要大型、多样化和平衡的注释数据集来训练和测试算法。
在将录音输入神经网络进行分析之前,必须将高分辨率波形简化为可由神经网络处理和解释的特征空间[18,19]。音频分类任务的常见方法历来受到人类对频率和响度的感知的启发。这部分是由于许多早期音频分类任务的重点,这些任务被大量研究:语音或语言识别,或基于音乐的分析任务[19]。这些任务的所有相关声学信息都包含在人类听觉感知中并针对人类听觉进行了优化,反之亦然。人类在非线性尺度上体验频率和响度[20]。频率向较低频谱的线性变化通常听起来更明显,而应用于较高寄存器的频率差异对于人耳来说是无法检测到的。在压缩信号的频谱能量以在神经网络中进行分析时,使用所谓的mel滤波器库来应用人类感知的这些特征。
首先,使用短时傅里叶变换(STFT)将输入音频波形转换为频谱图,将信号剖析为纯正弦波频率及其各自的能量[18,20]。然后,应用由三角带通滤波器组成的梅尔滤波器组,在采样频谱上沿对数刻度间隔。这些滤波器使用窗口功能汇集其范围内所有频率的能量。这将分辨率从高采样率降低到易于分析的多个频率箱。在此之后,应用响度压缩,也是基于人类听力的非线性[18],产生mel频谱图,基本上可以被神经网络视为图像。这些处理方法,尤其是滤波器组,依赖于手工制作的参数,这些参数可能与特定任务中要分析的声音没有任何关系。例如,对数频率缩放在较低频率范围内产生高频谱分辨率,但在较高寄存器中将越来越大的频率范围组合在一起,从而可能掩盖相关的高频信息,并在较低频段不一定包含相关信息时专注于较低频段(图1)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 格里勒斯坎佩斯特里斯相同录音的两个频谱图。
频谱图A以Hz为单位线性显示频率轴。 频谱图B使用mel频率标度,该频率标度压缩频率轴以在较低频段中显示比在较高频段中更高的分辨率,从而模仿人类对频率的感知。两个频谱图显示相同的频率频谱。由于此记录中大部分是高频信息和空低频,因此与线性频谱图A相比,mel频谱图B掩盖了大量信息。
https://doi.org/10.1371/journal.pcbi.1011541.g001
昆虫的声音不像哺乳动物或鸟类那样使用源滤波器机制产生,而是使用阶鸣或鼓室机制产生不同的频率和泛音结构[2-4,16,21,22]。这些声音通常是非谐波、宽带嗡嗡声和啁啾声,带有幅度调制,长度长达数分钟,或小于1 ms的更短的咔嗒声[16,23]。一般来说,昆虫的声音频率远高于大多数哺乳动物或鸟类的声音,许多物种产生超声波,有些高达150kHz[2,23,24]。这种对高频声音的强调,有时完全超出人类听觉范围(~20 Hz-20 kHz),可能会影响音频分类网络的性能,具体取决于其方法。基于人类感知的mel-filter bank方法很可能不是识别和区分许多昆虫声音高频细微差异的最佳方法,即使它对鸟鸣等其他声音足够有效。尽管如此,以前许多通过声音对直翅目和蝉进行分类的尝试都使用了各种版本的梅尔频谱图,有时与其他手工特征或频谱图修改相结合[25-27]。
深度学习的最新工作引入了自适应的、基于波形的方法,如LEAF [18],用参数变换代替预定义的频谱图计算,其参数与网络的其余部分同时优化。这些可能会优化它们对音频特征的提取,以更好地适应昆虫的声音。LEAF前端允许在训练期间调整滤波器频率和带宽以及归一化和时间池参数以适应数据[18]。该前端已在涉及以人为中心的声音(如语言、音乐、情感、说话人识别等)的各种音频分类任务上进行了评估,并且在许多情况下显示出比标准 Mel 频谱图方法更高的性能[18]。但到目前为止,它还没有被评估到涉及不太适合人类声音感知的声源的分类任务。对于像昆虫物种识别这样的用途,它们的音调和结构与人类声音不同,这种前端可能特别有利。它可以通过学习在较高频率范围内提高频谱分辨率,选择和关注有意义的频段来适应昆虫声音的特征,否则这些频段会汇集在一起,并学习如何理想地单独汇集和压缩这些频段。因此,Mel滤波器组方法中存在的较低频率范围内的高分辨率可以降低或完全省略,因为它很少存在于昆虫声音中[23]。
深度学习方法在昆虫声音分类方面的潜力尚未得到广泛研究,尤其是它们在自适应前端和扩展采样率/频率范围下的性能。在目前的工作中,两种不同的机器学习方法的性能将在昆虫录音的物种分类中进行测试,一次只有一个物种存在。数据增强方法将引入复杂的环境条件,例如与记录器的距离或背景噪声,以增加数据集的多样性并提高网络的通用性。目标是探索使用深度学习方法对直翅目和蝉科进行分类的潜力,并评估自适应前端在非人类高频声音的特征提取方面的潜在优势。
方法
我们测试了两种音频特征提取方法作为卷积神经网络前端的性能。我们将经典的mel频谱图前端与自适应和基于波形的前端LEAF进行了比较。它在训练前被初始化为类似于 mel 前端的功能,但其参数可以在训练期间进行调整 [18]。作为后端分类器,实现并调整了针对音频分类优化的卷积神经网络[28]。前端在三个越来越大的昆虫记录数据集上进行了测试。
昆虫套装32
由于更大的昆虫记录集合最近才公开可用,用于初始测试的数据集(“InsectSet32”)是从直翅目和蝉科记录的私人集合中编译的(Baudewijn Odé的直翅目数据集和Ed Baker的蝉科数据集,其中包括来自Bioacoustica上的全球蝉声音收藏的录音[29],包括发表在[30,(第31页))。 这些记录是在现场以及实验室环境中使用各种记录设备进行的。仅包括采样率为 44.1 kHz 或更高的 WAV 音频格式文件。所有文件都转换为单声道,并通过更高分辨率的下采样记录将采样率标准化为 44.1 kHz。这些文件被手动试听,以排除包含强烈噪声干扰、多种声音或其他音频失真和音损的文件。许多录音在录音开始时都包括画外音评论。仅使用这些录音中的最后十秒音频,以自动排除评论。只有具有至少四个可用录音的物种才被纳入最终数据集。总共选择了32个物种,335个文件,总记录长度为57分1秒(表22)。在物种之间,文件的数量从 40 到 <> 个文件不等,单个物种的音频材料长度从 <> 秒到近 <> 分钟不等。这些文件的长度从不到一秒到几分钟不等。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. InsectSet32:从两个不同的源数据集(Baudewijn Odé的直翅目数据集和Ed Baker的Cicadidae数据集)中选择来自335个物种的32个文件,总记录长度为57分<>秒。
每个物种的文件数(n)和记录总长度(分钟:s)。
https://doi.org/10.1371/journal.pcbi.1011541.t001
为了训练和评估两个前端,InsectSet32被分为训练集、验证集和测试集[12]。由于某些类中的文件数量较少,因此对所有类分别拆分为三个子集,以确保每个类在所有三个子集 (tr/val/te) 中表示并防止数据泄漏。由此产生的拆分占用于训练的文件的 62.7%,用于验证的 15.2%,用于测试的 22.1%。该数据集可在 zenodo.org 公开获得[32]。
昆虫套装47
在对InsectSet32进行初步测试后,专家和公民科学家在 xeno-canto.org 上发表了大量高质量的直翅目记录。从该集合中,下载并手动试听采样率至少为 44.1 kHz 的 WAV 文件,以编译更多样化的数据集以及来自 InsectSet32 的录音。许多录音已被上传者过滤或上采样至44.1 kHz,这在某些频率区域(由于最初采样率较低,通常高于16 kHz)缺乏音频信息。仅选择了全频谱记录。
这些文件包括单个昆虫叫声的声音片段,长度只有几秒钟,以及长达20分钟的昆虫鸣叫的长期录音。许多较长的档案包括没有昆虫声音的沉默期。为了排除这些静默句点,将包含不超过五秒的昆虫声音的句点的文件编辑为一个或多个仅包含昆虫声音的文件。来自一个原始记录的编辑片段被视为一个音频示例,以防止它们在模型训练和评估过程中最终出现在多个数据子集中(训练、测试、验证)。数据集中仅包含至少十个可用记录的物种。用于InsectSet32的源数据集的记录(由Baudewijn Odé和Ed Baker)也包括在此选择过程中。由于 Dataset47 使用了更详细的编辑过程,这次收集了更多的音频材料,但由于每个物种的最小文件数更高,因此包含的物种更少。因此,InsectSet32仅部分包含在Insectset47中。总体而言,InsectSet47选择了47个物种,共有1006个文件,总记录时间为22小时(表2)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. InsectSet47:主要从 xeno-canto.org 中选择了来自1006个物种的47个文件,总记录时间为22小时,以及两个私人收藏(Baudewijn Odé的直翅目数据集和Ed Baker的蝉科数据集)。
每个物种的文件数(n)和记录总长度(分钟:s)。
https://doi.org/10.1371/journal.pcbi.1011541.t002
昆虫套装66
InsectSet47 被扩展为包括更多物种和音频示例以及来自 iNaturalist.org 的公民科学家录音。与以前的源收藏相比,许多录音被过滤、数据压缩或大量编辑,包括时间拉伸和音调转换。未选择这些文件。此外,大量录音作为单独的观察结果多次提交。这些记录只在最终数据集中包括一次,除非它们被记录为多个不同的物种,在这种情况下,它们被完全排除在外。否则,使用与以前相同的选择过程,数据集扩展到包括66个物种(“InsectSet66”),1554个记录和超过24小时的总长度(表3)。在物种之间,文件的数量从十个文件(最小长度为 80 秒)到单个物种的 152 个文件和近 98 分钟的音频材料不等。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. InsectSet66:从五个不同的源数据集(来自iNaturalist的直翅目和蝉科数据集,来自异种的直翅目数据集,Baudewijn Odé的直翅目数据集和Ed Baker的蝉科数据集)中选择来自1554个物种的66个文件,总记录长度为24小时32分钟。
每个物种的文件数(n)和记录总长度(h:min:s)。
https://doi.org/10.1371/journal.pcbi.1011541.t003
InsectSet47和InsectSet66被分为训练集、验证集和测试集,同时确保所有三个数据集中每个物种的音频文件和音频材料的分布大致相等。为了实现这一点,文件分别按每个物种的文件长度排序。然后通过遵循重复模式将它们分发到三个数据集中。两个最长的文件被移动到训练集中,第三大文件被移动到验证集中,第四大文件被移动到测试集中。位置 1 和 2 的文件再次分配给训练集,第七大文件分配给验证集,第八大文件分配给测试集。将第九个和第十个文件移动到训练集中,如果文件超过十个,则对其余文件重复该模式(3:火车,4:火车,5:val,6:测试,7:火车,8:火车,9:val,10:测试,11:火车,1:火车,60:从20重复)。这导致按文件编号拆分 20/64/19(训练/验证/测试),按文件长度拆分 5/16.5/47.66。InsectSet33和InsectSet<>在 zenodo.org[<>]上公开提供。
数据增强
由于记录的持续时间不同,因此必须将它们分成可以馈送到网络中的固定长度的段。选择了五秒的长度,因为大多数通话要么是短而有节奏的,要么是长而静态的。在数据集中通常不会观察到超过五秒的重复序列,因此假设五秒的长度不会消除呼叫中物种特定的节律特征。短文件被循环播放,直到它们达到五秒的长度。较长的文件按顺序拼接成 3 秒的块,重叠为 75.1 秒。当拆分窗口到达文件的末尾时,只要块的最小剩余时间至少为 25.<> 秒,就会环绕录制的开头以将块延长到 <> 秒。
对于深度学习,通过音频增强的合成过程扩展中等大小的训练数据是标准做法,我们将其应用于所有三个数据集。InsectSet32 的训练集使用 python 包“audiomentations”(github.com/iver56/audiomentations)扩展了十代音频增强。处理步骤包括“频率掩码”,它擦除随机中心频率周围的频率带,带宽作为参数,可以在定义的范围(0.06-0.22)内随机化。应用此增强步骤的几率为 50%。频率掩蔽后,使用“AddGaussianSNR”功能将信号与高斯噪声混合。信噪比在25和80 dB之间随机分配。该比率被调整到从几乎不明显的噪声添加到严重的噪声干扰的范围,而不会掩盖嘈杂源录音中的相关音频信息。这已应用于每个文件。在与噪声混合后,文件通过自然外部环境中记录的脉冲响应(IR)进行增强。这将外部环境的混响和吸收特性引入音频信号,模拟与录音设备的距离。IR是从在不同位置以高采样率进行的记录数据集中选择的[34]。从该数据集中选择来自三个不同外部位置(两个森林位置,一个校园位置)的 70 个 IR,并在增强过程中随机应用,几率为 <>%。红外处理的文件以随机混音比与其原始版本混合,以实现效果严重程度的额外变化,模拟从录音机到声源的不同距离。
对于InsectSet47和InsectSet66,由于音频材料的数量大大增加,使用了在线数据增强。在包“torch_audiomentations”(github.com/asteroid-team/torch-audiomentations)中,使用了“AddColoredNoise”和“ApplyImpulseResponse”功能。他们的参数被调整以模仿较小数据集中使用的增强。不幸的是,软件包中没有与较小数据集上使用的频率掩码功能相似的函数。作为替代方案,改变噪声增强的频率分布的机会被用作频率掩蔽的替代方案。频率功率衰减在–2和1.5之间随机分布。信噪比在 25 到 40 dB 之间随机分配,总体增强概率为 90%。应用脉冲响应的概率为70%,并启用了延迟补偿。使用与较小数据集中相同的IR文件[34]并以随机混合比混合。两种增强均按批次随机化(图2)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 训练集(InsectSet47 和 InsectSet66)上使用的数据增强工作流程示例。噪声以随机信噪比和频率分布添加。
然后以随机混合比施加来自室外位置的脉冲响应。
https://doi.org/10.1371/journal.pcbi.1011541.g002
前端
比较的前端是python软件包Torchaudio(MelSpectrogram)中包含的传统mel频谱图和基于波形的自适应前端LEAF[18]。mel频谱图是在文件输入卷积网络之前根据音频波形生成的。使用LEAF前端时,完整波形直接输入到网络,然后由前端处理,因为可以学习滤波器频率和带宽、每通道压缩和归一化以及低通池化等许多参数,因此需要成为网络的一部分才能从梯度下降学习中受益。两个前端的初始化参数定义尽可能相似,以创建公平的比较。这些文件以 44.1 kHz 的采样率导入。它们由前端从输入形状 [1; 220500](单声道单声道音频;44.1 kHz 持续 1 秒)转换为表示形状 [64; 1500; 64],频率轴上有 1500 个滤波器带,时间轴上有 3 个步长。窗口长度设置为两个前端步幅长度的两倍(步幅:335.6 毫秒,窗口大小:67.0 毫秒)。LEAF前端中使用的滤波器组初始化与mel前端的电平相同,介于22和05.14 kHz之间。输入被分成 <> 个批次并馈送到网络中。
还进行了其他测试,以测试构成LEAF前端的滤波器组和PCEN组件的影响。模型在InsectSet47和InsectSet66上使用与以前相同的模型架构和LEAF前端配置进行训练,但在训练过程中过滤器组或PCEN参数的调整被停用。这意味着在测试用例“leafFB”中,滤波器组参数在训练期间进行了调整,但PCEN组件的压缩参数仍处于初始化状态。在测试用例“leafPCEN”中,滤波器组和时间池参数保持冻结在其初始化状态,而仅训练前端的PCEN压缩参数。
网络
网络后端改编自使用 pyTorch 创建的卷积神经网络,该网络针对音频分类进行了优化 [28]。它由四个卷积层(Conv2d)组成,具有整流线性单元(ReLU)和批量归一化(BatchNorm2d)。在卷积层之后,特征图被池化(AdaptiveAvgPool2d)并展平,最后输入到线性层(线性)中,该线性层返回数据集中包含的每个类的预测值。选择最高的预测值作为每个训练样本的最终预测类。为了避免网络在小型训练数据集上的过度拟合,在最终的线性层上实现了 dropout(dropout 率为 0.4),以及权重的 L2 正则化(权重衰减为 0.001)。InsectSet0和InsectSet23的辍学率降至47.66,因为由于数据复杂性增加,模型拟合不足。第五个卷积层被添加到模型中以进行其他测试。总体而言,具有四层的主模型包含 28,319 个可训练参数,这些参数在训练阶段进行调整,其中包括 LEAF 前端。
在训练过程中,采用早期停止,通过在验证集上运行推理步骤来评估每个 epoch 之后的网络性能。验证集的损失值用于估计网络在最终评估期间在测试集上的表现。每次验证丢失减少时,都会保存当前网络状态。如果验证损失在连续八个 epoch 中没有进一步减少,则停止训练,并对之前 1 个 epoch 中最后一个保存的网络状态执行最终测试评估。这两种方法的准确性取决于测试集中正确分类项目的百分比,以及f12分数、精度和召回率[32]。由于数据集洗牌和网络初始化的训练过程中包含随机性,因此在使用完全相同的参数和数据集的运行之间,训练和评估结果可能会有很大差异。为了在小数据集上获得稳定和可比较的结果,两个模型在InsectSet47上各计算了五次,在InsectSet66和InsectSet47上各计算了三次。在InsectSet66和InsectSet35上训练的性能最好的运行再次训练,并增加了第五卷积层,以测试较大模型对分类性能的影响。用于准备和分类数据的所有脚本都可以在GitHub上公开获得[36,<>]。
结果
昆虫套装32
使用 mel 前端模型的五次运行的分类准确率中位数得分为 62%,不同运行的得分在 57% 到 67% 之间(表 4)。LEAF模型的中位分类准确率为76%,范围为59%至78%(表4)。mel 前端的中位数验证损失为 1.49,而 LEAF 前端的中位数验证损失较低,为 1.24(表 4)。在查看其他性能指标 F1 分数、召回率和精度时,即使是表现最差的 LEAF 运行也优于所有 mel 运行(表 4)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 4. 在三种不同大小的昆虫声音数据集上使用 mel 和 LEAF 前端对所有训练模型进行测试和验证分数。
中位数以及下限和上限是通过使用不同的随机化种子和四个卷积层(InsectSet32 各运行五次,InsectSet47 和 InsectSet66 各运行三次)训练同一模型的多次运行中报告的。性能最佳的模型还使用额外的卷积层进行训练,该卷积层由模型名称中的数字表示。
https://doi.org/10.1371/journal.pcbi.1011541.t004
大多数错误分类(图3)属于InsectSet32中最大的两个属,即Myopsalta和Platypleura(分别为5种和14种,共32种;表 1)。这些属中的物种最常被错误地归类为它们自己属的其他成员。一个特殊的物种,M。狮子座,尽管自己被正确分类,但在其属内造成了许多错误分类。同样,在鸭嘴草属中,该物种标记为P。普卢莫萨和P.sp12cfhirtipennis经常被分配到同一属的其他物种。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 使用最佳运行 mel 前端的测试集中所有 32 个物种的分类结果,分类准确率为 67%。
纵轴显示文件的真实标签,横轴显示预测的标签,按字母顺序排序。突出显示了两个最大的属Platypleura(绿色)和Myopsalta(红色)内的分类,以便与LEAF混淆矩阵进行比较。
https://doi.org/10.1371/journal.pcbi.1011541.g003
显示 LEAF 前端性能的混淆矩阵反映了整体性能更好,因为它显示了更清晰的准确分类对角线,周围错误分类更少(图 4)。Brevisiana brevisis 物种的两个测试文件都被错误地归类为 Platypleura haglundi。物种P.间鞘(两个测试文件)和P。SP11 cfhirtipennis(一个文件)也从未被正确分类,而是与同一属的不同物种混淆。与梅尔前端运行相比,两个最大的属Myopsalta和Platypleura的错误分类集中要不那么明显。特别是,Myopsalta的性能要好得多(图3和4)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 使用LEAF前端的最佳运行以32%的分类准确率执行测试集中所有78个物种的分类结果。
纵轴显示文件的真实标签,横轴显示预测的标签,按字母顺序排序。突出显示了两个最大的属Platypleura(绿色)和Myopsalta(红色)内的分类,以便与mel混淆矩阵进行比较。
https://doi.org/10.1371/journal.pcbi.1011541.g004
LEAF前端采用的滤波器在与mel标度非常匹配的尺度上初始化,但在InsectSet32上训练期间在中心频率和带宽上进行调整(图5)。按中心频率对滤波器进行排序后,它们在很大程度上继续遵循初始化曲线(图5C和5F)。然而,如果不进行排序,很明显许多滤波器是从其原始位置调整的(图5B和5E)。几个滤波器的频率发生了实质性变化,发生在2 kHz左右和15 kHz以上,其中一些滤波器被调整到几千赫兹,特别是初始化时的最高滤波器从22.05 kHz向下移动到大约13 kHz(图5B)。沿频率轴的顺序受到严重干扰,因为中心频率不会像初始化刻度上那样随着滤波器数量的增加而稳定增加(图5B和5E)。这意味着在 LEAF 输出矩阵中,包含频率信息的轴上的相邻值不一定表示相邻频率箱,这在使用手工制作的表示(如 mel 滤波器组)时通常就是这种情况。滤波器密度在0.85 kHz左右(见图5D,≈900 mel)和大约14-15 kHz(图5B)之间增加,但在18和20 kHz(图5B)和2.4 kHz(见图5D,≈1700 mel)之间略有下降。训练后,四个滤波器的位置接近于零 mel/kHz,留下的间隙高达 500 mel (≈ 0.4 kHz),在该数据集中,昆虫声音频率最低(图 5D)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 在InsectSet64上运行性能最佳的LEAF中使用的所有32个滤波器的中心频率。
图 A 和 D 显示了训练前的初始化曲线,该曲线基于 mel 标度。图 B 和 E 显示了训练后每个滤波器与其初始化位置的偏差。图 C 和 F 显示了按中心频率排序的滤波器,并展示了频率范围的总体覆盖范围,但不表示 LEAF 表示中的实际顺序。小提琴图显示了滤波器在频谱上的密度,橙色线显示了初始化曲线以进行比较。
https://doi.org/10.1371/journal.pcbi.1011541.g005
昆虫套装47
在扩展的InsectSet47上,使用mel前端实现的中位分类性能为77%,验证集的中位数损失为0.98。与InsectSet32相比,尽管物种数量增加,但性能有了实质性的提高(表2)。LEAF前端在分类性能方面的提升幅度较小,但在所有三次运行中仍优于mel前端,分类准确率中位数为81%,损失大幅降低至0.72(表4)。然而,与InsectSet32相比,前端之间的差异总体上较小。使用额外的卷积层训练的模型在性能上进一步提高。因此,mel前端的分类性能有了更大的提高,达到85%,而LEAF的性能仅略好一些,达到86%(表4)。
使用这两个前端,直翅目和蝉科之间的错误分类可以忽略不计(S1和S2图)。一般来说,分类错误在密切相关的物种中出现得更频繁。LEAF前端能够通过减少Acrididae属(S1和S2无花果)中的大量错误分类来提高mel前端的性能。在Playtpleura属中,几乎所有的音频示例都是两个物种(P.sp12cfhirtipennis和P.sp13)被归类为P。梅尔前端的梅尔摩萨(S1图)。LEAF前端设法将不正确的分类减少到P。通过损害该物种正确分类的一半,羽毛大约减少了一半(S2图)。
昆虫套装66
在InsectSet66上训练的模型显示出与InsectSet47相似的结果,尽管类的数量有所增加。在这个更大的数据集上,mel前端的中位数分类性能从77%略微提高到78%,而LEAF性能从81%下降到80%(表4)。梅尔前端的中位损失与InsectSet47相同,为0.98,但LEAF前端的损失从InsectSet0的72.47增加到InsectSet0的81.66(表4)。当使用五个卷积层进行训练时,两个前端的性能再次提高,其中 LEAF 前端仅具有 83% 的小优势,而 mel 前端达到 82%(表 4)。对于这两个前端,几乎不存在将直翅目物种错误地分类为半翅目。冬翅目作为直翅目分类确实出现过,但很少见(S3和S4无花果)。一般来说,错误分类最常出现在属内。LEAF和mel的混淆矩阵没有显示出明显的差异或趋势,可能是因为整体分类性能相似。
叶PCEN
leafPCEN前端的训练没有成功,它保留了LEAF的可训练PCEN部分,但冻结了其过滤器组和池化参数。验证精度和损失值表现出较大的峰值,并且没有有效收敛。在InsectSet47上训练了三次运行,但测试集的中位数分类准确率仅为71%,这大大低于标准的LEAF甚至mel前端性能(表4)。正因为如此,前端没有在InsectSet66上进行训练。
叶子
leafFB前端采用可训练的滤波器组,但使用LEAF前端的初始化PCEN组件,性能优于leafPCEN前端,尽管在训练期间偶尔会出现精度和损失值的峰值,但仍收敛。在InsectSet47上,leafFB的中位分类准确率为81%,损失中位数为0.74(表5),性能略好于标准LEAF前端(表4)。在InsectSet66上,性能下降到分类准确率的中位数为79%,中位数损失为0.79(表5),略低于LEAF前端(表4)。在这两个数据集上,观察到运行之间的性能差异更大,这意味着一些leafFB运行的性能确实比LEAF差得多(表4和表5)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 5. 使用 leafFB 前端对训练模型进行测试和验证分数。
中位数以及下限和上限是通过使用不同的随机化种子和四个卷积层训练同一模型的三次运行来报告的。
https://doi.org/10.1371/journal.pcbi.1011541.t005
讨论
这项工作的重点主要是将传统的手工特征提取方法(mel)与自适应和基于波形的方法(LEAF)进行比较,同时还测试了深度学习方法对昆虫声音进行分类的可行性,特别是直翅目和Cicadidae。三个数据集用于此比较,音频文件的数量以及物种的数量不断增加。在所有设置中,自适应前端LEAF的性能都优于mel前端(表4),通过调整其滤波器组和压缩参数以适合数据(图5)。这种影响在最小的数据集InsectSet32上最为明显,其中LEAF的分类准确率为78%,而使用mel的分类准确率为67%(表4)。在扩展的数据集InsectSet47上,尽管物种数量增加,但与InsectSet32相比,两个前端的性能都有所提高。这可能是由于音频示例的数量和长度要高得多,从而使模型能够更好地泛化看不见的数据。然而,前端之间的性能差异减小了。mel前端在最大数据集InsectSet66上的表现总体上与InsectSet47大致相同,即使添加了大量物种,但没有大量的音频材料(表3)。
由于性能似乎在这个水平上趋于平稳,我们假设后端分类器的复杂性达到了极限,并且无法处理较大数据集中包含的全部信息量。这可能会掩盖前端在特征提取性能方面的优势。为了排除这种情况,通过在模型中添加额外的卷积层,对InsectSet47和InsectSet66进行了更多的测试,期望这将使LEAF性能比mel性能增加更多。这种修改在所有情况下都提高了分类性能,但实际上减少了前端之间的差异(表 4)。在InsectSet47上,mel前端从77%大幅提高到85%,而LEAF前端仅从83%提高到86%(表4)。在InsectSet66上,mel前端从78%提高到82%,LEAF从81%提高到83%(表4)。这可能意味着,当只有有限数量的音频示例时,LEAF 前端调整特征提取参数的能力可能更相关。但音频数据的特性也可能影响 LEAF 与 mel 相比的表现。
在更以人为中心的音频分类任务(语言、情感、鸟鸣、音乐等)的类似比较中,LEAF在各种任务上的表现优于mel频谱图,但不是全部,而且在许多情况下,差距比本次比较要小[18]。由于此应用中的声音在结构和频率成分上与人类相关声音有很大不同,因此预计LEAF和mel之间的性能差异将大于以前的比较。LEAF可以学习大量的参数并适应输入数据,而mel前端参数是完全固定的,当不与人类声音一起使用时不一定是理想的。昆虫声音中的相关信息主要位于较高的频谱(5 kHz以上),由于频率汇集越来越宽,梅尔频谱图更加不精确。LEAF前端调整了滤波器中心频率和带宽,以及压缩和时间池参数,以更好地拟合数据并揭示可能被mel前端固定参数掩盖的细节(图5)。
InsectSet32生成的混淆矩阵揭示了两种方法之间的性能差异(图3和4)。使用mel前端,在Platypleura属的物种之间发现了大多数不正确的分类,Platypleura属几乎占数据集中包括的物种的一半,14个中有32个,而第二大属Myopsalta有1个物种(表32)。这两个组构成了InsectSet3中的大部分物种,因此它们更有可能包含大多数错误分类。然而,它们的许多错误分类属于同一属物种的事实表明,它们的声音在结构上可能相似,并且网络难以区分。LEAF前端的训练参数导致这两个属的性能比mel前端好得多,因为这些属内的错误预测较少,而这些属外的错误预测大致相同(图4和47)。InsectSet66和InsectSet32生成的混淆矩阵没有显示mel和LEAF之间的明显差异,因为与InsectSet1相比,前端的整体性能更加相似(图4-32)。由于物种和属的多样性较大,LEAF前端可能没有像InsectSet7中观察到的那样微调其参数以区分密切相关物种的特定声音特征。在这个数据集中,特别是最大的Platypleura属中的物种会产生非常相似的声音。它们通常很嘈杂,大多数频谱能量在 10 到 20 kHz 之间,并且包含大约 50 到 32 Hz 的细微频率调制。 总体而言,InsectSet47 中的鸭嘴兽歌曲在频率内容和音量上非常静态,不容易区分。此外,此数据集中包含的一些标签来自尚未完全确定到物种水平的种群,这可能意味着其中一些代表同一物种的亚种群或非常密切相关的未描述物种。LEAF前端的自适应特性及其多个可调参数可能对这项任务特别有利。mel前端可能已经能够为InsectSet66和4中包含的更多样化的物种形成足够强大的表示。这可以解释LEAF与较大模型组合的优势降低(表<>):音频表示中的细节不是特别需要的,但整个模型的复杂性更高,LEAF也提供了。对包含产生非常相似声音的昆虫群的数据集和具有不同物种选择的数据集重复这些实验可以为这些发现提供更多的启示。
在LEAF前端训练期间,滤波器在频谱上的总体覆盖范围没有实质性变化。当在训练后查看滤波器分布时,滤波器仍然大多接近基于 mel 尺度的初始化曲线(图 5C 和 5F)。虽然滤波器密度在某些频段发生了变化,但没有观察到所有滤波器向更高频率移动或向完全不同的曲线变化的显着变化。然而,当考虑每个滤波器的变化时,很明显,许多滤波器的位置变化很大,有时是几千赫兹(图5B和5E)。训练后,滤波器带沿频轴的升序受到严重干扰,这意味着LEAF输出矩阵中的相邻行不一定包含频域中的相邻频带。有趣的是,在介绍LEAF前端的原始论文[18]和改进前端性能的论文[37]中都没有观察到这一点。在这些研究中,LEAF前端在AudioSet [38]和SpeechCommand数据集[39]上以16 kHz的采样率进行训练。训练后,得到的滤波器组配置仍然紧跟初始化曲线,并且沿频率轴的顺序是守恒的[18,37]。这被解释为证明mel标度是这些任务的强初始化曲线,LEAF前端中可学习的滤波器参数主要为适应稍微合适的频率范围提供了机会[18,37]。
AudioSet 数据集包含许多以人为中心的声音,如语音和音乐,以及各种环境声音、动物声音等,每个录音有 527 个类别和多个标签 [38]。SpeechCommand数据集包含超过100,000个口语单词样本[39]。也许这种声音和类别的多样性,以及使用低得多的16 kHz采样率[18]限制了滤波器频率的调整,而我们的比较中使用的数据集要小得多,这些数据集专注于更细粒度的分类任务。沿频轴排序对于对包含定义的谐波结构(如人类语音、音乐、乐器或鸟鸣)的声音进行分类也可能更为重要。直翅目和蝉科产生的经常嘈杂和不和谐的声音可能不需要这样做,因为它们在频谱上的声音结构更均匀且相对不确定。
由于 LEAF 前端是可学习滤波器组和可学习 PCEN 压缩的组合,因此我们希望确定各个组件对 mel 前端性能改进的影响。特别是因为整体滤波器组曲线没有像预期的那样强烈调整,并且PCEN作为传统对数压缩的替代品已被证明在某些情况下(但不是所有)对环境声音进行分类是有利的[40-42]。测试了对 LEAF 前端的修改,禁用了对滤波器组和临时池参数的训练,但测试了可训练的 PCEN 参数,称为 leafPCEN。该前端基本上应该像标准 mel 前端一样工作,并添加可训练的 PCEN 组件,因为初始化的 LEAF 过滤器组的功能类似于 mel 过滤器组。令人惊讶的是,leafPCEN没有成功训练,甚至表现比普通的mel前端差(表5)。在以前的工作中已经观察到,在某些应用中,根据信号和背景噪声特性,可训练的PCEN参数可能无法收敛到理想值,并导致次优特征提取[40,42]。似乎在LEAF前端中,如果没有可训练的过滤器组,PCEN组件可能会不稳定并崩溃为不良配置。leafFB前端保留了LEAF的可训练滤波器组和池化,但禁用了PCEN压缩参数的训练,其执行级别与标准LEAF前端大致相同,尽管运行之间的差异更大(表4和表5)。这表明,滤波器组参数的调整特别导致比标准mel前端更好的配置,并提高分类性能。
单个 LEAF 滤波器的调整和洗牌的高发生率可以证明测试与 mel 标度不同的初始化曲线是合理的。虽然这个量表已被证明是稳健的,有利于对以人为中心的声音进行分类[18],但它可能不是昆虫声音的理想初始化曲线。使用mel-scale的理论理由不适用于昆虫声音的更高频率范围和更快的时间模式。也许本研究中学到的滤波器分布是局部最优,可以从 mel 曲线作为起点,但专家设计的初始化曲线可以让前端在更短的时间内达到更好、更通用的昆虫声音滤波器分布,这将是有利的。使用按升序排序的随机中心频率值进行了一项测试不同初始化曲线的实验[37]。在训练期间,滤波器值被调整到更适合数据的频率范围,但在SpeechCommand数据集上进行测试时,整体性能低于使用mel初始化曲线时[37,39]。这再次表明,mel 音阶对人类声音非常健壮且有用,而且 LEAF 即使没有以理想音阶初始化,也可以学习有用的滤波器分布 [37]。这进一步证明了探索替代初始化规模以使用非人类声音的LEAF前端是合理的。
为了进一步提高分类性能,特别是如果要在物种保护工作中实施机器学习方法,更大、更多样化的数据集应该是重点。在这项工作中,最多代表66个物种,每类至少10个记录。这可能是用于监测特定环境甚至更大地理区域的物种的现实数量。但对于未来的实施,现有的数据集是不够的,必须代表将要部署自动分类方法的环境中发生的所有物种。每个物种的录音数量和长度也应增加,以更好地表示昆虫声音的自然变化。如果要使用具有更高采样率的数据集进行分类,则与自适应前端相比,传统的mel频谱图前端可能被证明更不有用。特别是对于完全在超声波范围内产生声音的物种,这在直翅目和一些蝉科中很常见[43],与自适应前端相比,高频带的较低分辨率将越来越不利。
在为这项工作编译数据集时,特别注意排除音频质量低的录音,特别是包含多种昆虫物种声音的录音,即使其他物种在背景中几乎不明显。由于来自源数据库的许多录音是公民科学家提交的,不符合这项工作的质量标准,因此这些数据集中未包含大量音频材料。降低质量标准将允许包含更多的物种和音频示例。这是否有益还有待测试,因为增加的音频材料量可以抵消低质量录音的负面影响。
考虑到相对简单的网络架构和较小的数据集,这些结果对于未来的应用具有通过优化模型参数和使数据集多样化而具有进一步改进的巨大潜力是鼓舞人心的。尽管在某些情况下很小,但使用 LEAF 在性能方面的优势表明,自适应前端是使用手工制作的参数提取昆虫音频分类特征的方法的潜在有价值的替代品。在将这些方法应用于保护工作之前,需要增加数据集的大小和物种多样性,并且必须改进所使用的网络以达到更高的整体精度。这些方法还需要与声音事件检测方法集成,以自动识别较长自动录制的相关剪辑。这项工作为优化分类网络的重要部分迈出了第一步,并展示了令人鼓舞的结果和方法,以便将来成功实施该技术。
支持信息
测试集中所有 47 个物种的分类结果,使用 mel 前端的最佳运行,分类准确率为 77%。
显示 1/6: pcbi.1011541.s001.tiff
跳到无花果共享导航
https://ndownloader.figstatic.com/files/42564892/preview/42564892/preview.jpg
1 / 6
下载
无花果分享
S1 图 测试集中所有 47 个物种的分类结果,使用 mel 前端的最佳运行,分类准确率为 77%。
纵轴显示文件的真实标签,横轴显示预测的标签,按顺序、科和属分组。
https://doi.org/10.1371/journal.pcbi.1011541.s001
(蒂夫)
S2 图 使用LEAF前端的最佳运行对测试集中所有47个物种的分类结果,分类准确率为83%。
纵轴显示文件的真实标签,横轴显示预测的标签,按顺序、科和属分组。
https://doi.org/10.1371/journal.pcbi.1011541.s002
(蒂夫)
S3 图 测试集中所有 66 个物种的分类结果,使用 mel 前端的最佳运行,分类准确率为 78%。
纵轴显示文件的真实标签,横轴显示预测的标签,按顺序、科和属分组。
https://doi.org/10.1371/journal.pcbi.1011541.s003
(蒂夫)
S4 图 使用LEAF前端的最佳运行对测试集中所有66个物种的分类结果,分类准确率为81%。
纵轴显示文件的真实标签,横轴显示预测的标签,按顺序、科和属分组。
https://doi.org/10.1371/journal.pcbi.1011541.s004
(蒂夫)
S5 图 在InsectSet64上运行性能最佳的LEAF中使用的所有47个滤波器的中心频率。
图 A 和 D 显示了训练前的初始化曲线,该曲线基于 mel 标度。图 B 和 E 显示了训练后每个滤波器与其初始化位置的偏差。图 C 和 F 显示了按中心频率排序的滤波器,并展示了频率范围的总体覆盖范围,但不表示 LEAF 表示中的实际顺序。小提琴图显示了滤波器在频谱上的密度,橙色线显示了初始化曲线以进行比较。
https://doi.org/10.1371/journal.pcbi.1011541.s005
(蒂夫)
S6 图 在InsectSet64上运行性能最佳的LEAF中使用的所有66个滤波器的中心频率。
图 A 和 D 显示了训练前的初始化曲线,该曲线基于 mel 标度。图 B 和 E 显示了训练后每个滤波器与其初始化位置的偏差。图 C 和 F 显示了按中心频率排序的滤波器,并展示了频率范围的总体覆盖范围,但不表示 LEAF 表示中的实际顺序。小提琴图显示了滤波器在频谱上的密度,橙色线显示了初始化曲线以进行比较。
https://doi.org/10.1371/journal.pcbi.1011541.s006
(蒂夫)
确认
我们衷心感谢Baudewijn Odé和Ed Baker使用他们的声音收藏,以及Xeno Canto和iNaturalist的贡献者。
引用
1.宋H, 贝图克斯, 申S, 多纳特A, 莱奇H, 刘S, 等.系统发育分析揭示了直翅目声学通信的进化途径。纳特公社。2020;11: 4939.密码:33009390
查看文章PubMed/NCBI谷歌学术搜索
2.杨D,班纳特-克拉克HC。鼓室在蝉声制作中的作用。实验生物学杂志。1995;1001–1019.密码:9318802
查看文章PubMed/NCBI谷歌学术搜索
3.罗 C, 魏 C, 南森 C.“静音”蝉是如何发出叫声的?马查多RB,编辑。公共图书馆一号。2015;10:e0118554。pmid:25714608
查看文章PubMed/NCBI谷歌学术搜索
4.贝内特-克拉克 HC。蝉如何发出声音。科学 1998;278: 58–61.
查看文章谷歌学术搜索
5.Heller K-G, Baker E, Ingrisch S, Korsunovskaya O, Liu C-X, Riede K, et al.来自东南亚和邻近地区(直翅目,Tettigonioidea,Mecopodinae)的Mecopoda(和相关形式)的生物声学和系统学,包括一些染色体数据。动物分类群。2021;5005: 101–144.密码:34811274
查看文章PubMed/NCBI谷歌学术搜索
6.蒙哥马利 GA, 邓恩 RR, 福克斯 R, 琼格扬斯 E, 皮革 SR, 桑德斯 ME, 等.昆虫末日降临了吗?如何找出答案。生物保护。2020;241: 108327.
查看文章谷歌学术搜索
7.Wagner DL, Grames EM, Forister ML, Berenbaum MR, Stopak D. 昆虫在人类世的衰落:千刀万剐的死亡。美国国家科学院院刊。2021;118:e2023989118。密码:33431573
查看文章PubMed/NCBI谷歌学术搜索
8.蒙哥马利 GA, 贝利茨 MW, 古拉尔尼克 RP, 廷利 MW.监测和基准测试昆虫的标准和最佳实践。前生态埃沃尔。2021;8: 579193.
查看文章谷歌学术搜索
9.Riede K. 直翅目声学剖析:现状和未来需求。乔尔。2018;27: 203–215.
查看文章谷歌学术搜索
10.Riede K. 直翅目声学监测及其保护潜力。1998;7.
查看文章谷歌学术搜索
11.Fischer FP, Schulz U, Schubert H, Knapp P, Schm?ger M. 草地质量的定量评估:直翅目指示物种种群大小的声学测定。生态应用。1997;7: 909–920.
查看文章谷歌学术搜索
12.Virtanen T,Plumbley MD,Ellis D,编辑。声音场景和事件的计算分析。湛:施普林格国际出版社;2018. https://doi.org/10.1007/978-3-319-63450-0
13.Riede K, Nischk F, Dietrich C, Thiel C, Schwenker F. 直翅目歌曲的自动注释:分析DORSA声音存储库的第一个结果。直翅目研究杂志.2006;15: 105–113.
查看文章谷歌学术搜索
14.Hao Y, Campana B, Keogh E. 在视觉空间中监测和挖掘昆虫的声音。2012年SIAM数据挖掘国际会议论文集.工业与应用数学学会;2012.第792–803页。
查看文章谷歌学术搜索
15.多尔熊AE。蟋蟀作为温度计。美国博物学家。1897;31: 970–971.
查看文章谷歌学术搜索
16.格林菲尔德医学博士。直翅目声学通信。1997;35.
查看文章谷歌学术搜索
17.海托拉 T, 卡基尔 E, 维尔塔宁 T.用于分析声音场景和事件的机器学习方法。声音场景和事件的计算分析。施普林格国际出版;2018.第13–40页。可用: https://cassebook.github.io/ch02/index/
18.Zeghidour N, Teboul O, Quitry F de C, Tagliasacchi M. LEAF: A Learnable Frontend for Audio Classification.arXiv:210108596 [cs, eess].2021 [引用日期:17-2022-2101]。可用: http://arxiv.org/abs/08596.<>
查看文章谷歌学术搜索
19.Stowell D. 计算生物声学与深度学习:回顾和路线图。arXiv:211206725 [cs, eess, q-bio].2021 [引用日期:17-2022-2112]。可用: http://arxiv.org/abs/06725.<>
查看文章谷歌学术搜索
20.史蒂文斯、福克曼·音高与频率的关系:修订后的音阶。美国心理学杂志。1940;53: 329.
查看文章谷歌学术搜索
21.Montealegre-Z F.鳞片效应和对katydids(直翅目:Tettigoniidae)声音产生的约束:形态和信号参数之间的相关进化:katydidsridesride的约束。进化生物学杂志。2009;22: 355–366.pmid:19032495
查看文章PubMed/NCBI谷歌学术搜索
22.尤因·节肢动物生物声学:神经生物学和行为学。康奈尔大学出版社. 1989.
23.罗宾逊DJ,霍尔MJ。直翅目的声音信号。昆虫生理学进展.爱思唯尔;2002.第151–278页。https://doi.org/10.1016/S0065-2806(02)29003-7
24.Sarria-S FA,Morris GK,Windmill JFC,Jackson J,Montealegre-Z F.用于超声波音高产生的收缩翅膀:新热带Katydids(直翅目:Tettigoniidae)新属的超强超短波长呼叫。Etges WJ,编辑。公共图书馆一号。2014;9:e98708。密码:24901234
查看文章PubMed/NCBI谷歌学术搜索
25.泰文,康妮T,朱基,吴MKO。基于声学信号的蝉类识别。算法。2022;15: 358.
查看文章谷歌学术搜索
26.基于卷积神经网络的昆虫声音识别.2018 IEEE第三届图像,视觉与计算国际会议(ICIVC)。重庆:IEEE;3.第2018–855页。https://doi.org/859.10/ICIVC.1109.2018
27.日比野S,铃木C,西野T.卷积神经网络对唱歌昆虫声音的分类。爱可声科技 2021;42: 354–356.
查看文章谷歌学术搜索
28.Doshi K. 音频深度学习变得简单:声音分类,逐步。在: towardsdatascience.com [互联网].18-2021-24 [引用日期:2022-936-5]。可用: https://towardsdatascience.com/audio-deep-learning-made-simple-sound-classification-step-by-step-cebc<>bbe<>
29.贝克 E, 普莱斯 BW, 里克罗夫特 SD, 希尔 J, 史密斯 VS.BioAcoustica:一个免费开放的生物声学存储库和分析平台。数据库。2015;2015.pmid:26055102
查看文章PubMed/NCBI谷歌学术搜索
30.Baker E, Price B, Rycroft S, Villet M. Global Cicada Sound Collection I: Recordings from South Africa and Malawi by B. W. Price & M. H. Villet 和 GBIF 收集 BioAcoustica 数据。哒??2015;3:e5792。pmid:26379465
查看文章PubMed/NCBI谷歌学术搜索
31.波普尔·对十字花科(Ashton)物种组(半翅目:Cicadidae:Cicadettini)进行了修订,其中包含来自澳大利亚大陆的14个新物种。动物分类群。2017;4340.pmid:29245723
查看文章PubMed/NCBI谷歌学术搜索
32.Fai? M. InsectSet32:昆虫(直翅目和Cicadidae)自动声学识别数据集。泽诺多;2022.
查看文章谷歌学术搜索
33.Fai? M. InsectSet47和66:用于昆虫(直翅目和Cicadidae)自动声学识别的扩展数据集。泽诺多;2023.
查看文章谷歌学术搜索
34.雪莱S,墨菲DT。OpenAIR:一个交互式听觉化网络资源和数据库。2010.第1270–1278页。可用: https://www.openair.hosted.york.ac.uk/?page_id=2
查看文章谷歌学术搜索
35.Fai? M. InsectSet32:用于自动昆虫识别的声音自适应表示。2023. 可用: https://github.com/mariusfaiss/InsectSet32-Adaptive-Representations-of-Sound-for-Automatic-Insect-Recognition
36.Fai? M. InsectSet47 & InsectSet66:用于自动昆虫识别的声音自适应表示。2023. 可用: https://github.com/mariusfaiss/InsectSet47-InsectSet66-Adaptive-Representations-of-Sound-for-Automatic-Insect-Recognition
37.Schlüter J. EfficientLEAF:更快的音频前端。约翰开普勒大学林茨分校。2022. 可用: https://doi.org/10.48550/arXiv.2207.05508
38.Gemmeke JF, Ellis DPW, Freedman D, Jansen A, Lawrence W, Moore RC, et al. Audio Set:音频事件的本体和人工标记数据集。2017年IEEE声学,语音和信号处理国际会议(ICASSP)。路易斯安那州新奥尔良:IEEE;2017.第776–780页。https://doi.org/10.1109/ICASSP.2017.7952261
39.Warden P. Speech Command:有限词汇语音识别的数据集。2018 [引用日期:9-2022-10]。https://doi.org/48550.1804/ARXIV.03209.<>
40.Best P.鲸类声学信号的自动检测和分类。土伦大学博士论文。2022.
41.Lostanlen V, Palmer K, Knight E, Clark C, Klinck H, Farnsworth A, et al. 具有每通道能量归一化的生物声学事件的远程检测。声学场景和事件的检测和分类2019研讨会论文集(DCASE2019)。2019.第144–148页。https://doi.org/10.33682/ts6e-sn53
42.Anderson M, Harte N. 鸟类活动检测中的可学习声学前端。arXiv;2022. 可用: http://arxiv.org/abs/2210.00889
查看文章谷歌学术搜索
43.Brizio C.来自撒丁岛(意大利)的两只蝉(Hemiptera Cicadidae)歌曲的高频成分,由低成本USB麦克风研究:13。