基于听觉模型反演方法的语音信号的分析及其应用

基于听觉模型反演方法的语音信号的分析及其应用

王永琦[1]2003年在《基于听觉模型反演方法的语音信号的分析及其应用》文中认为在吸收听觉生理学研究成果基础上,建立了一个模拟外围听觉系统和部分中枢圣经系统功能的听觉模型。模型由表征基底膜的频率分析的带通滤波器组、内毛细胞的半波整流特性和神经纤维的能量转换特性组成,该模型可以作为前端处理来提取语音信号的自相关图谱。 接着,文章阐述了通过实现听觉模型反演过程从信号的自相关图谱中恢复出原始的语音信号的过程。介绍了如何从信号的自相关图谱中逆变换中得到信号的神经发放率函数,怎样从信号的半波整流逆变换中恢复丢失的信息等等。又根据听觉生理特点提出了抗噪声方案,使我们的语音分析/重构系统不仅可以对无噪信号进行重构,而且还可以在噪声环境下的语音信号进行重构。 实验结果表明,我们通过听觉模型反演从信号的自相关图谱中恢复出的语音信号,具有较好的自然度和良好的噪声鲁棒性。

赵鹤鸣, 王永琦, 陈雪勤[2]2005年在《听觉模型反演方法及其应用》文中研究指明听觉模型已应用于语音信号处理的许多方面,并已取得了较好的结果。论文根据目前应用较为广泛的听觉模型,提出了模型中各部分的逆变换。首先通过对自相关图谱逆变换并经迭代运算重构相位信息恢复神经发放率,再经半波整流逆运算恢复负半部分信号,最后对描述内毛细胞、突触模型的相关方程进行逆运算和Gammatone逆滤波,构成整个听觉模型的反演方法。作为应用论文提出了一种基于听觉模型逆变换的含噪语音增强方法。实验结果表明,该方法对含噪语音有很好的降噪效果,特别是当信噪比较低时,该方法较常用的方法更为有效。论文提出的听觉模型逆变换方法可应用于语音增强等领域。

吴岳松[3]2005年在《基于听觉模型的水下目标识别研究》文中指出舰船目标的分类识别是国防研究的关键技术,也是当前水声界研究的热点,具有重要的理论意义和军事应用价值。听觉模型已经在语音信号处理方面取得了成功的应用,而在水声信号处理方面一直为人们所忽略。基于听觉模型的水下目标特征提取是水声信号处理的一个重要内容,因此本文尝试将听觉模型应用于水下目标的分类、识别。在分析耳蜗对声音的辨别原理的基础上,研究了人耳听觉系统对语音信号处理的特点,并结合小波分析在水声信号降噪、特征提取、目标识别等方面的应用,对实际舰船辐射噪声信号进行了特征提取和分类验证。 本文主要的研究内容与创新如下: 1.参考了听觉模型在语音信号处理方面的成功应用,并结合水声信号与语音信号处理的相似性,建立了一个适用于水声信号处理的计算听觉模型。研究了基于听觉模型的水声信号特征提取方法,提取了舰船辐射噪声的听觉特征。 2.对小波变换应用于水声信号的降噪进行了分析。探讨了基于小波变换降噪的基本原理和方法;对小波降噪方法进行了仿真,并对实际舰船信号进行了小波降噪。结果表明,小波降噪方法能较好的去除信号中的背景噪声,达到了从实际舰船辐射噪声中去除背景噪声的效果。 3.提出了对舰船辐射噪声的小波变换系数进行分束的特征提取方法,利用每一个束的能量值作为舰船辐射噪声的类别特征。给出了提取该特征的理论依据及其实现方法,并分析了该特征的分类性能。采用了叁种舰船辐射噪声特征提取方法,即小波包,听觉模型和功率谱方法,并通过神经网络进行了分类。结果表明,采用听觉模型提取的舰船辐射噪声的特征分类结果最好。 4.研究了适用于舰船目标识别的神经网络分类器的设计,通过对实际舰船辐射噪声的分类实验,检验了本文所提取的舰船辐射噪声特征的分类性能,达到了比较好的分类效果。

张文娟[4]2012年在《基于听觉仿生的目标声音识别系统研究》文中进行了进一步梳理目标声音识别技术是声音识别的一个重要分支,它的发展极大地提高了人的工作效率、生活品质和服务质量。但是由于声音变化范围较大,声音识别系统很难进行精确匹配;而且声音容易受音量、音质、速度和背景噪声的影响而降低识别效果。因此,研究并设计具有高识别率和高鲁棒性的目标声音识别系统是十分必要的。随着声音信号处理技术的深入研究,结果发现人的听觉系统在听音辨物方面具有独特的优越性,它能够准确地提取目标声音特征并精确地识别声音的方向、类别和内容,基于人耳听觉仿生的目标声音识别技术日益受到重视。因此,本文针对基于听觉仿生的目标声音识别技术展开系统研究,积极探索先进的人耳仿生理论、特征提取技术、目标声音分类技术和基于FPGA的识别系统硬件实现方法,全文主要研究内容及成果如下:1.通过分析人耳听觉系统的生理结构及其对声音的感知过程,研究并建立了一个较为完整的听觉系统数学模型,实现对人耳声音处理过程的模拟。通过仿真实验表明,该数学模型可以较好地模拟耳蜗基底膜的分频滤波功能和内毛细胞的能量转换过程。2.通过分析比较几种常用的声音特征提取方法,针对其普遍存在的鲁棒性差等问题,提出一种基于听觉谱的声音特征提取方法。该方法采用听觉系统的数学模型对声音进行信号处理,其原理符合人耳对声音的处理过程,能够很好地提取声音的特征量,避免关键信息的丢失,提高系统的抗噪声性能和识别率。3.通过对常用几种模式识别方法的对比研究,综合考虑声音具有非线性的特点,本文选择具有自适应能力强的BP神经网络对目标声音信号进行识别及分类处理,该方法思想直观,数学意义明确。通过仿真实验表明:采用BP神经网络设计的分类器对所有测试样本的平均识别率达到93.14%,这说明此方法对目标声音特征进行分类识别是行之有效的。4.在听觉系统数学模型、听觉谱特征提取方法和BP神经网络识别算法已有研究的基础上,综合考虑算法的复杂程度、所需的硬件资源和对外接口等问题,本文提出采用FPGA嵌入式开发平台完成目标声音识别系统的硬件设计。该硬件系统采用VHDL硬件描述语言来模拟耳蜗基底膜的分频功能并设计了基底膜滤波器,采用NOIS II软核技术实现内毛细胞数学模型、耳蜗核数学模型、基于听觉谱的特征提取算法和基于BP神经网络的分类器。最后,针对大炮、救护车、轮船、火车和飞机滑行这5种不同目标声音,在基于FPGA的目标声音识别系统上进行了多次识别实验。测试结果表明,5类目标声音测试集中对救护车的测试样本识别率最高,达到了97.14%,而对大炮的测试样本识别率最低,达到85.71%,所有测试样本的平均识别率达到91.43%。实验结果证明,利用FPGA硬件实现的听觉仿生系统具有良好的识别效果,整个方案是可行且有效的。本文将听觉仿生技术和FPGA硬件技术成功地应用在目标声音识别系统中,为相关技术的研究和工程实践提供了理论支持和技术参考。

付强[5]2000年在《语音的参数表示和质量客观评价研究》文中研究表明语音信号的表示和谱失真测度一直是贯穿于语音处理各个领域中的重要而基本的问题。虽历经几十年的研究和实践,产生了许多卓有成效的理论和方法,但随着对语音信号认识的进一步加深和近年来许多语音应用领域的蓬勃发展,对这一传统课题的研究再度活跃起来。语音质量客观评价更是语音表示及其谱失真测度理论的直接应用。本文重点研究语音信号的各种参数表示方法及其相应的失真测度,以及它们在语音质量客观评价方面的应用。1.提出了一种Bark尺度倒谱系数(BSCC)失真测度。它是采用一种余弦镶边 临界带滤波器组代替Mel频率叁角滤波器组进行倒谱分析的。理论分析和实 验结果都表明这种新测度的总体性能优于MFCC谱失真测度。它在主观感知 上与Bark谱失真测度相当,而其计算复杂度却与MFCC谱失真测度相似,远 低于Bark谱失真测度,适于实时系统的应用。2.提出了一种新的子波变换,即语音信号Bark子波变换。它是基于语音感知实 验中Bark频率尺度的概念推导而来的。数学上它是一种非正交的,但却是超 完备的,可逆且是自反演的子波变换。应用在语音识别中时,利用子波变换 的局部基性质,它能取较小的帧长进行分析,因而与MFCC特征提取相比, 在同样的频率分辨率情况下能获得更高的时间分辨率。相关识别实验表明, Bark子波变换的特征在辅音的区别能力方面优于目前广泛应用的MFCC特 征。3.建立了一个语音质量客观评价系统。它是采用一个符合汉语统计规律的语音 数据库,并进行了规范的主观音质评价得到的结果作为基础而建立成的。首 先分别对LPC倒谱、Mel倒谱、Bark谱、(加权)对数谱及它们的组合测度的 主客观评价相关模型进行了大量的实验性研究。并且采用了一些独特的方法 较好地解决了原始语音信号与失真语音信号之间的同步问题。所建成的系统 是一个可靠的实用评价系统。4.提出了一种基于神经网络的语音质量客观评价方法。它是采用前向神经网络 实现语音质量客观评价的一步法策略。传统的方法通常包括失真计算和由失 真测度到主观得分估计的非线性回归分析两步。新方法将这两步整合为一步, 采用神经网络自适应地逼近听觉系统的高维非线性感知特性,避免了失真测 度函数和回归分析的函数形式的人为假定。统计学理论分析表明:一步法是 在主观得分一级的算术平均,其估值是MOS的一种无偏一致估计,是比常规 方法更有效的估计子。对比实验结果也证明了其优越性能。5.基于上述一步法策略,采用径向基函数网络设计了一个更加顽健的语音质量 客观评价系统。在该系统的设计中,对其结构和训练算法方面进行了大量的 探索,解决了一些与实用性有关的关键问题。与基于MLP的系统相比,它在 主客观相关性方面和可扩展性等方面均有所提高,并有较大改进余地。

谢军[6]2009年在《汽车声品质评价技术及方法研究》文中进行了进一步梳理声品质评价技术是环境声学中重要的工作内容之一。声品质的评价研究和人的主观感受有着密切的联系。人类的听觉感知融合了生理学、心理学及物理声学等学科的相关知识,给声品质评价和分析带来了一定的困难。目前,主要有两大类声品质评价方法:主观评价方法和客观评价方法。主观评价方法的试验结果与人的主观感受有着很好的一致性,能够比较客观的反映声品质,缺点是操作不易且工作量较大;客观评价方法相对较容易实现,但是准确度有待提高和完善。本文旨在寻找一种声品质客观评价的有效方法,通过相关计算准确分析声品质。在详细研究了人工头模型和听觉外周计算模型在声品质客观评价技术中的应用可行性的基础上,针对模型的关键技术进行了分析和研究,提出基于人工头模型和听觉外周计算模型的声品质客观评价技术,该方法在客观评价系统前端应用人工头模型模拟声场至人耳的传输过程,应用听觉外周计算模型模拟听觉外周系统中声信号的传输过程,结合两种方法的处理和计算结果,获得客观评价心理声学参数值。方法具有低成本高效率的优点,最后通过实验分析和相关性对比验证了该方法的可行性和优越性。

王卫华[7]2007年在《时间相关源信号的盲分离问题研究》文中进行了进一步梳理盲源分离是指在缺少先验信息的情况下,仅根据从一个混合系统中接收到的传感器信号中分离或估计出原始信号。近几年来它逐渐成为信号处理领域的一个热点课题,并且已经在很多领域得到了应用,如生物医学工程,无线通信,数据挖掘等。盲源分离包括基于高阶统计量和二阶统计量两种方法。大多数盲源分离算法都假设源信号是相互独立的,需要利用高阶统计量信息,如非高斯最大化方法,最大似然估计等。如果源信号具有时序结构,仅使用二阶统计量信息就可以很好地分离源信号。本文讨论了盲源分离的理论基础和典型算法。首先对独立分量分析等典型的算法进行了详细阐述;接着介绍了基于二阶统计量的盲分离和预处理方法;重点研究了时间相关源的盲提取算法。盲提取是盲源分离的一个有效途径,它可以根据需要提取出感兴趣的信号。本文总结了前人的研究成果,提出了一种基于二阶统计量的非平稳源盲提取算法。该算法计算复杂度低,且对噪声具有一定的鲁棒性,可以处理语音和音乐等非平稳的信号。计算机仿真实验证明了其有效性。本文还尝试了将人耳听觉模型应用到盲分离算法中,并取得了阶段性的成果。用一组用来模拟耳蜗的Gammatone滤波器组代替了盲提取算法中的线性预测器,提高了算法的抗噪声能力。

祁伟[8]2014年在《多音频信号分离与识别技术的研究》文中认为在现实环境中,音频信号总是不可避免地会受到环境噪声以及其他声源信号的干扰,这给声音信号的处理带来诸多挑战,另外如何在大量的音频信息中迅速找到并识别出感兴趣的声音信息也是一个难点问题,同时更是近些年来声音信号处理领域的研究热点之一,因此多音频信号分离与识别系统的建立,对于工业应用、国防军事等很多相关领域都有极其重要的理论研究与应用的价值。在已有的听觉生理学的科研成果基础上,建立了一个听觉模型。该模型主要包括可以提升声音数据中、高频特性的外耳、中耳模型,可以对音频信号进行多频道滤波处理的基底膜模型以及能够获得特征信息的内毛细胞-听神经模型。利用双耳时间差、双耳水平差、听觉神经发放概率以及自相关图谱等特征参数,实现多音频信号的分离。系统阐述了将多频率声音信号的混合数据通过Gamma tone滤波器实现多频率通道的分离,求出每一个频率通道的信号的声源位置方位角,根据方位角的差异将频率通道划分为几个大的归属类别,由每个频率通道的自相关图谱等特征参数利用幅度谱特征迭代算法来实现信号波形的重构,并且根据半波整流逆变换技术恢复前面丢失的负信号部分,以此来实现各个频率通道声音信号波形的恢复,把同属一个类别的多个频率通道的波形图进行迭接相加,获得了音频信号的完整波形图,其他归属类别的波形图恢复过程相同。最终实现音频信号的分离。接着再对分离出来的各个音频信号进行识别。本文在提取信号特征参数过程中主要获得了两个典型的特征:梅尔倒谱系数特征(MFCC)以及稀疏特征,然后利用支持向量机分别对这两个特征进行训练、识别。同时对信号的稀疏特征运用了特征加权技术,使此特征能够更加完全地表征目标信号,有效地提升了识别的准确性,并最终实现了利用SVM分类器识别音频信号的目标。之后根据整个系统模型的原理,利用Matlab GUI仿真软件实现了多音频信号分离与识别系统的建立。最后是总结与展望部分。从整体上阐述分离与识别系统的原理性内容及其优缺点,以及所完成的工作,最后叙述未来需要继续完成的任务。

刘淑华[9]2006年在《低信噪比下的语音增强技术研究》文中进行了进一步梳理实际中,语音常常受到环境噪声的干扰而使通话质量下降,严重时使语音处理系统不能正常工作。在这种情况下,必须采用信号处理方法进行语音增强,抑制背景噪声,以提高语音通信质量。因此,研究语音增强技术在实际应用中有重要价值。 本文的内容分为两部分:低信噪比下的噪声估计和语音增强,其中语音增强是本论文的重点。 大多数语音增强算法,例如谱减法,自适应滤波等方法,都需要正确地估计噪声。我们通常使用的噪声估计方法是基于传统的语音活性检测,但这些方法在较低信噪比下正确率很差,影响噪声的估计。本文根据语音的准周期性,提出了基于自相关函数最大值的语音活性检测算法。实验结果证明,这种方法适合在较低信噪比下对带噪语音进行噪声估计。 本文的另外一个工作是研究处理宽带噪声最通用的增强技术——谱减法,主要是增强型谱减法,这种算法虽然很灵活,但不能解决同时降低语音失真与残留噪声的矛盾。针对这个缺点,本文对此算法进行了改进。第一,引入先验信噪比,提出了基于先验信噪比估计的谱减法,同时采取从邻近的分析帧中选出最小值代替当前值的方法进行噪声的抑制;第二,根据人耳听觉系统的特征,实现了基于听觉掩蔽效应的谱减法,使我们可以根据掩蔽阈值动态地调节谱减系数。在算法实现的过程中,本文把二进制小波变换用到基本谱减法中,提出了基于二进制小波变换的基本谱减法,把这种算法作为基于听觉掩蔽效应的谱减法的预处理。实验证明,这两种改进的谱减法与增强型谱减法相比,增强效果都有提高。在提高信噪比方

参考文献:

[1]. 基于听觉模型反演方法的语音信号的分析及其应用[D]. 王永琦. 苏州大学. 2003

[2]. 听觉模型反演方法及其应用[J]. 赵鹤鸣, 王永琦, 陈雪勤. 声学学报. 2005

[3]. 基于听觉模型的水下目标识别研究[D]. 吴岳松. 西北工业大学. 2005

[4]. 基于听觉仿生的目标声音识别系统研究[D]. 张文娟. 中国科学院研究生院(长春光学精密机械与物理研究所). 2012

[5]. 语音的参数表示和质量客观评价研究[D]. 付强. 西安电子科技大学. 2000

[6]. 汽车声品质评价技术及方法研究[D]. 谢军. 吉林大学. 2009

[7]. 时间相关源信号的盲分离问题研究[D]. 王卫华. 哈尔滨工程大学. 2007

[8]. 多音频信号分离与识别技术的研究[D]. 祁伟. 哈尔滨工程大学. 2014

[9]. 低信噪比下的语音增强技术研究[D]. 刘淑华. 广西大学. 2006

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于听觉模型反演方法的语音信号的分析及其应用
下载Doc文档

猜你喜欢