语音识别中的抗噪声技术

语音识别中的抗噪声技术

丁沛[1]2003年在《语音识别中的抗噪声技术》文中研究说明目前的语音识别系统对纯净语音可以达到非常高的识别精度,但是无处不在噪声带来了训练模型和测试语音之间的失配,识别器的性能在噪声环境中将会急剧下降。因此抗噪声问题是语音识别达到真正实用所必须解决的关键问题。加性背景噪声对语音识别影响非常大。论文工作的贡献之一是提出了一种基于语音增强失真补偿的算法,通过对多种抗噪声算法的有效融合来提高系统在背景噪声中的稳健性。在信号空间,利用语音增强有效抑制噪声,提高输入信号中的鉴别信息,但增强带来的语音失真和增强后的剩余噪声是对语音识别非常不利的因素。分析表明,语音失真和剩余噪声可近似看作乘性噪声和加性噪声,因此可在模型空间利用并行模型合并(PMC)算法通过调整模型参数对剩余噪声进行补偿,或者在特征空间利用倒谱均值归一化(CMN)算法对语音失真和剩余噪声同时进行补偿。从另一角度看,PMC和CMN算法在中等信噪比条件下最为有效,因此语音增强在前端的消噪过程将促进PMC和CMN算法对系统稳健性的提高。对多空间算法的有效融合能显着提高系统在噪声环境,特别是低信噪比情况下的识别精度。随着无线通信和计算机通信的迅速发展,对冲激噪声下稳健语音识别技术的研究成为一个新的热点。通过对Viterbi译码过程的分析,得出冲激噪声对语音识别的影响在于其引入了不可靠的概率差距。针对该结论,论文提出了在高斯分量级对噪声敏感特征子向量的观测概率进行限值,从而直接消除冲激噪声对语音识别的影响。特征划分和门限取值是该算法的两个关键问题。论文提出了衡量各维特征噪声敏感度的方法,并根据分析结果对特征向量作合理的划分。针对敏感特征的门限取值,论文提出了一种近似算法,将多维高斯分布的积分转换为级数求和,而且计算得到的门限和最佳门限值非常接近。合理的特征划分和最佳门限的指定将使得在有效消除概率差距的同时,保留更多的识别信息。该算法能够显着提高系统在冲激噪声环境中的识别率,并保持对纯净语音的高识别率。计算量小以及对噪声特性依赖性低则是该算法在实际应用中的优点。

王忠文[2]2008年在《基于ARM-Linux的抗噪声语音识别技术研究》文中提出语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。到目前为止,语音识别研究大部分以线性系统理论为基础,主要应用隐马尔可夫模型(Hidden Markov Model,HMM)与动态时间规整(Dynamic Time Warping,DTW)技术实现语音识别。随着研究的逐步深入,基于线性系统理论的语音识别方法的局限性越来越凸显。近年来,随着人工神经网络(Artificial Neural Networks,ANN),混沌、分形等非线性理论研究和应用的日新月异,将这些理论应用于语音别成为可能。本文对现有的语音识别技术发展现状进行了分析,介绍了语音识别的基本理论,包括语音信号的预处理、计算听觉场景分析(Computational Auditory SceneAnalysis,CASA)和特征参数提取。根据计算听觉场景分析的基本原理,针对本文设计所应用的场合,改进了计算听觉场景的结构,优化了其算法,并详细讨论了计算听觉场景在语音识别的前端应用,很好的分离了语音采集前端的混迭语音,提高了算法的抗噪声能力。文中还阐述了语音特征参数的提取算法,比较了线性预测编码倒谱(LinerPrediction Cepstrum Coefficient,LPCC)系数和Mel频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)的优缺点,详细论述了Mel频率倒谱系数的提取方法和运算步骤。文中还研究了隐马尔可夫模型和自组织神经网络(Self Organizing Neural Networks,SONN)的原理及其在语音识别中的应用,详细讲述了HMM的原理与模型参数,分析了每个参数的提取方法,讨论解决了HMM的叁个基本问题;讲述了人工神经网络的基本概念,BP网络和自组织神经网络的结构和算法,并且分析比较了它们的识别特性与应用特点,提出了基于CDHMM和SONN的混合模型原理及算法,并加入到SONN分类器进行语音识别。本文设计了语音识别系统的软硬件结构,并在ARM—Linux环境下对基于CASA和HMM-ANN模型的算法进行了实验,测试了在各种场合下的语音识别率。分析测试结果表明,与以前的HMM模型方法相比,改进后的基于CASA的HMM-ANN模型提高了语音识别系统的准确率和识别系统的抗噪声能力,提升了系统的鲁棒性和自适应性,充分体现出改进模型的性能,证明了该系统的可行性和有效性,最后指出了需要进一步改进的问题和本课题未来的研究方向。

李垚飞[3]2014年在《基于HMM抗噪语音识别方法的研究与改进》文中研究指明随着科学技术的发展和计算机的广泛应用,人们希望能够用更加直接快速的方式与计算机进行交流,使其能够听懂人类的自然语音,为了实现这个更高的目标,语音识别技术随之而生,并且从研究至今已经取得了相当大的进展。目前,语音识别在无噪声干扰的环境下,已经取得了很好的效果,技术也相当的成熟。但考虑现实的噪声环境,语音识别技术就会遇到一些瓶颈,识别的效果会大幅的下降,主要原因就是噪声的复杂性以及其对语音特征参数的影响,使得待识别模版与训练模版匹配程度不高,造成识别率的下降。因此,使语音识别技术能充分实践应用,就必须解决环境噪声这个最大障碍,并进一步研究抗噪语音识别系统。本文主要针对环境噪声问题研究了语音识别的抗噪技术,随着语音识别抗噪声技术的研究及发展,目前抗噪技术主要有叁种:语音增强,抗噪语音特征提取,抗噪语音模型参数调整。基于以上叁种技术,语音识别抗噪声技术的研究重点就在不同的环境噪声下选用合理的技术且能有效的组合以上技术,使语音识别系统达到较好的识别性能。本文研究的重点是语音增强阶段和特征参数提取阶段语音识别的抗噪问题。首先介绍了语音识别的基本原理及系统的各个组成部分包括预处理、模式识别与匹配、特征参数提取等。由于小波变换不论在时域上还是在频域上都具有良好的局部信号分析能力,是一种较好的信号分析方法,并且广泛应用于信号去噪等多个领域。在小波变换的基础上引入了仿生小波分析方法,详细研究了仿生小波变换理论,结合仿生小波系数相关性的特点,着重研究了仿生小波相关性去噪方法。其次从实际应用出发,在分析和研究了传统语音增强方法的基础上,并结合其优缺点,提出一种基于仿生小波的相关性去噪方法,并通过Matlab仿真验证该去噪方法的有效性。在语音特征参数提取阶段,以MFCC的提取方法为前提,结合仿生小波抗噪算法,提出一种基于仿生小波变换的抗噪语音特征参数-BWTMFCC特征参数,用于语音识别特征参数提取。最后通过软件平台建立一个简单的非特定人、小词汇量的语音识别系统,将基于仿生小波的语音增强法和BWTMFCC特征参数提取方法应用于系统中,通过实验对比不同的特征参数系统的识别率来验证算法的有效性。

马素丽[4]2008年在《噪声环境下说话人识别技术研究》文中研究说明现在,语音识别系统的应用越来越广泛,然而它们受到很多外界环境的影响,尤其是噪声的影响,使得识别性能下降。抗噪语音识别问题变得越来越重要。本论文首先介绍了语音识别系统的基础知识,然后仿真实验了以Mel频率倒谱系数和线性预测倒谱系数这两种系数作为特征,并对这两种系数使用矢量量化技术进行处理,然后采用支持向量机(SVM)进行分类识别的语音识别系统。在实验中,比较了这两种特征系数的抗噪性能。本论文也是基于这个语音识别系统进行了抗噪声的研究。目前,抗噪声技术主要有语音增强法、提取抗噪特征法、噪声补偿法和丢特征法。本论文对其中的语音增强法和抗噪端点检测法进行了分析研究。在对语音增强算法分析的基础上,提出了一种新的抗噪语音识别模型,这个模型包括两点:语音增强和抗噪特征提取。语音增强采用的是用形态滤波器对语音进行前端滤波处理;抗噪特征提取是用形态滤波器对语音进行二次滤波,然后结合人耳掩蔽特性进行特征提取。因为语音增强会使增强后的语音和原始语音产生偏离,所以我们也对训练语音在前端处理中采用相同的形态滤波器进行滤波。然后对提出的方法进行了不同信噪比下的仿真,实验表明本论文提出的方法使带噪语音和干净语音在语音时域波形上偏离较小,提高了信噪比。本文在对抗噪端点分析的同时,也提出了相应的改进方法,并进行了实验。实验结果表明改进后的端点检测在低信噪比情况下能够有效的分离出噪音和语音,从而准确的检测出语音的端点。最后,基于本文提出的语音端点检测和语音增强和抗噪特征参数提取相结合的方法,搭建了抗噪语音识别模型。在不同噪声类型和不同低信噪比下进行了仿真实验,并从识别率和误识率两个方面进行了结果分析比较。实验表明本文提出的方法在低信噪比下识别性能有很好的改善,识别率得到了提高。

王艳[5]2010年在《噪声环境下汉语连续语音识别技术研究》文中指出语音识别已经有了半个多世纪的研究历史,取得了很大的进展。当前的语音识别系统在纯净语音环境中已经获得了非常高的识别精度,但在现实应用中,无处不在的噪声使得系统的识别性能大幅度降低,抗噪声问题是语音识别系统实用化的关键问题之一。本文主要研究加性噪声环境下的汉语连续语音识别技术。首先介绍了语音识别的基本原理、语音识别系统的组成及其关键技术,随后介绍了噪声的分类和各种抗噪声技术,在此基础上本文的主要工作有:1)在个人电脑平台上实现了一个中等词汇量、非特定人的汉语连续语音识别系统。系统采用带调音节作为识别基元,Mel频标倒谱系数作为特征参数、隐马尔可夫模型作为识别模型,并对其进行实验,分析系统的性能。2)在汉语连续语音识别中,准确检测出音节的始点和终点是很重要的一步。现有的汉语连续语音端点检测方法在纯净语音环境下检测准确率很高,但在噪声环境下准确率大幅度降低。本文根据汉语连续语音的特点以及噪声的特性,提出了基于元音检测的汉语连续语音端点检测方法,有效提高了噪声环境下端点检测的准确率。3)语音识别系统处理的对象是特征参数,特征参数的抗噪性能对系统的抗噪性能影响很大。本文在分析传统Mel频标倒谱系数提取过程的基础上,结合小波包分析和滤波器加权分析,提出了一种新的特征参数提取方法。实验结果表明:改进后的特征参数比传统Mel频标倒谱系数具有更高的识别率和更好的抗噪性能。

柳奇芳[6]2008年在《基于组合去噪方法的语音识别抗噪技术研究》文中研究说明随着科学的发展和计算机的普及,人们对与计算机的交流方式提出了更高的要求,这促进了语音识别技术的发展,并使之成为语音处理领域中的一个重要研究方向。目前,在实验室环境下,语音识别系统的识别率已经达到了很高的水平,也有一些产品出现,但是由于受现实环境噪声的影响,系统的识别率大幅度下降。因此,噪声是语音识别技术广泛实用化的最大障碍,对噪声环境下语音识别系统的研究也就变得尤为重要。目前的抗噪声技术主要分为叁类:语音增强法、提取抗噪语音特征法和模型补偿法。由于环境噪声的种类和干扰程度的不同,通常难以使用一种单一的方法来获得令人满意的性能。随着抗噪声语音识别技术的发展,如何在实际的语音识别系统中将以上的技术合理地结合起来,使语音识别系统在不同的噪声环境中均能达到较高的性能,是抗噪声语音识别研究的一个重要方向。另外,近年来一些新的技术中采用了一些与其他领域的理论技术相结合的办法来提高性能。小波变换是八十年代末发展起来的一种新的时频分析方法,它在时、频两域都具有良好的局部化特性;并且在信号去噪领域获得了广泛的应用。本文详细研究了小波变换理论,分析了小波变换的特点,比较了几种常用小波去噪方法,重点研究了阈值去噪法。在此基础上,本文结合两种抗噪技术:语音增强技术与提取抗噪语音特征技术,并引入小波变换技术,提出了一种基于小波变换的组合去噪方法。该方法的基本原理是:含噪语音信号首先经过采用小波去噪方法中的阈值去噪法进行语音增强,实现了语音识别过程中的第一次去噪;语音特征参数提取阶段采用了基于小波变换的特征提取技术,实现了语音识别过程的第二次去噪。本文采用了仿真实验的方式,对比了该去噪方法与传统的去噪方法的去噪效果,通过分析得出的结果,证明了该去噪方法的有效性。

许超[7]2005年在《带噪语音信号处理中的稳健性加权方法》文中研究指明语音信号处理技术发展一个多世纪以来,噪声问题一直是最普遍的威胁。近十年,由于应用前景诱人的语音识别系统受挫于噪声问题而无法在实际应用中推广,更给噪声相关课题带来新的挑战。解决噪声对信号处理系统的影响主要可以通过两条途径,其一是以噪声为中心,围绕噪声的补偿和消除来开展研究,其二是以处理系统本身为对象,通过研究系统本身对噪声的抵抗力和免疫力从而设计稳健性更好的系统。噪声特性可得的情况下,谱减法、并行模型合并法等遵循第一条思路的方法非常有效。而语音识别中Missing Data等采用第二条思路的方法因其不针对具体噪声,从而适用范围更广泛,具有更好的兼容性。本文采用了第二条思路,通过研究求和系统在噪声中的稳健性表现,提出了可广泛应用于含求和表达式的系统的稳健性加权方法。其核心理论在于:当求和系统的各分量受到相对程度不等的噪声影响时,可以通过加权的方式使系统整体的噪声敏感度降低,各分量的权重则可由该分量在噪声中表现出的局部稳健性来确定。据此,我们分别在最坏意义和统计平均意义下分析系统整体的失真,抽象出相应的数学命题,并给出证明。本文分别将该理论用于叁个不同的具体应用。引入该方法可使谐波重构系统在白噪声中平均重构距离降低10%,将改进后的重构系统用于语音识别前端则在人群噪声下可获得45.9%的相对误识率下降,若不考虑基音提取错误则这一改善达73.6%。其次,我们将该理论用于抗噪识别的模型补偿,在Aurora 2实验中,以平均误识率为比较参数,新算法比基线改善了39.6%;地铁噪声下的多方法结合实验显示引入稳健性加权可在谱减法基础上获得35.7%的进一步改善,在Missing Data方法基础上获得10.9%的进一步改善。最后,我们搭建了一套便携式设备上使用的普通话短语识别系统,并应用了运算量很小的稳健性加权算法。严重失配的实际应用环境实验中该方法获得了15.2%的相对误识率下降。进一步的多方法结合实验显示该方法可在3-best系统基础上获得26.2%的相对误识率下降。

林遂芳[8]2005年在《噪声环境下语音识别方法的研究》文中指出噪声环境下的语音识别是国内外一个重要的研究课题,具有重要的理论和实际意义。由于训练环境与识别环境的不匹配,现有的语音识别系统在噪声环境下的识别性能下降十分严重,因而还不能实现真正的商业化。 本文从语音模型入手,讨论了新的抗噪语音识别方法。通过分析噪声对语音识别性能的影响,提出了两种新的抗噪语音识别方法,即动态时间规整(DTW)利学习矢量量化(LVQ)相结合的识别方法以及基于隐马尔可夫模型(HMM)和小波神经网络(WNN)混合模型的语音识别方法。其中第一种方法具有训练和识别过程简单的优点,对信噪比为10dB的情况下识别率从26%提高到50%。第二种方法则通过结合HMM的时间建模能力利WNN的分类决策能力,在不影响纯净语音识别率的情况下,比第一种方法具有更高的识别率,对信噪比为10dB的情况下识别率为66%,这种方法在低信噪比的情况下识别率提高尤为明显。 此外,本文还提出一种基于语音增强技术的语音识别方法,即通过对带噪的原始语音进行语音增强,提高源信号的信噪比,从而提高语音识别系统的识别率。本文使用谱相减利小波消嵘两种语音增强方法,可以将带噪语音的信噪比至少提高50%,信噪比为10dB时的识别率提高到80%。实验证明,这种方法对抗噪语音识别具有良好的效果。

龙潜[9]2007年在《噪声环境下的语音识别技术研究》文中指出本论文以应用型语音控制技术为目标,以系统鲁棒性为研究重点,对噪声环境下嵌入式孤立词语音识别技术的各个主要方面作了深入探讨。通过对鲁棒语音识别问题进行系统的研究和实验,本文形成了一套完整的鲁棒语音识别研究体系,包括了实验平台、鲁棒端点检测算法、鲁棒特征提取算法、特征补偿算法、声学模型等关键部分,涵盖了鲁棒语音识别的全过程,获得了一些有意义的成果。所有研究成果都被完整地实现并在语音库上进行了验证,最终建立了一个完整的孤立词语音识别系统,包括语音库、软件程序、硬件实现、应用系统等,以此为基础可直接构建出一个实用的语音控制系统。上述这些研究成果具体主要包括以下几个方面:(1)语音识别实验系统建立了一个基于隐马尔科夫模型(Hidden Markov Model,HMM)的语音识别实验系统。针对孤立词语音识别的特点优化了系统中的HMM算法实现。给出了一套用于抗噪语音识别实验的选词方案,保证了实验的代表性。建立了完整的孤立词识别语音库和噪声库以及噪声度量标准,保证了实验的可重复性。(2)端点检测算法针对传统双门限端点检测算法在噪声环境下的不足之处,对算法细节作出了多处改进。首次将一种非线性动力学参数——排列熵(Permutation Entropy,PE)应用于噪声环境下的端点检测,提出了基于能频比和排列熵差分的双门限端点检测算法。在实验平台下与传统算法进行了对比实验,实验结果显示,提出的算法与传统算法相比,噪声鲁棒性更好,检测延时相当。(3)特征提取算法系统总结了目前常用的几种语音识别特征参数,特别是详细分析了线性预测编码(Linear Prediction Coding,LPC)特征和Mel频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征的原理、优缺点和实现细节。针对LPC特征和MFCC特征的问题,将最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)谱估计技术引入到语音特征提取中,使用这种技术得到的特征参数在某种程度上结合了上述两种主流特征参数的优点。针对语音信号的特点,给出了几种MVDR计算上的改进方法。最后通过实验对比了MVDR方法与其它方法的性能。(4)鲁棒语音识别技术全面研究了包括抗环境噪声、说话人自适应、信道自适应等在内的系统鲁棒性问题。提出了一种用于语音识别的鲁棒特征提取算法,这种算法基于MVDR谱估计技术,它在Mel频率尺度上估计MVDR谱,并对得到的MVDR谱进行调制谱滤波,然后提取其倒谱系数作为特征参数。在汽车噪声、人群噪声和高斯白噪声叁种噪声环境下,与MVDR特征提取算法和MFCC特征提取算法按多种信噪比做了对比实验。实验结果表明使用该算法的系统在这叁种噪声环境下的识别率均得到了不同程度的提高。(5)硬件实现问题针对孤立词语音识别算法的硬件实现问题,比较了通用处理器、数字信号处理器(Digital Signal Processog DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)等四种硬件实现方案,提出了一套基于FPGA的硬件实现方案。基于FPGA,针对孤立词语音识别算法,提出了完整的设计流程、设计方案和测试方案,并对每个模块的结构进行了详细说明。最后给出了外围电路的设计,从而完整地以硬件的方式实现了整个语音识别系统。

李克粉[10]2013年在《噪声环境下的语音识别方法研究与改进》文中研究说明随着科学技术的发展和计算机的普及,人们对于计算机的交流方式提出了更高的要求,这促进了语音识别技术的发展,并使之成为语音处理领域中的一个重要研究方向。语音识别从研究至今已经取得了很大的进展。目前,在实验室环境即无噪声干扰的环境下,语音识别系统的识别率已经达到了很高的水平,但在噪声环境下识别性能会大幅下降,主要原因就是噪声的干扰使得训练模版与待识别模版不匹配,从而造成识别率的下降。因此,噪声是语音识别技术广泛实用化的最大障碍,对噪声环境下语音识别系统的研究也就变得尤为重要。本文主要研究了白噪声环境下的语音识别技术,介绍了语音识别的基本原理及系统的各个组成部分包括预处理,端点检测,特征参数提取,模式识别与匹配等。目前抗噪技术主要有叁种:语音增强,抗噪语音特征提取,抗噪语音模型参数调整。随着语音识别抗噪声技术的研究及发展,如何在实际的语音识别系统中将以上的技术合理地结合起来,使语音识别系统在不同的噪声环境中均能达到较高的性能,是抗噪声语音识别研究的一个重要方向。本文研究的重点是预处理阶段和特征参数提取阶段语音识别的抗噪问题。小波变换不论在时域上还是在频域上都具有良好的局部信号分析能力,它是一种较好的信号分析方法,并且广泛应用于信号去噪等多个领域。本文引入了小波分析方法,详细研究了小波变换理论,分析了小波变换的特点,着重研究了小波阈值去噪方法。本文着重研究了两种抗噪方法:语音增强方法和抗噪语音特征参数提取方法。给出将两种方法相结合的抗噪方法,该方法的基本原理是:首先,在语音识别系统的前端增加语音增强部分,针对传统阈值去噪方法存在的问题,给出一种新的阈值去噪方法,并通过Matlab仿真验证了该去噪方法的有效性。其次,在语音特征参数提取阶段,本文给出一种新的基于小波变换的抗噪语音特征参数—TDWTMFCC特征参数,并将其与DWTMFCC参数相结合,用于语音识别特征参数提取。本文将上述改进过的两种抗噪方法(语音增强法和特征参数提取方法)相结合应用于一个非特定人、小词汇量的语音识别系统中,通过Matlab仿真实验对比验证了该组合去噪方法的有效性。

参考文献:

[1]. 语音识别中的抗噪声技术[D]. 丁沛. 清华大学. 2003

[2]. 基于ARM-Linux的抗噪声语音识别技术研究[D]. 王忠文. 广东工业大学. 2008

[3]. 基于HMM抗噪语音识别方法的研究与改进[D]. 李垚飞. 广东工业大学. 2014

[4]. 噪声环境下说话人识别技术研究[D]. 马素丽. 电子科技大学. 2008

[5]. 噪声环境下汉语连续语音识别技术研究[D]. 王艳. 西北大学. 2010

[6]. 基于组合去噪方法的语音识别抗噪技术研究[D]. 柳奇芳. 电子科技大学. 2008

[7]. 带噪语音信号处理中的稳健性加权方法[D]. 许超. 清华大学. 2005

[8]. 噪声环境下语音识别方法的研究[D]. 林遂芳. 西安理工大学. 2005

[9]. 噪声环境下的语音识别技术研究[D]. 龙潜. 中国科学技术大学. 2007

[10]. 噪声环境下的语音识别方法研究与改进[D]. 李克粉. 江苏科技大学. 2013

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

语音识别中的抗噪声技术
下载Doc文档

猜你喜欢