语音识别中自适应方法的研究

语音识别中自适应方法的研究

杨绪魁[1]2014年在《基于子空间的说话人自适应技术研究》文中进行了进一步梳理训练与测试数据之间关于说话人的失配制约着连续语音识别系统的实用化。如何利用少量的自适应数据,增加声学模型与测试数据之间的匹配程度,一直是连续语音识别研究的重点和难点问题。子空间方法通过对高维空间中的低维流形结构进行建模,不仅可以对高维空间进行降维,有效地避免维数灾难问题,而且可以发现数据本身的结构特点,提高模型参数估计的稳健性。本文研究如何利用子空间技术获得更为实用化的说话人自适应技术,主要内容如下:针对本征音算法在自适应数据量较少时,易出现过拟合导致系统性能下降的问题,提出了正则化本征音说话人自适应方法。该方法通过对目标函数引入适当的正则化因子,构造新的目标函数进行优化,从而估计出更优的说话人因子,提高解的稳定性。在NIST LRE2003评测集上进行的语种识别实验表明,改进算法与基线系统相比,在测试语料为短语音段时,系统性能有一定的提升,且测试语料越短,性能提升越明显。在微软语料库上进行的中文连续语音识别实验表明,在自适应数据较为充足时,正则化本征音自适应方法略微降低了系统的性能,但在自适应数据不足时,正则化本征音自适应方法可以有效的提高系统的稳健性。针对本征音这类线性子空间方法无法精细描述非线性子空间内在结构的问题,提出了正交拉普拉斯说话人自适应方法。该方法通过正交局部保持投影算法对说话人子空间进行分析,在去除声学无关信息的基础上,进一步发现这些信息的内在结构。并分别给出了该方法适用于语种识别和连续语音识别的系统框架和实现步骤。在NIST LRE 2003评测集上进行的语种识别实验证明正交拉普拉斯算法能够有效的提升特征的区分性。在微软语料库上进行的中文连续语音识别实验进一步证明该方法优于本征音说话人自适应方法。针对模型层的说话人自适应影响解码速度的问题,提出了特征空间本征音自适应方法。该方法借鉴RATZ算法,采用高斯混合模型对特征空间中的说话人信息进行建模,同时充分利用估计参数之间的相关性,减少估计参数的数量,在对特征空间精确建模的同时,降低了算法对自适应数据量的需求。在基于微软语料库的中文连续语音识别实验中,特征空间本征音自适应方法在自适应数据量极少时仍能取得较好的性能,同时配合说话人自适应训练能够进一步降低词错误率。

崔双喜[2]2006年在《语音识别中说话人自适应技术的研究与实现》文中进行了进一步梳理虽然非特定人语音识别系统达到了令人满意的性能,但在实际应用时,由于说话人的改变通常会使系统性能显著下降。当遇到特殊口音的说话人时,系统的误识率甚至更大。语音识别要走向实用,就必须克服这个鲁棒性问题。因此,说话人自适应技术的意义非常重要。本文从说话人自适应技术入手讨论了语音自适应的各种方法。通过对说话人引起的声学差异的讨论,我们分析和实现了两种说话人自适应方法:最大后验概率(Maximum a Posteriori, MAP)方法和特征语音(Eigenvoice, EV)方法。实验证明这两种自适应方法对说话人自适应有很好的效果。在此基础上本文提出了一种适合强健语音的综合自适应方法。它是在MAP方法中引入一个EV模块,这种新方法成功地结合了MAP和EV两种方法的优点,弥补它们的的缺点。EV方法(属于快速说话人自适应方法)在自适应数据很少时性能优于MAP方法,但随着数据的增加,由于很强的约束强加于它的模型假设,其性能难于改善;而MAP方法给出了结合先验知识和自适应数据的最优解,有良好的渐进性,但自适应数据较少时性能较差。最后,本文通过对汉语数字的识别实验实现了这三种说话人自适应技术。从识别实验中可以看出,在自适应数据较少时,EV方法识别效果较好,而随着自适应数据的增加,MAP方法显示了其优越性。而我们提出的结合这两种方法的综合自适应方法,即使在自适应数据比较少的情况下也取得了很好的效果,这种新方法能够有效的克服说话人差异对识别系统的影响,适合强健语音识别系统的要求。

王坚[3]2007年在《语音识别中的说话人自适应研究》文中研究说明今天,各种高效、快捷的算法使得建立实时的连续语音识别系统成为可能,但是在实际应用中由于说话人的改变会使得系统性能下降。说话人自适应技术利用少量的自适应数据来提高系统性能,能够较好的解决这这种声学差异问题。本文将基于大词汇量连续语音识别平台,围绕说话人自适应技术展开研究,具体工作和创新包括以下几个方面:1.MAP和MLLR算法比较文章在讨论由说话人引起的声学差异基础上,研究两种基于模型的自适应算法:最大似然线性回归(MLLR)和最大后验概率(MAP)。实验结果表明,不论采用哪种自适应都能使识别率有一定的提升。两种算法之间的差异性在于MAP具有良好的渐进性,但收敛性较差,而MLLR在很大程度上改善了收敛特性,但其渐进特性却不如MAP。文章讨论了在MAP自适应中,初始模型参数的先验知识对自适应效果的影响,以及在MLLR中,回归类对自适应效果的影响。文章还进一步研究了采用两种算法的累加自适应效果,从结果看MAP和MLLR结合的方法比单独使用MAP和MLLR的效果要好。文章还对包括基于特征层的归一化算法和用于基于声学模型的MLLR算法等效性进行讨论,并给出了统一的算法框架。2.改进的基于聚类的说话人自适应算法文章提出以模型间加权交叉似然比为距离测度的说话人聚类自适应算法框架。在识别过程中,寻找训练说话人和测试说话人的相关性,充分利用可以提供的自适应语料和训练语料,是提高说话人自适应性能的有效手段。本文中,利用高斯混合模型来表征说话人,并通过说话人聚类来减少参考模型数量,实现粗分类。以此为基础,根据测试说话人的声学特征对参考说话人进行选择,从而实现快速说话人自适应。同时,文章还采用了统一的背景模型来作为各说话人模型的基线系统以增加模型间的耦合度。在目标说话人模型生成阶段,本文利用模型训练过程中产生的声学统计量,快速得到所需的模型参数。实验结果表明,利用说话人聚类技术进行参考说话人粗分类后,识别率比基线系统有较大提高。而且,粗分类精识别的手段表现在不同模型混合度上,都取得了较好的性能。3.参考说话人的动态选择技术及其改进文章在对参考说话人选择技术进行分析的基础上提出了基于支撑向量机的动态参考说话人选择技术(Speaker Support VectorSelection,SSVS)。参考说话人数量及其数据是否足够描述所有参考说话人的分布是取得好的自适应效果的关键。支撑向量机具有自动寻找那些对分类有较好区分能力的支撑向量的能力,因此本文提出将参考说话人视作支撑向量,结合支撑向量机训练过程进行参考说话人选择,以满足最优化和动态的要求。SSVS将参考说话人的选择由手动变为自动,同时满足声学模型完整性和声学近似性的要求。实验证明,这种方法能够取得较好的自适应效果。在此基础上,文章对SSVS进行改进,通过直接选取代表参考说话人的支撑向量来完成参考说话人选择(Reference Support SpeakerSelection,RSSS)。动态参考说话人选择的实现关键在于寻找代表参考说话人的支撑向量。本文借助SVM中的核函数来计算高维特征空间中两个样本间的距离,遍历训练样本集后得到最优分类面附近的样本集,其中各样本即为所需要的参考说话人支撑向量,同时,文章利用置信度来约束支撑向量选择过程。实验数据表明基于RSSS的说话人选择能有效提高系统性能。

许开维[4]2006年在《基于ASR的儿童语言教育系统的研究与实现》文中研究指明随着现代计算机技术的普及和发展,计算机的使用越来越深入到人们的日常生活中。人类与计算机进行交流时,最直接和方便的方式就是语言交流,所以语音识别和语音合成技术已成了现代科技发展的一个标志,语音识别和语音合成也因此成为现代计算机技术研究和发展的重要领域之一。语音识别技术与多种学科的研究领域都有联系,这些领域的科研成果也成为推动语音识别技术发展的重要因素。语音识别技术已经取得了一些成就。但是,大多数语音识别系统仍局限于实验室中试用,远远没有达到实用化的要求。本文研究了语音自适应技术中两种常用的说话人自适应方法:最大后验概率(MAP)方法和最大似然线性回归(MLLR)方法。在此基础上,本文提出一种适合于语音识别的复合渐进自适应方法。这种新方法成功地结合了MAP和MLLR两种方法的优点。新方法使用了一个全局转移矩阵来简化MLLR模块,用来解决环境和说话人生理引起的差异,提供了更加精确的MAP模块初始模型。另外,渐进的MAP模块用来精细的刻画基于音素层次的差异,同时也确保了整个方法的渐进性。本文应用复合渐进方法对微软语音识别引擎进行了改进,在随后的验证性实验中,这种复合方法取得了较好的效果。实验证明,这种新方法能够有效地克服说话人差异和环境差异对识别系统的影响,能较好地适合语音识别系统的要求。在上述理论研究成果的基础上,本文结合了现代教育技术的成果与儿童语言教育的需求,成功地应用改进后的微软语音识别引擎开发了儿童语言教育软件,实现了中文语音识别、VC++、Flash和微软语音识别引擎之间的通讯、中文/拼音/英文语音识别、发音正误判断动画、TTS等功能。该软件形象直观,具有较强的实用性,是一种较为成功的儿童语言教育工具。本文通过对语音识别自适应技术中的方法研究,将其成果应用到了儿童语言教育实践中去,取得了较为良好的效果,具有较为理想的研究和应用价值。

梁玉龙[5]2017年在《深度神经网络的说话人自适应技术研究》文中研究说明随着深度神经网络在大词汇连续语音识别中的应用越来越广泛,基于深度神经网络架构的语音识别系统也逐渐成为人们研究的重点与热点。与传统的高斯混合模型-隐马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)相似,在深度神经网络框架下也同样存在着训练数据和测试数据之间的不匹配问题。说话人自适应技术能够利用说话人信息对神经网络参数调整,有效的改善这种不匹配问题。本文研究如何运用说话人信息提出更为合理且实用的自适应技术,主要内容如下:针对bottleneck tandem系统中说话人自适应方法应用时,由于瓶颈层的存在,导致系统性能欠佳,本文提出一种结合半非负矩阵分解(Semi Non-negative Matrix Factorization,SNMF)及i-vector的说话人自适应方法。该方法有两种实现方式:第一种是利用i-vector进行说话人感知训练,然后利用SNMF算法对权值矩阵某一层做分解,并提取相关特征;第二种首先训练一个说话人无关的神经网络,其次利用i-vector训练自适应网络,接着调整说话人无关神经网络参数,最后利用SNMF算法对权值矩阵做分解并提取特征。最后利用该特征进行识别。在语料较充足的WSJ语料库以及语料数据量较少的捷克语语料库的语音识别任务中,该方法均能够使系统的识别性能进一步的提升。针对基于i-vector的说话人自适应方法在实现过程中,i-vector的提取用到了梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)特征,由于该特征鲁棒性相对较差,提出一种改进i-vector的说话人自适应方法。该方法通过引入基于奇异值矩阵分解算法的低维特征提取方法,将i-vector提取过程中用到的特征用该方法提取的鲁棒性更强的低维特征替换,以提取表征能力更优的i-vector,使基于改进i-vector的说话人自适应方法的语音识别系统的识别性能得到改善。在捷克语语料库以及WSJ语料库中的语音识别实验表明,该方法相对于没有使用说话人自适应方法的深度神经网络语音识别系统的性能有明显的改善,且相对于传统的基于i-vector的说话人自适应方法的深度神经网络语音识别系统的性能也有一定的改善。针对说话人感知训练算法中的说话人信息选择的问题,本文引入一种新的说话人信息——说话人嵌入特征,该特征较i-vector能够很好的处理短的语音片段,基于此特征提出一种基于说话人嵌入特征的说话人自适应方法。该方法首先利用一阶统计量以及说话人标签训练深度神经网络(Deep Neural Network,DNN)模型并提取说话人嵌入特征,然后利用该特征和原始输入特征拼接后的特征进行说话人自适应。timit语料库的语音识别任务实验表明,该方法能够改善DNN-HMM语音识别系统的性能。

黄智颖[6]2017年在《RNN-BLSTM声学模型的说话人自适应方法研究》文中认为说话人自适应技术利用特定说话人提供的语料,让语音识别系统在识别性能上针对该说话人有明显的提升。它可以将说话人无关的识别系统转换成说话人相关的识别系统,从而和说话人相关的声学特征相匹配;也可以将说话人相关的声学特征转换成说话人无关的声学特征,从而和说话人无关的识别系统相匹配。因此,说话人自适应技术是为了让说话人和识别系统尽量匹配。基于双向长短时记忆单元的递归神经网络(recurrent neural network with bidi-rectional Long Short-Term Memory,RNN-BLSTM)声学模型不仅针对语音 的时序进行建模,而且利用一些控制器来控制信息流,从而解决了传统的基于递归神经网络声学模型的梯度爆炸和梯度消失问题。同时,在一些语音标准数据集上基于RNN-BLSTM声学模型的语音识别系统相比于深度神经网络(Deep Neural Networks,DNN)获得了超过10%的性能提升。虽然RNN-BLSTM声学模型在识别性能上相比于DNN有了大幅度的提升,但是依旧不能够解决上述的不匹配问题。因此,在RNN-BLSTM声学模型上进行说话人自适应技术的研究尤为重要。本文主要围绕RNN-BLSTM声学模型上的说话人自适应展开研究。首先,本文将基于说话人编码(speaker code)的说话人自适应方法应用于RNN-BLSTM声学模型,并分析RNN-BLSTM的记忆单元(memory cell)中的不同控制器对说话人自适应的识别性能的影响。与此同时,我们还提出一些启发式的算法来对基于speaker code的方法进行优化和改进,从而进一步地提升识别性能。然后,本文提出了基于深层编码(deep code,d-code)的离线说话人自适应方法,该方法提供了一种解决基于speaker code的说话人自适应方法的二遍解码问题的途径。通过实验对比,该方法在识别性能上与基于speaker code的方法相接近,并且比同样不需要二遍解码的基于鉴别性矢量(identity vector,i-vector)的说话人自适应方法在识别性能上更优,训练过程更加灵活。最后,本文研究基于d-code的在线说话人自适应方法,该方法不需要收集说话人整个句子。它在在线的语音识别过程中逐步进行说话人自适应,并取得了较好的识别效果。

齐耀辉[7]2014年在《自然口语语音识别中的声学建模研究》文中研究说明声学建模是语音识别领域中的关键问题之一,其精确性直接影响语音识别系统的性能。如何建立更精确的声学模型一直以来都是研究者关注的重点。本文以提高声学模型参数的准确性和连续语音识别系统的性能为主要目的,对声学模型训练中状态聚类前三音子模型参数的估计和声学模型自适应进行了研究。首先,为了提高汉语连续语音识别中决策树状态聚类的精度,对状态聚类前三音子模型的优化进行了研究。决策树的构建与其所用的三音子模型参数的准确度存在密切的关系。训练语料中存在大量的稀疏三音子,因此在声学模型的训练过程中,状态聚类前三音子模型的训练存在数据稀疏问题。针对此问题,提出采用最大后验概率(MAP)准则估计状态聚类前三音子的模型参数。另外,MAP估计对模型的初始参数要求较高,而仅是音调不同的带调声韵母三音子集合之间的相似度比只有中心音子相同的带调声韵母三音子集合之间的相似度要高,因此采用无调声韵母三音子的模型参数初始化有调声韵母三音子的模型的方法,来提高有调声韵母三音子模型的初始参数的准确度。通过这些策略,提高了系统的识别性能。其次,对区分性最大后验概率自适应进行了研究。最小音素错误最大后验概率(MPE-MAP)算法在区分性训练中融入先验信息,实现了声学模型的区分性自适应。先验分布中的超参数的准确程度对MPE-MAP的性能有很大的影响,针对此情况,分别采用最大互信息最大后验概率(MMI-MAP)和基于最大互信息准则与最大似然准则相结合的H-criterion最大后验概率(H-MAP)自适应算法估计先验分布中的超参数,提出了MPE-MMI-MAP和MPE-H-MAP算法。两种算法通过提高超参数的准确度来使自适应后的模型得到优化,从而提高了自适应的性能。然后,对区分性线性变换自适应进行了研究。I-smoothing技术对区分性线性变换自适应方法非常重要,其通过在区分性目标函数中加入变换矩阵的对数先验分布来实现。本论文在实现区分性线性变换中的平滑时采用均值的先验分布,提出了基于均值先验的平滑方法。如果用最大似然(ML)估计的统计量定义均值先验分布中的超参数,可以得到和I-smoothing相同的结果。针对自适应情景中数据量非常少,采用ML估计的参数存在准确度不高的问题,提出采用MAP估计的统计量定义先验分布中的超参数,使区分性线性变换在少量自适应数据的情况下得到性能提升。另外,为了将区分性和最大后验概率相结合,本论文设计了一个新的目标函数来估计线性变换参数,提出了区分性最大后验概率线性回归自适应算法。实验结果表明,该算法在少量自适应数据的情况下可以提高自适应的性能,在大量自适应数据情况下仍能保持区分性线性变换的性能。最后,对线性投影(LP)自适应方法进行了研究。LP函数对多个初始模型进行线性变换,来得到自适应后的模型,可以看作是线性回归(LR)函数的扩展。本论文提出了基于变换矩阵的LP自适应方法,该方法采用说话人自适应(SA)模型作为初始模型,并用变换矩阵表示特定人信息。在选择初始模型时采用了最大似然的方法,以选择具有最重要信息的模型作为初始模型,减少所要估计的参数的数量,从而实现了一种快速自适应算法。

李景杰[8]2015年在《耳语音转换正常语音及耳语音识别建模方法研究》文中指出耳语音是一种有别于正常语音的常见发音方式,广泛地应用于人们的日常交流当中。由于发音器官进行耳语音发声时,声带没有振动,导致耳语音的浊音部分没有基频,并导致耳语音的频谱结构与正常语音存在很大不同。这一发音特点不仅导致耳语音的能量较低,而且也使得其自然度和可懂度比同样条件下的正常语音低。本文主要针对耳语音转换正常语音及耳语音识别的建模方法进行研究。耳语音转换正常语音的目的将一个人的耳语音通过某种方式转换成正常语音,以提高耳语音的自然度和可懂度。在公共场所,人们出于隐私或者避免打扰他人的考虑,在语音通话时通常会采用耳语音。但是现有的通信系统都是针对正常语音发展而来,对耳语音支持度不高。耳语音转换技术有望可以提高耳语音通话的可懂度和自然度。此外,耳语音转换也可以应用在失音患者的辅助发音当中。本文先后进行了基于规则和基于统计的耳语音转换研究。基于规则的转换模型具有高效快速、不需要训练数据等优点,而基于统计的转换模型需要训练数据,实时性也稍逊一筹,但是其转换音质较高,因此都具有研究价值。已有的基于码激励线性预测编码器(Code exited linear prediction, CELP)的耳语音转换模型不仅频谱转换规则复杂,需要对耳语音音素进行预分类,而且又存在基频生成规则过于简单的问题,使得其转换语音音质不佳,而且难以应用在连续耳语音的转换任务当中。为此,本文提出了基于正弦语音(Sinewave speech, SWS)合成的耳语音转换模型。这种模型不仅更加简洁,去掉了耳语音预处理模块,加入了根据共振峰估计基频的模块,而且可以作用于连续耳语音的转换,并使得转换语音的音质有了一定的改善。在基于统计的耳语音转换模型研究中,本文针对传统基于高斯混合模型(Gaussian mixture model, GMM)的耳语音频谱转换模型难以对维间相关性和高维谱包络建模的不足,提出将受限玻尔兹曼机(restricted Boltzmann machine, RBM)应用于耳语音频谱转换建模。由于RBM不仅支持高维的谱包络输入,而且对维间相关性具有较强的建模的能力,使得该模型的转换语音相对GMM模型的转换语音有了明显的主观听感提升。此外,本文还尝试了将深层神经网络(Deep neural network, DNN)用于耳语音频谱转换的建模当中。采用标准的RBM逐层预训练和最小均方误差准则(Minimum mean square error, MMSE)有监督训练得到的DNN,在训练数据较少的情况下容易出现过拟合现象,且网络训练容易受奇异数据影响。为此,本文提出了一种半监督(Semi-supervised)耳语音转换DNN训练流程。在该流程中,各采用一个RBM分别对耳语音和并行的正常语音谱包络参数空间建模,并通过训练得到的模型计算RBM隐层数据,这相当于对谱包络参数进行二值编码。然后,用MMSE准则训练DNN中间网络,建立耳语音谱包络二值编码到正常语音谱包络二值编码的映射关系。最后,将两两端的RBM和DNN中间网络组合成完整的DNN,完成耳语音谱包络参数到正常语音谱包络参数的转换。主观听感实验表明,这种半监督DNN不仅相对标准DNN有了明显的听感提升,而且相对RBM模型也有了一定的主观听感改善。最后,本文在DNN-HMM混合模型框架下对耳语音识别的声学模型建模方法进行了研究。由于耳语音的频谱比较平缓,不同音素之间的声学特征区分性比较小,使得传统的GMM-HMM声学模型在耳语音识别任务上识别率不佳。DNN不仅支持高维的上下文声学特征输入,而且逐层特征提取的结构也更利于建立频谱特征到HMM状态的深层映射关系,相对传统的GMM-HMM更加适合对耳语音进行建模。同时,为了解决耳语音数据资源不足难以进一步提高DNN声学模型性能的难题,本文提出了一种基于知识传递(Knowledge transfer, KT)的耳语音DNN训练流程,可以将海量的正常语音数据和模型资源用于耳语音DNN的训练,大幅提升了耳语音的识别率。此外,由于耳语音中说话人信息收到损失,用于正常语音说话人DNN自适应方法在耳语音说话人自适应中面临很大的不确定性。本文分别进行了基于DNN特征域和模型域的耳语音说话人自适应验证实验,发现可以通过DNN有监督训练的方法从耳语音提取到有效的说话人信息,并且如果将该信息通过全连接矩阵输入到DNN的隐层和输出层,得到的说话人自适应模型在仅需要少量注册数据的情况下,就可以相对说话人无关模型取得一定的识别率提升。

方斌[9]1997年在《语音识别中自适应方法的研究》文中指出自动语音识别技术的研究在最近二十年里,取得了很大成就。特别是在语音数字信号分析、统计模型等方面形成了完整的理论体系,出现了许多优秀的语音识别系统。同时,应该看到,语音识别系统的稳健性(Robustness)较差是其走向实用的主要障碍。所以,对语音识别系统自适应能力的研究成为语音识别领域的重要课题。 本文着重研究语音识别中的自适应方法。首先,分析了影响语音识别系统稳健性的主要因素,有代表性地介绍了当今语音识别领域内两大类主流自适应方法——基于映射的自适应和基于贝叶斯学习的自适应。另外,考虑到目前许多自适应方法是对语音倒谱特征向量作处理实现的,本文将其统称为基于倒谱规整的自适应方法,并作简要介绍。然后,在已有的一个语音识别实验系统上实现了部分方法。通过实验发现,用贝叶斯学习的方法修正模型参数效果明显。这是一种将影响系统稳健性的诸多因素通盘考虑的自适应方法,但其不足是在参数优化估计方面只照顾单个语音模型而非整个模型系统。 为此,我们在有辨识力的训练法的启发下,提出一类新的自适应方法——“有辨识力的自适应”。该方法通过辨识力函数表征样本在模型系统下被错误识别的概率,将最小化错误识别概率作为模型系统参数优化的标准。实践中,提供并实现了一个针对实验系统的算法,取得了较为明显的效果,新说话人在自适应处理后,识别率提高约五个百分点。有辨识力的自适应的思想也可应用于其它的语音识别系统。

吕英[10]2015年在《音频事件识别信道自适应方法研究》文中研究说明对于互联网传输环境下的音频事件识别而言,采集设备、录制环境、编码方式的差异都会产生信道失配,本文集中研究如何消解编码差异引入的信道失配,提出特征域和模型域的音频事件识别信道自适应方法。针对音频编码差异引入的非线性失配问题,提出一种自匹配Top-N高斯分量加权特征映射的音频事件识别信道自适应方法。该方法在特征提取之后模型训练之前,对提取的每帧特征向量参数,采用所属信道模型中得分排名前N的高斯分量进行线性加权和特征变换,其中Top-N的值由得分阈值自匹配得到,这样不仅可以覆盖均匀的信道信息,还可规避固定Top-N方法对不同高斯数目信道模型泛化性差的缺陷。实验结果表明,自匹配Top-N方法比Top-1和固定Top-N高斯分量加权的特征映射方法具有更好的信道自适应性能,可进一步提高音频事件识别系统在信道失配情况下的识别性能。为进一步提高失配系统的信道自适应能力,基于模型域信道自适应方法,提出了一种针对音频事件识别系统的音频事件模型合成(AEMS)信道自适应方法。该方法先用训练数据完成信道模型集和音频事件原始模型集的训练,然后对提取的待识别数据进行信道判定,为其合成与其信道类型一致的音频事件模型,最后再进行基于片段和基于时长的音频事件模型识别。实验结果表明,该方法能够较好地去除信道信息,解决信道失配问题,提高音频事件识别系统在网络传输编码差异影响下的抗信道畸变能力。此外,本文设计和实现了基于特征域和模型域信道联合自适应音频事件识别实验原型系统。实验结果表明,系统平均片段F值为88.67%,系统平均时长F值为85.20%,拥有比单一域方法更好的信道自适应性能。

参考文献:

[1]. 基于子空间的说话人自适应技术研究[D]. 杨绪魁. 解放军信息工程大学. 2014

[2]. 语音识别中说话人自适应技术的研究与实现[D]. 崔双喜. 燕山大学. 2006

[3]. 语音识别中的说话人自适应研究[D]. 王坚. 北京邮电大学. 2007

[4]. 基于ASR的儿童语言教育系统的研究与实现[D]. 许开维. 东南大学. 2006

[5]. 深度神经网络的说话人自适应技术研究[D]. 梁玉龙. 解放军信息工程大学. 2017

[6]. RNN-BLSTM声学模型的说话人自适应方法研究[D]. 黄智颖. 中国科学技术大学. 2017

[7]. 自然口语语音识别中的声学建模研究[D]. 齐耀辉. 北京理工大学. 2014

[8]. 耳语音转换正常语音及耳语音识别建模方法研究[D]. 李景杰. 中国科学技术大学. 2015

[9]. 语音识别中自适应方法的研究[D]. 方斌. 中国科学院研究生院(计算技术研究所). 1997

[10]. 音频事件识别信道自适应方法研究[D]. 吕英. 北京理工大学. 2015

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

语音识别中自适应方法的研究
下载Doc文档

猜你喜欢