任意文本的说话人识别系统研究

任意文本的说话人识别系统研究

刘玲霜[1]2017年在《基于语音信号处理的呼吸认证方法研究》文中提出说话人识别是一类基础问题,该问题可以细分为两类:说话人辨别问题和说话人确认问题。根据对语音文本的依赖程度不同,说话人识别又分为文本相关型、文本无关型、文本提示型。识别说话人包括训练/登记和测试/验证两个阶段,训练阶段建立合法说话人(即目标说话人)特征模板,测试阶段则计算待识别说话人的测试语音数据与合法说话人特征模板的相似度,并得出判断结果。在最近20多年的研究中,说话人识别普遍关注语音信号的音源,发音系统,韵律特征。而语音中的呼吸信号在研究中并没有受到关注,甚至将其作为噪音项进行剔除。通过本文的观察和研究发现,呼吸信号具有其独特性,是呼吸系统意义上的生理指纹。它是人体自然而然产生的,持续时间短,发生频率低且处理简单,呼吸特征是人体与生俱来的,具有唯一,稳定的特点。基于呼吸信号的这些特点,本文提出了一种基于呼吸特征的说话人识别方案—“BreathID”,它具有文识别准确率高、文本无关、轻量级且可实现对用户透明的优点。“Breath ID”分为3个部分:呼吸边界分离,特征提取和选择,特征匹配。本文通过CDF统计分析和实证研究,选择梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,简称MFCC)作为说话人的呼吸特征。文中提出了基于一组简单向量操作的轻量级的分类算法,最后通过该分类算法进行相似度匹配,做出说话人决策。“Breath ID”的实验分为两个部分,第一部分是对50个用户收集数据进行实验,评估“BreathID”的总体性能。实验结果如下:说话人辨别实验中,方案的错误辨别率(False Identification Rate:简称FIR)为0.04%;说话人确认实验中,方案的错误接受率(False Acceptance Rate:简称FAR)为0.12%,错误拒绝率(False Rejection Rate:简称FAR)为0.15%。第二部分通过另外20个用户的数据在不同的实用场景中对“BreathID”的一致性进行评估,包括文本无关性,用户状态(静坐和走路),录音设备(3个智能手机和2个商业麦克风),录音周期(8个月),语言(中文和英文),攻击(重放攻击)。

刘兴立[2]2000年在《任意文本的说话人识别系统研究》文中研究指明自动说话人识别是指根据包含在语音中的同说话人有关的信息来自动识别说话人。随着信息技术和通信技术的迅速发展,自动说话人识别技术越来越受到重视。说话人识别可以分为说话人辨识和说话人确认两大类。本文的研究内容是任意文本的说话人辨识系统,主要做了以下的工作: 1.建立了两个分别包括15个说话人和20个说话人的语音库。录 制的语音库考虑了语速快慢、音量、时间间隔等影响说话人 辨识系统性能的因素。 2.研究了常见的几种说话人特征的性质和提取方法。这些特征 包括基音周期、FFT倒谱、MEL倒谱、LPC倒谱、CMS倒 谱、PFCMS倒谱、PFL倒谱和过渡倒谱等。 3.研究了VQ、GVQ、GMM和RBF等四种说话人建模方法和模 式分离算法。基于以上特征参数和模型建立了多套完整的说 话人识别系统。 4.研究了提高系统的Robust性能的常用方法。包括对特征参数 进行后处理、多种特征结合、混合训练、改进判决准则、对 语音信号的语速进行处理以及说话人模型的自适应等。 5.最后给出了详细的测试结果。

李冬冬[3]2008年在《基于拓展和聚类的情感鲁棒说话人识别研究》文中指出说话人识别技术是根据包含在语音波形中特有的个体信息,以声音作为生物特征,自动识别说话人身份的过程。它被认为是最自然的生物认证技术,具有广泛的应用前景。传统说话人识别系统当系统用户在平静状态下训练、测试时,已取得了非常出色的识别性能。然而,当说话人在不同情感状态间转变时,由于说话人情绪的改变引起了发音方式的变化,使得基于中性训练语音的说话人识别系统的性能急剧下降。在综述情感语音处理现状和存在情感影响的说话人识别系统的最新进展的基础上,本文紧紧围绕如何提高训练语音和测试语音之间的情感匹配度这个问题,从情感拓展和聚类角度给出了有效的解决方案,从特征、模型和得分三个层次上提出了构建情感鲁棒的说话人识别模型的关键算法。本文的主要贡献总结如下:1.深入分析了情感语音对说话人识别系统的影响本文分别从文本的相关性、文本的情感性、不同训练情感语料的数量、不同建模方法、不同取得分策略以及不同背景模型等方面对存在情感差异性语音的说话人识别系统进行深入研究。针对情感语音对说话人识别系统的影响,提出了抗情感变化的说话人识别系统的建设对策以及基于拓展和聚类的情感鲁棒说话人识别模型。2.提出了一个基于规则的特征修正方法针对说话人情感状态转变带来的系统训练和测试时情感状态不匹配,基于规则的特征修正方法通过学习相同文本下情感语音和中性语音间的韵律参数变化规则,对系统注册用户的中性语音特征进行修正,有助于丰富训练语音的情感信息,从而较大幅度地提高了识别性能。3.提出了一个基于情感模型间参数迁移规律的特征映射方法本文根据模型自适应UBM-MAP方法中,背景模型与自适应得到的模型中的各个高斯分布分量之间存在一一对应关系这一显著特点,根据情感无关的通用背景模型与情感相关模型之间的参数迁移规律,通过对中性语音特征进行映射,改变中性语音的特征分布,以使训练特征具有情感语音特征的分布信息,有效提高了训练语音和测试语音之间的情感匹配度。4.提出了一个基于情感语音聚类的说话人建模方法根据语音特征空间分布随说话人所处的情感状态的改变而移动,本文认为相似的韵律特征变化产生了倒谱特征在空间分布上相似变形,基于情感语音聚类的说话人建模方法把韵律特征变化趋势一致的情感语音聚类一类,对说话人的情感语音分类建模。实验表明,基于情感语音聚类的说话人建模方法具有良好地表达说话人情感语音特征分布的能力。5.提出了一个基于语音帧加权的得分规整算法文本在研究基于语音帧的说话人系统中目标模型和非目标模型帧似然概率特性的基础上,借鉴语音帧的得分对说话人模型的排序,对得分重加权,有效地增加了正确帧的得分权重,并优化了测试语句的最终得分。同时,该方法改进了传统基于语句的得分规整方法不能提高说话人鉴别率的缺点。

邱政权[4]2007年在《在噪声环境下的说话人识别》文中研究表明说话人识别的研究有几十年了,因此有些技术已经很成熟。尤其是与文本相关的说话人识别已经商品化。但是与文本无关的说话人识别,因为事先不知道文本的内容,所以就困难得多,但是这也是吸引人的地方,所以正是人们的研究热点。而且,虽然说话人识别在纯净语音环境中取得了令人满意的结果,但是一旦到了噪声环境下,说话人的识别率就会急剧地下降。这就牵涉到说话人识别系统的鲁棒性问题了。因此本文着重研究在噪声环境下的说话人识别。本文所做的工作主要如下:(1)针对在噪声环境下的说话人识别系统做了两点改进。第一,为了提高系统的鲁棒性,通过不同尺度的小波基,把含有噪声的信号分解于不同频段中,然后在各个频段分别通过TEO(Teager能量算子)去噪。针对说话人识别的特点,在小波重构时对各小波系数进行了加权处理。再把各个频段的输出通过小波重构恢复信号。最后通过Mel滤波器组把小波系数转换成MFCC。第二,为了进一步提高识别性能和训练速度,我们在识别阶段采用了改进的OGMM(正交高斯混合模型)即把正交变换改到EM算法之前进行,这样就不必要在EM迭代过程中每次都进行正交运算了。从实验得出,采用我们提出的DWT-TEO参数对于说话人识别的效果较好。采用改进的正交高斯混合模型进一步提高了识别性能和训练速度。(2)KLT已经成功用于与文本无关的说话人辨认的特征提取,但是对于特征矢量分解,它需要巨大的计算负担。为了减轻计算负担,把Karhunen Looeve变换(KLT)和重叠子帧合并起来用于噪声环境下的说话人辨认。基于重叠子帧的分离方法,我们提出了一种有效技术去建立特征矢量矩阵和取得KLT技术的优点的有效性。在传统的MCE方法中,对于有K个说话人的系统而言,每一类别的分类错误都需要计算K-1类的判别函数,随着K的增加,使得计算量大量增加,于是提出了一种改进的MCE模型去减少计算量,并进而提高运算速度。实验结果显示:所提出的方法确实减少了计算量,而且提高了系统的辨认率。(3)采用了改进的小波去噪方法对含噪语音进行了前端处理,并且针对说话人识别的特点,在小波重构之前对各小波系数进行了加权处理;识别过程采用了GMM识别算法。实验结果显示,本文所提出的方法对于含噪说话人识别有着比纯粹使用MFCC作为识别特征的说话人识别有明显的优越性。所提出的方法对进行实时的说话人识别有很好的指导作用。(4)高斯函数的线性组合能描述大量的采样分布,因此GMM具有计算的有效性和易于实现的优点,特别是在实时平台上。基于ML规则,模型参数不断更新,直到观察序列的概率的一些极限点。然而实际上,由于爬山特征,任意的原始模型参数估计通常将导致局部最优。遗传算法(GA)是近年来发展起来的强有力全局搜索工具,特别适合于求解复杂组合优化问题及非线性函数优化。提出了基于说话人识别的可以解决GMM局部最优问题GMM/GA新算法。实验结果显示,提出的GMM/GA新算法比纯粹的GMM算法能获得更优的效果。(5)去噪的目的是去掉噪声和保留尽量重要的特征。近来,用非线性处理的信号去噪,如小波变换已越来越普遍。对于小波阈值,使用了根据估计值变量和偏差的能显示软硬阈值的半软阈值函数。GMM普遍用于说话人识别系统中,并且在宽带语音中表现出了很好的性能。然而,在噪声环境下,性能急剧下降。GMM的另一个困难是需要至少几分钟的训练语音,这对实时应用是不适用的。另一方面,ANN需更少的训练数据。所以联合概率神经网络(PNN)和GMM去提高系统的性能。试验结果显示,所提出的方法有利于噪声环境下的说话人识别。

李燕萍[5]2009年在《说话人辨认中的特征参数提取和鲁棒性技术研究》文中进行了进一步梳理语音是人类获取信息的主要来源之一,也是最方便、最有效、最自然的交流工具。语音识别是研究使机器能准确地听出人的语音内容的问题,其目的是方便人与机器的交流。说话人识别技术是语音识别的一种特殊形式,其目的不是识别说话人讲的内容,而是识别说话人是谁。说话人识别技术在近三十多年的时间里取得了很大的进步,这种技术的应用为人类的日常生活带来很大的便利。但是,随着说话人识别技术实用化的不断深入,不同应用领域对该技术的要求越来越高。一方面,说话人发音的多变性,要求提取适合说话人识别的特征以保证系统的性能;另一方面,噪声环境、训练与测试数据的时长以及通信信道的失真等问题都严重影响到说话人识别系统在实际应用中的性能。本论文针对文本无关的说话人辨认任务,在说话人个性特征提取和噪声鲁棒性技术两个方面进行了研究,主要内容包括:1.提出基于特征变换和模糊最小二乘支持向量机的辨认算法。针对最小二乘支持向量机模型在语音数据大样本输入下的局限性,一方面对传统的梅尔倒谱特征MFCC进行基于高斯混合模型的特征变换,解决训练最小二乘支持向量机的过程中需要求解的线性方程组的变量数目与特征数量紧密相关的问题;另一方面,通过引入模糊隶属度函数,处理了最小二乘支持向量机从二分类扩展到说话人辨认的多分类时存在的不可分数据问题。高斯混合模型作为一种经典的生成式模型,不但能有效减少数据量,起到压缩数据的作用,而且由于聚类变换后的结果是高斯混合模型的均值矢量集,能够很好地代表说话人的特征,起到突出说话人信息的作用。基于特征变换和模糊最小二乘支持向量机的辨认算法结合了高斯混合模型在拟合数据方面的优势和最小二乘支持向量机在分类辨别方面的优势,从而改善系统系统的性能。2.提出基于高斯混合模型的感知特征补偿变换的抗噪声算法。从人类听觉感知特性出发,基于感知线性预测模型从不同层次模拟了人耳的听觉特性,从语音的频谱细节考虑,去除了会引起说话人信息平滑的临界带频谱分析,提取改进的感知对数面积比系数MPLAR作为说话人特征,具有良好的可分性;并在此基础上,根据说话人识别的声学特性,从匹配得分的整体考虑,对模型输出的似然得分引入非线性变换,拉大目标模型与非目标模型的得分比,拉近同一模型各帧得分值,使得各模型的得分值不仅与当前时刻的似然概率有关,还与之前的K个时刻的似然概率有关,解决了MPLAR在不同类型噪声条件下的抗噪性能问题。基于感知特征和模型补偿的说话人辨认算法不仅提供了可分性更好的特征,并且在模型匹配阶段从整体得分的统计特性出发,得到稳定的模型得分,增强了系统在噪声环境下的识别能力。3.提出基于自适应频率规整的鲁棒性辨认算法。经典的梅尔倒谱特征和感知线性预测特征从人类的听觉感知机理出发,模拟了人类听觉系统对声音频率的感知特性,改进了说话人的识别性能,但是这种处理方式并没有对语义特征和说话人个性特征区别对待,而是在特征提取阶段笼统地降低了高频信息的比重。自适应频率规整算法是基于说话人信息在不同频带呈不均匀分布的原理,从语音生成的生理学角度分析人类在发音过程中的结构变化,从中获取携带说话人信息的生理特征,进而从频谱分析的层次对不同频带对说话人信息的贡献进行量化,指导设计了与Mel频率尺度不同的自适应频率尺度变换,在说话人信息贡献大的区域分配的滤波器个数增多,带宽变小,频率分辨率提高,而贡献小的区域分配的滤波器个数减少,带宽变大,频率分辨率降低,从而进行自适应的频谱滤波,提取区分性特征DFCC。并且针对应用到实际使用环境时存在的训练语音与测试语音失配的问题,对语音频谱进行逐帧逐频率点的预增强处理,去除噪声的干扰,进一步提高系统的鲁棒性。4.提出基于汉语元音映射的说话人辨认方法。该方法从汉语语音的特点出发,对基于汉语的说话人识别进行研究。由于汉语具有相对稳定的音节结构,并且其中的元音部分占据了主要的能量和时长,基于此,从汉语语音的特点出发,对汉语拼音的结构、发音特点进行分析,并且通过元音频谱对比、音素滑动分析、韵母分解实验和共振峰分析等,从短时帧角度将韵母中的元音部分分解为单元音音素的组合,结合大量语音学知识构建了汉语元音映射表,通过汉语元音映射,能够有效地分离语音信号中的语义信息和话者身份信息,将文本无关的说话人识别问题转化为与有限个单元音音素有关的识别问题,并由此衍生出新的说话人建模方法以及新的识别框架,在提高识别率的同时降低对训练和测试数据时长的依赖。在新的识别框架下,提出了一种基于仿生模式识别的说话人辨认算法,在训练阶段利用改进的最近邻覆盖算法为每个单元音音素建立有效的覆盖;在识别阶段根据待测元音帧是否落入对应覆盖区域进行判别,该算法在开集测试条件下对冒名者具有较好的分辨能力。

钱博[6]2007年在《基于汉语元音映射的说话人识别技术研究》文中认为语音是人类获取信息的主要来源之一,也是最方便、最有效、最自然的交流工具。说话人识别技术在近三十多年的时间里取得了很大的进步,这种技术的应用为人类的日常生活带来很大的便利。但是,随着说话人识别的实用化,不同应用领域对其要求。也越来越高。一方面,发音的多变性使说话人识别系统的适应性还有待提高;另一方面,噪声、训练时间以及通信信道失真等问题也会产生很大的影响。对于说话人识别来说,最主要的两个问题是如何从语音中提取单纯反映说话人身份信息的鲁棒特征,以及如何建立有效的识别模型达到实际应用中对速度、数据量、使用条件等方面的要求。本文针对汉语语音的特点,从分离身份信息和提高系统鲁棒性两个方面出发对汉语说话人识别展开研究,提出了新的说话人识别框架、模型和算法,主要取得了以下创新性成果。本文的核心是提出了一种新的基于汉语元音映射的说话人识别框架。该框架的基础是将汉语韵母中的元音部分以单元音音素为单位进行分解,对此我们使用频谱对比、特征对比、单元音滑动统计分布、分类器识别率等方式证实了从短时帧角度出发,汉语韵母可以分解为单元音音素的组合,并通过大量的实验建立了汉语韵母到单元音的映射表。相对于传统的说话人识别模型,新框架增加了汉语单元音音素分类模块进行韵母分解,并将多个针对单元音的说话人识别器组织起来代替传统的匹配或统计模块对帧特征进行处理。根据这个框架,每个针对单元音的说话人识别器进行说话人识别时避免了语义信息的干扰,增强了分类的针对性;同时,整个系统以短时帧作为基本识别单位,更易于达到实时处理的目标。根据基于汉语元音映射的说话人识别框架,提出了基于汉语元音分类的矢量量化说话人识别方法。由于每个矢量量化分类器在训练和识别过程中避免了语义信息的影响,该方法利用较小的码本就可以获得较高的识别率。然而,为了保证码本质量,需要大量的训练数据和识别数据。针对说话人识别方法需要大量数据参与训练和识别的缺点,结合新框架,本文又提出了基于仿生模式识别的汉语说话人识别方法。该方法在训练过程中为每个说话人的每个单元音音素帧特征在特征空间中建立一个包络;识别时通过分析测试帧特征与包络的关系进行判决,大大缩减了对训练和识别数据量的需求。在研究过程中,我们发现基于汉语元音映射的说话人识别框架由于增加了单元音分类模块,会带来分类误差并导致识别速度下降。对此,结合集成学习理论,我们提出了基于汉语元音映射的神经网络集成说话人识别方法。该方法在识别过程中不需要预先对测试语音帧进行元音分类,省略了元音分类模块,从而避免引入元音分类误差,加快了识别速度。此外,针对新的说话人识别框架的特点,本文在预处理和抗噪方面也进行了研究和改进,主要包括:提出了基于频谱特征的自适应元音帧提取算法,在损失端点检测准确性的前提下提高元音帧提取的速度和正确率;结合谐波积谱思想改进了基音提取算法;提出了基于背景估计的自适应抗噪方法,实现GMM模型下数据噪声背景不同时特征的提取、修正和识别;针对测试数据与训练数据背景不同的情况,从特征值处理和模型补偿两方面考虑,提出了基于高斯混合模型的加权特征补偿变换的抗噪方法,进一步改善了系统的性能。从本文一系列仿真实验的结果分析可得,基于本文新框架、模型和算法实现的说话人识别系统在识别率、识别速度和抗噪能力上都有所提高。特别是基于汉语元音分类的思想为分离语音特征中的语义信息和话者身份信息,将文本无关的说话人识别转变为文本有关的说话人识别提供了新的思路。

周春晖[7]2013年在《基于MFCC特征和GMM模型的说话人识别系统研究》文中进行了进一步梳理说话人识别是通过采集说话人的声音信号进行特征提取,分析处理后来进行说话人的辨认或者确认。随着当今互联网和信息化技术的飞速发展,越来越多的相关领域将用到说话人识别技术,说话人识别技术符合现代身份信息验证要求的数字化、快捷化、隐行化的特点。说话人识别作为生物认证技术中的一项重要技术,可以广泛应用在司法刑侦、金融安全、视觉监控及身份验证等领域。随着说话人识别研究的深入,其关键性技术主要围绕着特征提取和模式匹配等问题展开。以梅尔倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)为代表的倒谱特征参数由于充分考虑人的听觉特性,不含任何前提假设,具有良好的性能,成为语音识别领域的主流参数。而以高斯混合模型(Gaussian Mixture Model, GMM)为代表的概率统计模型由于可以有效的描述语音特征参数数据集分布,成为文本无关说话人识别领域的主流技术。本文在研究说话人识别关键性算法的基础上,通过研究基于倒谱特征的特征参数提取方法和基于模板匹配及概率统计的模式匹配方法,研究实现了基于MFCC特征的VQ说话人识别系统和GMM模型的说话人识别系统。主要研究内容如下:1.在谱减法语音增强说话人识别方法的基础上,提出一种改进的谱减法,然后直接通过增强后的语音功率谱提取MFCC参数。改进的谱减法通过改变噪声功率谱估计的统计平均参数,来消除普通谱减法对语音增强时产生的音乐噪声,提升系统的性能。最后通过实验指出了语音增强方法在低信噪比情况下,对语音效果的改善尤其明显。2.提取MFCC特征参数的一阶差分特征参数,并与原参数进行组合,得到组合特征参数。该组合特征参数相比于普通特征参数具有更高的动态特性,更好的鲁棒特性。本文首次对组合参数中具有代表性的矢量进行加权,增加说话人之间的区分程度,从而提升说话人的识别效率。3.在研究了VQ基础原理、LBG应用算法与VQ码本的根本上,设计实现了基于VQ的说话人识别系统,进行了相关模型参数训练和匹配识别过程,实验分析了不同模型参数及不同语音样本时长下的系统识别性能。最后通过该系统在第三章验证了改进的混合加权的组合特征在矢量量化系统中能够有效提升系统的性能。4.在研究GMM模型参数估计期望最大化(EM)算法、模型参数初始化、训练和识别过程的基础上,设计实现了基于GMM的说话人识别系统,进行了相关模型参数训练和匹配识别过程,实验分析了不同测试时长、模型参数、GMM混合度、噪声环境对说话人识别系统性能的影响。最后在第三章验证了改进的谱减法增强语音特征参数在噪声环境下对系统的作用。

张涛涛[8]2016年在《语音声纹密码验证技术研究》文中认为语音声纹密码是采用语音段中的文本信息和说话人信息对用户信息进行双重加密的技术。因此具有较好的安全性和便捷性,在银行、公安、智能家居等领域都有广泛的应用。但是在实际应用中,传统的语音声纹密码识别仍然面临着密码泄露、特征冗余、抗干扰性差等方面所带来的挑战。传统的语音声纹密码识别属于文本相关的声纹识别任务。由于密码文本是固定的,容易遗忘和泄露,因此安全性不高。针对这个问题,本文采用文本提示型的语音声纹密码识别方案。用户每次登陆系统时系统会提示输入的动态密码,用户根据提示文本说出密码语音。这种方法安全性虽然高但动态声纹密码识别属于文本无关的声纹识别任务其声纹识别性能相对较低。针对以上各个问题,本文主要从以下几个方面来提升文本提示型语音声纹密码的识别率。首先,语音声纹密码识别系统包含语音密码识别和声纹密码识别两个部分。因此系统前端需要一个识别率相对较高的语音识别系统来验证用户所说密码是否正确。传统基于GMM-HMM的语音密码识别系统识别率相对较低难以满足安全性要求,因此本文采用识别性能更好的DNN-HMM语音密码识别系统。第二、传统声纹识别中采用的声学特征(如MFCC,PLP等特征)包含的主要是文本信息和信道信息,说话人信息属于其中的弱信息。声纹密码识别性能极易受到语音信号中的文本、信道以及噪声等干扰信息的影响。针对这个问题,本文利用深度神经网络的特征提取能力提出一种基于深度神经网络的说话人信息提取方法。采用该方法提取出的说话人信息相对传统声学特征具有更好的说话人区分能力。第三、同样针对传统声学特征中包含的冗余信息,本文进一步采用特征端因子分析的方法来去除声学特征中的冗余干扰信息。传统的特征端因子分析方法是在高斯混合模型的每个高斯上借用因子分析思想来对特征降维。但GMM模型属于无监督的聚类算法,其每个高斯成分物理意义不够明确无法与具体的发音文本信息相对应。为解决这一问题,本文在特征端因子分析中利用语音识别中的声学模型深度神经网络取代高斯混合模型,分别对不同音素上的语音特征进行分类然后在每个音素子空间内实现对特征降维,提取出说话人信息并用于提取DNNi-vector。接着在基于DNN的说话人信息提取中,本文采用基于DNN的特征端因子分析取代LDA对每帧语音的隐层输出超矢量进行降维。最后根据文本提示型的声纹密码识别的特点,本文提出分数字建模声纹密码识别方案。针对数字声纹密码中的每个数字分别训练一个声纹识别模型。注册和测试时匹配同时出现的数字进行测试,将文本无关声纹密码识别任务转化为文本相关声纹密码识别任务。本文实验采用的数据库为RSR2015数据,通过在该数据库上的实验验证以上所述算法的有效性。

周雷[9]2016年在《基于声纹识别的说话人身份确认方法的研究》文中研究说明声纹识别技术是一种生物认证的方法,从说话人能反映自己生理和行为个性特征的语音参数中提取出说话人是谁的信息的过程。声纹识别以其的使用灵活、经济和实用等方面的优势在很多领域中有着广泛的应用前景。本文主要对文本无关的声纹识别技术、在短时条件下的与文本相关的声纹识别技术和声纹识别技术的实际应用等方面的相关内容做出了研究。在文本无关领域,重点分析了采用最主流的技术高斯混合模型(Gaussian Mixture Model)和高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM),详细介绍了两种模型的概念、参数的估计以及识别算法等基础理论,并使用QT这款跨平台C++图形用户界面应用软件,用图形用户界面设计了一个简单实用的基于GMM的与文本无关的声纹识别系统,进行了相关模型参数训练和匹配识别过程,并通过实验研究分析了GMM-UBM模型的阶数对识别性能的影响。在与文本相关的声纹识别研究中,既要包含说话人身份的识别,又要包含语音文本内容的识别。本文提出一种结合语音识别的与文本相关的声纹识别方法,从而建立说话人的声纹模型和语音文本模型,与传统的仅建立一种模型的方法相比,该方法能更精确的描述说话人身份信息和语音的文本信息,较好地解决了短时语音样本识别效果不佳的问题。测试实验表明,和传统与文本相关的声纹识别方法(如DTW、GMM-UBM)相比,在漏警概率相同的条件下,由本方法建立的系统虚警概率降低了8.9%,识别性能得到了提高。最后在熟练掌握基于GMM-UBM声纹识别系统的基础上,论文针对声纹识别技术的应用方面做出创新性探究,首先设计了一种基于声纹识别的文件夹多重加密保护系统,不仅将声纹加密的方法应用到文件夹保护,也将传统文字加密和声纹加密相结合。其次,设计了一种在Android平台下采用声纹识别模拟手机银行转账的应用软件,将个人的声纹信息来作为银行转账时的支付密码,即将声纹识别的技术应用到转账业务上,为银行的保护系统增添新的声纹密码服务,也为推动声纹识别技术的广泛应用打下坚实的基础。

潘逸倩[10]2012年在《声纹密码技术研究》文中研究表明在生物特征认证技术领域,声纹密码具备快速、便捷、双重加密等优势,在刑侦、安全、经济、生活等各个方向拥有广阔的应用前景。经典的声纹密码系统首先采用语音识别系统对密码内容进行确认,再利用文本无关的说话人识别系统对说话人个性特征进行确认,两次确认策略确保了声纹密码系统的高性能。然而现有的声纹密码系统过多地依赖于语音识别对密码内容的预判决功能,如果冒认者已经获得密码内容,系统错误接收率将显著增加。在此背景下,本文针对冒认者已知密码文本的声纹密码任务,分别在特征域、模型域和得分域进行深入研究和创新,提升了密码文本已知时的系统性能。首先,本文在声纹密码系统特征前端提出特征域偏差估计(FSBE)的信道补偿方法。利用卷积信道噪声在倒谱域表现为线性偏移的现象,传统的CMS、CMVN、双高斯CDF-Matching等信道补偿方法基于单高斯或双高斯特征分布假设,利用各种特征参数归一化方法削弱信道和噪声干扰。相对于传统方法因单高斯或双高斯特征分布假设与实际数据分布不符带来的局限性,本文提出的FSBE方法利用最大化每条测试语音相对于说话人模型和冒认者模型似然度,将测试语音自动投影至目标模型各高斯分量对应的信道空间,训练获得线性或分段线性特征偏移参数。FSBE方法不再依赖参数归一化思想,通过训练获得较好的特征优化效果,也可用作传统信道补偿技术的补充方法。实验验证了特征域偏移估计方法对声纹密码系统信道失配问题具有一定的改善效果。其次,本文对声纹密码系统中说话人模型建模方法进行了研究,提出了高斯混合帧模型(GMFM)的新方法。传统的非参数与参数模型估计方法在密码已知的声纹密码系统中都存在不足之处,前者仅能反映有限注册数据的分布结构,无法描述潜在变化规律以及说话人内部差异,后者在数据稀疏情况下难以获得准确的参数估计,比如GMM-UBM方法中仅调整均值向量不更新协方差矩阵的近似策略导致说话人模型与实际数据分布差异较大,且GMM模型存在忽略文本相关瞬时信息的缺陷。本文结合非参数方法与参数估计方法提出了GMFM建模方法,以每帧训练样本注册一个高斯分量,令每个高斯密度函数的均值向量为对应帧特征向量。为了避免参数估计过拟合的问题,该策略假定所有高斯分量共享少量数目的协方差对角阵,利用最大似然准则进行训练,从而获得较为准确的说话人模型。GMFM方法兼顾了文本相关瞬时信息和说话人内部差异,并且通过绑定方差缓解了数据稀疏的影响,尤其适合短时声纹密码任务。实验表明基于GMFM模型的声纹密码系统相对基线系统获得较大性能提升。再次,本文在声纹密码任务中提出一种基于最小分类错误(MCE)准则的区分性声纹密码模型训练策略。传统区分性训练方法对数据量需求较大,在声纹密码这类短语音任务中难以发挥效用。本文提出的区分性训练新策略将训练集所有说话人的原始特征转换为一种表征其相对于注册模板距离的说话人无关新特征,从而可以集中所有说话人数据组成正例训练集和反例训练集,最终基于MCE准则进行两类区分性训练获得一对通用的正例和反例模型。该策略不仅巧妙地解决了声纹密码任务中区分性训练数据量不足的问题,而且将说话人相关的确认任务转化为说话人无关的经典分类任务,更加灵活有效、节省资源、适合大规模测试任务。实验表明基于区分性模型的声纹密码系统与GMM-UBM系统具有良好的互补性,融合后相对基线系统有明显性能提升。最后,本文引入得分域多维特征分类器方法以增强声纹密码系统的区分能力。传统声纹密码系统直接采用测试语音平均帧得分作为确认判决依据,由于不同类型的语音对目标说话人的区分能力不同,直接赋予所有帧得分相同权重会导致系统性能受损。本文提出的得分域多维特征分类器方法在两种帧分类策略基础上利用各类似然比得分构建得分域多维特征,并选择经典的支持向量机(SVM)方法实现训练和测试。相比于传统声纹密码系统得分域一维特征加阂值的判断策略,新方法引入并定义了合理的得分域多维特征,并辅之以稳定的区分性分类器,将传统的似然比检验策略转换成为多维特征空间上的二类分类问题,进一步提升了声纹密码系统的区分能力和鲁棒性。

参考文献:

[1]. 基于语音信号处理的呼吸认证方法研究[D]. 刘玲霜. 电子科技大学. 2017

[2]. 任意文本的说话人识别系统研究[D]. 刘兴立. 大连理工大学. 2000

[3]. 基于拓展和聚类的情感鲁棒说话人识别研究[D]. 李冬冬. 浙江大学. 2008

[4]. 在噪声环境下的说话人识别[D]. 邱政权. 华南理工大学. 2007

[5]. 说话人辨认中的特征参数提取和鲁棒性技术研究[D]. 李燕萍. 南京理工大学. 2009

[6]. 基于汉语元音映射的说话人识别技术研究[D]. 钱博. 南京理工大学. 2007

[7]. 基于MFCC特征和GMM模型的说话人识别系统研究[D]. 周春晖. 兰州理工大学. 2013

[8]. 语音声纹密码验证技术研究[D]. 张涛涛. 中国科学技术大学. 2016

[9]. 基于声纹识别的说话人身份确认方法的研究[D]. 周雷. 上海师范大学. 2016

[10]. 声纹密码技术研究[D]. 潘逸倩. 中国科学技术大学. 2012

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

任意文本的说话人识别系统研究
下载Doc文档

猜你喜欢