普通话语音视位系统初探

普通话语音视位系统初探

王安红, 鲍怀翘, 陈嘉猷[1]2001年在《普通话语音视位系统初探》文中研究指明本文致力于建立一个初步的普通话视位系统.研究基于一个小规模的普通话语音唇型参数效据库.通过一系列统计分析的运用,归纳出一套汉语普通话视位系统.初步的结论有:1、大部分唇型参数之间高度相关,起主导作用的是唇高度、外唇宽度(含上齿露现度)和唇突度;2、普通话共有7个视位,辅音视位有“b”、“d”、和“f”,元音视位有“i”、“u”、“o”和“a”.

王安红[2]2000年在《普通话语音视位系统初探》文中研究表明传统语音学研究表明,唇形对元、辅音的产生起重要作用。目前流行于言语工程界的视听言语处理(AVSP)结合视觉感知手段,提高了合成言语的自然度和语音识别系统的识别率。特别是在虚拟人像的生成中,唇形的变化对感知的真实性有特别重要的作用。本研究着力于建立对应于普通话音位系统的唇形变化系统,这个系统被定义为“视位系统”。汉语的视位研究尚属空白。 这篇文章致力于建立一个初步的汉语普通话视位模型。首先创建了一个小规模的汉语普通话语音唇形参数数据库。发音人为一男性,面部做了唇区域标记和点标记。发音材料为195个单音节。图像连续捕捉速率为每秒钟25帧。结合语图对音素的代表帧做了判定。我们用11个参数对每个音素的唇部形态进行了描述及特征化。数据库由494条记录组成。然后以此数据库为基础,通过一系列统计分析的运用,归纳出一套汉语普通话视位模型。初步的结论有:1.大部分唇形参数之间高度相关,起主导作用的是内唇高度、唇角突度和上齿露现度;2.普通话共有8个视位,辅音视位有“b”、“d”、“f”和“z”,元音视位有“i”、“u”、“o”和“a”,它们的视位变体共有14个。

唐娟[3]2008年在《普通话和上海话中单元音圆唇度考察研究》文中认为前人对圆唇度的研究多从舌位入手。而唇,位于口腔的最前端,分为上唇和下唇,是所有发音器官中唯一可以从外部被观察到的部分。研究单元音圆唇度最直接的入手办法就是对唇形变化进行观察。本研究突破了前人的研究方法,利用现代技术——数码相机,通过拍摄发音人的正面与侧面唇形照片来对唇形变化进行观察。本文共分五章,除去前言和总述,共有三个主要部分。第一部分详细介绍了普通话和上海话单元音圆唇度相关参数的实验,包括做实验前的设计考虑、实验中遇到的技术问题和解决办法等。最后将从照片上直接测量出的数值加工整理成11组与圆唇度相关的参数。第二部分结合语音学PRAAT软件所做出的第二共振峰,分别分析了这11组参数与单元音圆唇度的相关性的有无、强弱情况,将前人比较笼统的结论进一步细化。第三部分对实验参数做了相关的语音学讨论,突破传统的“展唇”、“圆唇”对立,进一步将圆唇元音划分类型;揭示了声母对圆唇度的影响;还有通过比较普通话和上海话两个音系中的圆唇元音,讨论了它们圆唇度的高低不同及原因。

李锦[4]2018年在《协同构音和音节结构对学前普通话儿童声母构音的影响研究》文中进行了进一步梳理学前儿童在声母习得过程中会表现出构音不一致的现象,即同一声母在不同的语音情境中发音会有所不同。然而,国内却鲜少研究同一声母在不同语音情境中的构音表现,尤其缺乏对正处于构音发展关键期的学前儿童的研究。对于一个普通话音节来说,声母的语境情境即是指其后接的韵母,主要包括声母和后接元音之间的协同构音以及声母所处的音节结构。本研究即是从这两个方面入手,选取了上海市3个区5所幼儿园共231名2岁半至6岁的儿童作为研究对象,深入探讨学前普通话儿童同一声母在不同声韵组合中的习得年龄、构音难度差异及错误表现,旨在进一步了解学前儿童声母习得的规律,以期为特殊儿童言语构音的矫治提供参考标准和训练时的选词依据。具体的研究内容和结果如下所示:1.声母构音测试语料的编制(1)根据声母后接韵母首音素不同、音节结构一致、选择高频字、便于配图等原则,编制了协同构音效应对声母构音影响的测试语料,共75个字。(2)根据声母后接韵母首音素相同、音节结构不同、剔除后鼻音、选择高频字、便于配图等原则,编制了音节结构对声母构音影响的测试语料,共80个字。2.协同构音对学前普通话儿童声母构音的影响(1)在习得年龄上,按照90%的正确率定义习得年龄段,结果发现声母b、p、m、j、x在各协同构音条件下均是2;6-3;0时习得;q均是在3;1-3;6时习得;g、k均是在4;1-4;6时习得;sh的发音直到5;6-6;0时均还未习得;除以上声母之外,其余声母在各协同构音条件下的习得年龄均有所不同。(2)在构音难度上,通过n(各声母后接元音的个数)*7(七个年龄段)两因素混合实验设计考查协同构音和年龄对声母构音正确率的影响。结果发现,除声母d外,其他声母的后接元音*年龄段的交互效应均不显著;声母f、d、t、n、l、h、zh、ch、sh、z、c、s的后接元音主效应显著,其他声母的后接元音主效应均不显著;声母f、d、t、n、l、q、zh、ch、sh、r、z、c、s的年龄段主效应显著,其他声母的年龄段主效应均不显著。结论:除声母d外,后接元音与年龄段对其他声母构音的影响是相互独立的;随着年龄的增长,声母在各声韵组合中的构音正确率基本呈上升趋势;声韵母之间的协同构音效应对唇齿音f,舌尖中音d、t、n、l,舌根音h,舌尖后音zh、ch、sh,舌尖前音z、c、s的构音难度存在影响,对其他声母无显著影响。(3)在错误表现上,同一声母在和不同后接元音组合时,错误表现不一致:(1)双唇音和i组合时,最易被舌尖中音替代,和u组合时易被舌根音或舌尖中音替代,p在各声韵组合中还容易被b替代。(2)唇齿音在各声韵组合中都容易被h替代。(3)舌尖中音d、t和i时,最容易被舌面音替代;和e、u组合时易被舌根音或舌尖后音替代。(4)舌尖中音n在各声韵组合中都容易被l替代,和i组合时还容易发生遗漏;舌尖中音l和a、e、u组合时易被n、y、r等音位替代,和ü、i组合时最易发生遗漏,其次易被n替代。(5)舌根音g、k和a、e组合时,易被舌尖中音替代,和u组合时易被双唇音或舌尖中音替代;舌根音h和a组合时不易发生错误;和e组合时易被g、k替代;和u组合时最易被唇齿音替代。(6)舌面音j、q和i组合时易被舌尖中音或其他舌面音替代,舌面音x在各声韵组合中都易被j、q替代。(7)舌尖后音zh、ch、sh在各声韵组合中都易被舌尖前音替代;zh、ch和a、e、u组合时还易被舌尖中音d、t替代,和-i[?]组合时还易被舌面音j、q替代;sh和a、-i[?]组合时还易被舌面音x替代,和u组合时还易被唇齿音f替代;舌尖后音r和e、u组合时最易被边音l替代,-i[?]组合时易被平舌浊音[z]替代或发生遗漏。(8)舌尖前音z、c和a组合时最易被舌尖中音d、t替代,和-i[?]组合时最易被舌面音j、q替代,和后接元音e、u组合时最易被舌尖后音zh、ch替代;s和a、-i[?]组合时最易被舌面音x替代,和e、u组合时最易被sh替代。3.音节结构对学前普通话儿童声母构音的影响(1)在习得年龄上,除声母b、p、m、t、g、k、j、x、s在各音节结构中的习得年龄完全相同之外,其他声母在各音节结构中的习得年龄均有所不同,但差异不大。(2)在构音难度上,通过4(音节结构:CV、CVV、CVVV、CVVN)*7(七个年龄段)两因素混合实验设计考查音节结构和年龄对声母构音正确率的影响。结果发现,音节结构*年龄段的交互效应在各声母中均不显著;声母n、h、zh、ch、sh、r的音节结构主效应显著,其他声母的音节结构主效应均不显著;声母d、t、n、l、j、q、h、zh、ch、sh、r、z、c、s的年龄段主效应显著,其他声母的年龄段主效应均不显著。结论:音节结构与年龄段对各声母构音的影响是相互独立的;随着年龄的增长,声母在各音节结构中的构音正确率基本呈上升趋势;音节结构仅对舌尖中音n,舌根音h,舌尖后音zh、ch、sh、r的构音难度存在影响,对其他声母无显著影响。(3)在错误表现上,相同韵母首音素下,各声母在不同音节结构中的错误表现基本相同。在以[i]为韵首各音节结构中,双唇音最易被舌尖中音替代;舌尖中音d、t最易被舌面音j、q替代;舌尖中音n最易被l替代;舌尖中音l最易发生遗漏;舌面音j、q易被舌尖中音d、t或其他舌面音替代,x易被j、q替代;在以[u]为韵首各音节结构中,舌根音g、k易被双唇音b、p或舌尖中音d、t替代;舌根音h最易被唇齿音f替代;舌尖后音zh、ch、sh最易被舌尖前音z、c、s替代;舌尖后音r最易被l替代;舌尖前音z、c、s最易被舌尖后音zh、ch、sh替代。

寇贇[5]2018年在《基于图像的语音生理研究进展》文中研究表明文章从图像处理的角度,介绍了目前国内对语音生理研究在图像处理的主要方法.通过对发声动力器官、嗓音声源、声道以及唇形研究四个部分,阐述了语音生理研究过程中所采用到的图像处理方法.

李洋[6]2007年在《语音合成中的语速研究》文中研究说明现在的语音合成技术日趋完善,先进的语音合成系统可以合成出可懂度相当高的语音。但这些系统产生的语音自然度与人讲的自然话语还有明显差距,而语速就是其中一个方面。现在合成技术中语速变化策略、效果并不是很好,往往一个篇章内都是一种语速,单调,容易让人厌倦。本文作为中国社会科学院语言所语音研究室与MOTO中国研究中心合作项目的一部分,试图通过对不同语速的英语语句和汉语篇章韵律特征的研究,为英语和汉语语音合成系统提供语速控制策略。本文首先对不同语速的英语语句韵律特征进行对比分析。本节主要是对英语语句在快、中、慢三种语速中的韵律特征进行了对比分析,考察了语速对韵律结构、时长、音高以及重音等各个方面的影响。其次对汉语普通话篇章语速变化模式进行了探索研究。对汉语普通话篇章的韵律特征在快、中、慢三种语速中的情况进行了分析和对比,韵律特征包括音高、重音等。同时考察语篇中语速的调控策略,结果表明语速的变化与韵律特征的变化之间是建立在篇章结构之上的一种非线性的关系。最后在以上研究成果基础上提出了一个合成算法设计思想。

孟和吉雅[7]2010年在《蒙古语标准音水平测试系统研究》文中研究表明本论文用实验语音学的声学分析理论和方法,结合语音软件开发技术,对现代蒙古语标准音水平测试系统的开发进行研究,并开发出一套蒙古语标准音元音、辅音和单词测试辅助系统。本论文由以下八章组成:第一章,简述了国内外语音测试研究状况、蒙古语实验语音学研究概况以及本文的选题依据、目的、研究内容和研究方法。第二章,简单介绍了语音信号的时域分析、频谱分析和语谱分析等分析方法。第三章,简单介绍了语音组件的属性、接口函数及其功能。第四章,重点介绍了蒙古语标准音元音声学特征、蒙古语标准音元音测试中所涉及的各种数据表和元音测试方法。第五章,重点介绍了蒙古语标准音辅音声学特征、蒙古语标准音辅音测试中所涉及的各种数据表和辅音测试方法。第六章,重点介绍了蒙古语标准音单词声学特征、蒙古语标准音单词测试中所涉及的各种数据表和单词测试方法。第七章,重点介绍蒙古语标准音元音、辅音和单词测试过程和分析测试结果。第八章,总结本次研究成果,提出了今后工作思路、安排和具体研究内容。

张思光[8]2008年在《韵律文本驱动的三维口型动画研究》文中进行了进一步梳理合成真实准确的可视语音动画一直是虚拟人领域一个艰难而有趣的研究方向。它在增强嘈杂环境下的语言可懂度,教育培训,电影甚至医疗方面都有着广泛的应用。通过机器学习的方法,一段可视语音动画可以通过同步捕获的音频和唇动数据来进行驱动。这种方法的好处是动作的韵律信息已经隐含在驱动数据当中,因此使唇动模拟富于变化。在本文的合成系统中,三维口型动画是由一种带有韵律信息的文本来驱动的。由于文本具有灵活、易修改和高压缩比的性质,因此在国际互联网上被广泛应用。但是却很难通过分析普通文本得到音调、音长和强调等轻易能从音频中取得的信息。由于缺乏韵律信息,以往的合成系统效果会显得很呆板。在本文中,设计了一种新的文本驱动的方法来生成三维口型动画。基本思想是:由用户借助一种韵律标记语言给普通文本添加携带韵律信息的标签,而合成系统则将标签转化为控制动画曲线的参数值,从而达到利用韵律信息来合成动画的目的。本文的技术借鉴行为驱动的方法,利用一种新的面向减小合成错误率的方法来生成三维动态视位。在参考已有对韵律研究的基础上,定义了一种汉语韵律标记语言来将普通文本转化为韵律文本。通过分析视频中发音的特征,建立了基于分段指数函数的参数模型,它将已得到的三维动态视位和韵律信息作为输入,输出则为生动的口型动画。实验结果显示:(1)依赖不同的韵律信息,系统可以合成出不同的结果;(2)此技术相对于以往方法可以减少生成动画时所用的数据量。合成真实准确的可视语音动画一直是虚拟人领域一个艰难而有趣的研究方向。面向汉语的三维口型动画的研究具有重要的理论意义和应用价值。能够利用宝贵的网络资源,使其应用的环境不局限于PC机,也包括PDA等移动设备。该技术具有广泛的应用前景,可以用于多种场合,例如:聋哑人教学、网页手语导播等领域,为制作准确的口型动画大大减少手工劳动的负担。

李爱军, 张利刚, 李洋, 孟昭鹏, 王霞[9]2008年在《汉语口语对话中姿态与语音信息关系初探》文中提出信息交互方式多种多样,以语音和姿态的表达最为自然,因此提高人机交互能力就需了解交际过程中的这2种模态对信息表达之间的关系。该文介绍了语音与姿态关系的相关理论和产生模型,并以电视访谈节目中自然对话的视频和音频数据为研究对象,对汉语普通话语音和姿态信息在交际过程中的关系进行了初步的研究。在语音学和姿态标注的基础上,分析了口语对话中焦点重音与姿态动作之间的关系,以及韵律边界和姿态边界之间的关系。研究发现语音上重音表达往往伴随较强烈的手部动作,而且此时手和头部动作之间有互补的现象;韵律边界和姿态边界没有时间上的对应关系,但有很大的相关性,这些结果都支持语音与姿态表达之间的关联理论。

潘晓凤[10]2015年在《基于Xface的藏语TTVS的实现》文中研究表明随着人机语音交互的迅速发展,可视语音合成(Text-to-Visual Speech,TTVS)技术一度成为研究的热点。但是面向少数民族语言的TTVS的研究还处于萌芽时期,因此对藏语TTVS的研究具有开创性。本文提出了一种基于Xface平台实现藏语TTVS的方法,首先建立一个可视的三维人脸头像,然后通过分析藏语的声韵母的特点建立藏语的口形库,利用FAP(Facial Animation Parameter,FAP)参数流驱动藏语口形的动作,并与一个藏语统计参数语音合成系统相结合,实现藏语的TTVS。论文的主要工作和创新如下:1.实现了一个基于Xface的人脸动画系统。利用MPEG-4(Moving Pictures Experts Group-4)标准中的人脸面部定义参数(Facial Definition Parameter,FDP)以及能够驱动人脸动画的人脸动画参数共同建立人脸模型,在此基础上利用Xface开发平台实现人脸动画系统。2.建立了一个面向藏语可视语音的藏语口形库。以声韵母为基元来定义和描述藏语发音的口形。通过对比汉语和藏语在声韵母上的差别,利用汉语和藏语语音在声韵母上的发音相似性实现对藏语声韵母的发音口形的FDP和FAP的描述和定义。对于与汉语相同的藏语声韵母,其口形用国际音标的发音口形来描述定义;藏语中与汉语声韵母不同的,则按照藏语自身的发音特点来对其进行定义。在此基础上,利用藏语声韵母的发音口形的FDP和FAP,通过Xface实现了对藏语口形库的建立。3.实现了基于Xface的藏语TTVS。将人脸动画系统中各个声韵母的口形动作的起止时间分别与藏语语音合成系统中各个声韵母发音的起止时间相对应,使发音与口形相匹配,实现藏语的TTVS。对系统的可视化效果及有无人脸动画系统参与情况下,语音合成系统合成的语音的可懂度进行了主观评测。实验结果表明,系统的可视化效果的平均MOS得分为3.6分;无人脸动画系统参与时,合成语音的平均MOS的分为4.1分,有人脸动画系统参与时,合成语音的平均MOS的分为4.6分。

参考文献:

[1]. 普通话语音视位系统初探[C]. 王安红, 鲍怀翘, 陈嘉猷. 新世纪的现代语音学——第五届全国现代语音学学术会议论文集. 2001

[2]. 普通话语音视位系统初探[D]. 王安红. 北京语言文化大学. 2000

[3]. 普通话和上海话中单元音圆唇度考察研究[D]. 唐娟. 华东师范大学. 2008

[4]. 协同构音和音节结构对学前普通话儿童声母构音的影响研究[D]. 李锦. 华东师范大学. 2018

[5]. 基于图像的语音生理研究进展[J]. 寇贇. 西北民族大学学报(自然科学版). 2018

[6]. 语音合成中的语速研究[D]. 李洋. 天津大学. 2007

[7]. 蒙古语标准音水平测试系统研究[D]. 孟和吉雅. 内蒙古大学. 2010

[8]. 韵律文本驱动的三维口型动画研究[D]. 张思光. 北京工业大学. 2008

[9]. 汉语口语对话中姿态与语音信息关系初探[J]. 李爱军, 张利刚, 李洋, 孟昭鹏, 王霞. 清华大学学报(自然科学版). 2008

[10]. 基于Xface的藏语TTVS的实现[D]. 潘晓凤. 西北师范大学. 2015

标签:;  ;  ;  ;  ;  

普通话语音视位系统初探
下载Doc文档

猜你喜欢