实现语音库科学性的一个重要环节--断句和连续语音的韵律结构_发音方法论文

实现语音数据库科学性的重要环节——篇章断句与连续语音的韵律结构,本文主要内容关键词为:语音论文,韵律论文,科学性论文,篇章论文,环节论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1.引言

汉语语音识别和语音合成语音数据库已经在国家863 计划的支持下,由几个单位合作,基本完成。中国社会科学院语言研究所在其中负责语料设计〔1〕和标音。〔2,3〕该语音数据库的规模和质量在科学、合理、简洁、有效等方面,均比过去有较大的进步。通过建立语音数据库的工作,我们认为在语音数据库设计的科学性方面还存在着问题有待探讨:在语料设计的过程中,篇章的切分、断句还不能全部实现自动化;在语音现象的归纳方面,我们使用的语音学规则基本局限在音段方面;连续语句的韵律现象,仅通过对句型的考虑,使其达到自然平衡。我们对于音段的研究相对来说较为成熟,而连续语句中的韵律结构等超音段规律以及它们与句法结构等因素的关系均未揭示清楚。

欧洲对连续语音的研究早在80年代以前就开始了,瑞典著名言语工程学家Fant对朗读连续语句的重音、节律、短语间的停顿以及边界的时间延长都做了定量的研究,〔4 〕近年又提出了停顿时长的量子效应,以及重音音节、非重音音节和音位音段的量子效应。〔5 〕法国语音学家Aario Rossi在句法结构和韵律结构方面做了深入的研究, 并因此获得1997年欧洲言语通讯与技术学会颁发的奖章,他定义了连续语句中句法结构的线性构建和句法成分的层级,提出了用语用—韵律模型、句法—韵律模型和节律模型来确定韵律结构。〔6〕在这一领域中, 汉语研究在连续变调方面给出了研究结果,〔7,8,9 〕但总体来说还十分薄弱。

2.连续语音数据库制作的基本过程

图1是语音数据库建立过程的框图。首先选择一个大的语料库, 863连续语音识别语料库设计时使用的是《人民日报》等报刊。 在这个大语料库的范围内,按照语言学、语音学原则挑选出满足一定覆盖量的句子集,作为语音的朗读文本。发音人按照文本朗读,就产生了语音数据。

图1 连续语音数据库的建立过程

语音数据库的制作看似简单,但整个建库过程十分繁琐、复杂,其中还涉及到语言的理解和产生两个方面的问题。要真正实现科学性,需要语言学、语音学、心理学、声学及言语技术等综合知识技术。

3.语料库朗读文本的设计

863连续语句文本的设计经历如下步骤。

3.1 断句

文本处理的第一步是断句,目的是为文本处理、朗读以及语音数据的处理等方面带来方便。863 语音识别数据库的连续语句的断句点是在如下标点符号处:

“。”,“,”,“;”,“!”,“?”,“:”

为了让发音人不感到困难,原则上把句长限制在20个音节以内。

3.2 拼音转写

为了确定、统计连续语流中的语音现象,必须将文字转写成拼音,要使拼音转换准确,需要有一个很好的词库用于词的切分,并得到准确的拼音文本。

3.3 由拼音生成语音单元

我们将普通话语音的基本成分确定为音子,并设它们是连续语音中的最小音段。普通话的基本音子有37个:

a1,a2,a3,b,c,ch,d,e1,e2,e3,er,f,g,h,i1,i2,i3, j,k,l,m,n,ng,o1,o2,p,q,r,s,sh,t,u,x,yv,z,zh,sil

通过基本音子可以方便地描述音节内和音节间的语音现象。有了一个如表1 形式的音节构成表就可以将一个连续话语转写成语音单元串,我们可以任意定义语音单元,如音子、双音子、三音子以及半音节等。

表1 音节构成表

音节由音子生成音节由声母、韵母生成音节

………………

chu

ch—u

ch—u

chuai ch—u—a2—il

ch—uai

chuan ch—u—a2—nch—uan

chuangch—u—a3—ng

ch—uang

………………

尽管汉语普通话是由一个一个音节连接而成,但在连续语流中,音节的声学表现与孤立音节的情形十分不同,它受到左右音段的影响,偏离了本来位置。在声学层面上描写语流中的音变现象以及音段间的过渡仅用音子是不够的。在863语音连续识别数据库语料设计时, 我们考虑了如表2所示的几种语音单元的覆盖, 其中三音子和韵母—声母结构的数目是根据发音方法和发音部位的变化规律归并而得到的。连续语音中另一个重要的语音现象是韵律结构,一个话语包含着不同的韵律结构,它们与句法、语法结构有着一定的对应关系,但又不是完全一一对应。如表3所示。韵律结构的具体分类有所不同, 它们反应了连续语音的节奏以及更深层次的内涵。〔10〕为了使语料包括不同的韵律结构, 863语音识别和语音合成语料设计中参考清华大学中文系的汉语句型〔11〕考虑了18大类不同句型(由李智强提供)。

表2 863语音数据库的语音单位

语音单位

数目

不含声调区别的音节 401

音节间的双音子 415

音节间的三音子 3035

音节间的韵母—声音 781

表3 韵律结构及句法结构

韵律结构 句法结构

语调短语(intonational phrase)句子(utterence)

音系短语(phonological phrase)短语(phrase)

韵律词(prosodic word)词 (word)

音节(syllable)

语素(morpheme)

摩拉(mora)

3.4 连续语句的选取方法

经过断句和拼音转写,原始语料库已转换成具有拼音标注的句子库,这时在前述语音学规则的指导下,通过算法可实现自动选取句子作为朗读文本。Greedy算法〔12,13 〕就是用于从大的句子库自动选取最佳覆盖的句子子集的算法,见图2。通过Greedy 算法可以得到满足最小冗余度、最大覆盖面的精练的语料。如果采用Greedy算法,对句子库有一定要求,每个句子在意义上应当完整,但句子的长度又不好控制, 按3.2节给出的标点符号断句很难达到要求。 另外, 对较大的句子库采用Greedy算法,运算时间相当长。由于这些困难的存在,863 连续语音识别数据库句子的选择采用了图3所示的方法,然后再使用Greedy算法,可取得较好的效果。

图2 基本Greedy算法

图3 863连续语句自动选取流程图

3.5 从朗读文本到语音数据

如何让发音人按照设计要求朗读文本是有待研究的问题,音段方面的语音现象相对来说比较好办,主要困难在于韵律方面。发音人往往在运用韵律结构时不一定满足设计要求。设计人与发音人不能在同一环节发生交流,因此也无法运用语言理解中的合作原则。〔14〕这种不一致就某种意义来说也是不可避免的。但是,可以通过对发音人的选择尽可能克服,例如对发音人的文化程度要有一定要求、录音前熟悉文本等等,同时,录制人对文本的理解对语音数据的质量也起着十分的作用。

4.连续语音数据库有待改进的基本问题

在863连续语音数据库的文本设计过程中, 我们的着重点在语音声学特性的音段方面,我们对于音段的研究、归纳工作比较详细、全面,就这一层面而言,对目前的言语工程系统应当是充分的。作者认为在以下两个方面存在着问题。

4.1 篇章的断句

朗读句是最简单形式的话语,它缺少情景、场合、讲话目的和交往。对于文本的设计者和发音人来说,涉及到言语的理解和产生两方面的问题。由一个个话语构成的篇章,意义是动态变化的,每个句子不仅有意义,也含有一定的信息,人们是一步步地处理篇章中的句子,每个新句子的处理都依赖于上一句,并更新旧信息,作为下文的依据。〔15〕863朗读文本以单个话语的形式呈现给发音人的, 它们在整体上没有统一的话题,从语用学的角度讲,发音人无法在整体层次的语义描写上把句子的语境跟理解关联起来。

为了尽量减少上述矛盾,在断句方面应多做一些工作。当一个句子较长,即音节数较多,需要分成几个子句,这种断句与句法切分〔16〕不完全相同,既要考虑意义,又要考虑韵律边界。汉语有两个音节为一个音步的倾向,同时又受到句法结构的制约。〔17〕另外,从语言产生的角度来看,断点应放在语言计划单位的边界上。心理语言学通过对口吃的研究发现,说话人在实义词之前口吃和停顿多于在功能词之前,〔18〕也就是说,人们试图将具有语义的实词说完整。仅此规律仍不足以解决自动断句问题。下例长句给出了句法上的切分,两个花括号为第一层的两个直接成分:

{诗歌趣味}{[以其日深年久的积韵][(从一切可能的方面对小说施加了)(巨大的压力)]}。

如果考虑从韵律结构上将其断为两句,呈如下形式:

{诗歌趣味以其日深年久的积韵}{从一切可能的方面对小说施加了巨大的压力}。

断点不是在两个直接成分之间,即句法和韵律两方面发生了不一致。目前还无法得到一套成系统的断句规则。

4.2 语音单位

我们认为在一个话语中所有的音节之间在声学上都会发生关联,但是由于韵律结构的不同,当句中出现停顿、音高曲线的变化,以及边界之前音段延长等韵律现象时,用表2 中纯粹的音段语音单元来描述连续语句是不够的,我们应当将韵律结构对音段的影响考虑进去。我们不妨构造如下形式的语音单元:

P=p(p1,p2,p3,…,pn)

p:音段语音单元,例如a,an,ao,ang,e,er,……等38个韵母及声母,或其它语音单元;

p1:声调;当p为韵母,p1=包括轻声的5个声调1,2,3,4, 5;当p为声母,p1=0;

p2:在语调结构中的位置;p2=0:在结构中;p2=1:在结构末;

p3:是否重音,p3=0:非重音;p3=1:重音;或分若干重度级;

……

当p选择声母、韵母,共有21+38=59个,n取3,就有约59*6* 2*2=1416个,如果考虑音节间的搭配,就要比表2中的781个韵—声结构多得多。因此在语音单元的自动处理方面还需下一番功夫。

4.3 讨论

以上提出的篇章断句和音段—韵律语音单元两方面的问题实质上即句法结构与韵律结构的关系问题。我们需要深入研究:音段在不同的韵律层次中是如何变化的;韵律结构的声学表现究竟如何;句重音在句法结构中起的是什么作用;句法结构是怎样影响韵律结构的。这些方面对言语工程具有十分重要的意义。

标签:;  ;  ;  ;  

实现语音库科学性的一个重要环节--断句和连续语音的韵律结构_发音方法论文
下载Doc文档

猜你喜欢