论人机对话中的汉语语音_语音学论文

试论“人—机对话”中的汉语语音学，本文主要内容关键词为：语音学论文,汉语论文,试论论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

[题解]本文为笔者在一次关于“人—机对话”与语言学关系的座谈会上，对目前“人—机对话”系统中言语处理方面所需汉语语言学知识的几个话题，从一个语音工作者的角度提出的一些意见。笔者对汉语教学原属外行，但其中所提出的语音特性、实验分析方法及有关理论部分，或可供汉语语音教学上的参考。现将原稿重新整理修订，各话题中有些例证或有彼此重复之处，但互有侧重，自成体系，就不加删改了。

一 “人—机对话”本身的启示

信息时代的具体工程之一是“人—机对话”，主要是计算机对语音信息的处理。它包括语音合成与语音识别两个目的相反的内容。语音合成是：让机器能“说出”语言，不但要能准确无误地“表达”语言信息，还要要求发出的语音质量（包括辨义的和表情的）跟人所说的话音质量没有大的差别。语音识别是让机器能“听懂”语言，来“执行”语言信息，或转换成文字，要求不会识别错误。常用的装置是：合成系统是把文字（目前多是用键盘打出）输入机器，变成语音，叫做“文—语转换”；识别系统是把语音通过话筒输入机器，转换成文字（或其它功能），叫做“语—文转换”。这些装置的运行，首先就是要进行语音信息的处理。最终希望达到的水平，拿通俗的话来说，就是：教机器“说”，要能说出像真人一样的口语，而别让人听到的是“机器音”或“黄腔走调”；教机器“听”，要能听懂所应用的方言（目前多为普通话），不限说话人，而不致有错。话又说回来，如果人们日常口语的音总是稳定的，大家都把“玻坡摸佛”说成同样的音值，把“阴阳上去”说成同样的声调，只要把这些信息作成固定程序装进机器，这不就省事了？

可是，事情没那么简单。人们口语的音是不但随语流、而且随环境、随人别而变换的；音质、音调、音长、音量无一不在变，而且会变得出了“格”；而机器（主要是计算机）只能根据人们分析语音取得的数据，以及制定的音变规则来处理。如果分析得不够严密，制定的规则不切实用，乃至机器的功能不够应付，识别和合成就达不到理想。目前国内外有成千上万的专业工作者在绞尽脑汁，进行无数次的实验，要对各特定语言攻下这些难关。几十年来的成就是不小的……。让我来个插曲：我还记得在五十年代后期，那时美国已经在研究“语音打字机”，我国的有些文理科研人员也曾合作设计一套“自动语音识别器”。文方提供语音数据，理方担任技术研制。终于搞出一件书柜似的玩意儿来。一个柜子装了许多电子管，面板上有十个灯泡，写上十个汉语的元音，向它“使足了劲”喊出一个“啊”或“伊”，对应那个元音的灯泡就亮了。当时在北京召开第一届全国声学会议时曾展出这套“机器”，那时在我国算是“领先”了。现在看来，只不过是一件能反应简单声音的玩具罢了。短短的三十多年过去了，我国的好些单位都已经能叫机器“读”文件和“听”人话了。成绩虽还不太理想，但应该说这还是不简单的。因为语音信息处理这个研究课题，越深入就发现难度越大。

不过，人类的科学现在已能上天入地，太空接轨；微机多媒，……已非过去所能想象；可就是对这小小的几句语音玩不转悠。还没听说世界上有哪个先进国家，敢于放心让坐在飞机上的飞行员，“完全”用口语来操纵座机而不用手控的。原因何在呢？

我们在二三十年来的语音实验中才逐渐深入了解，语音不同于任何有规律的事物。它的变量有些是有规律的，更多的是随机的。国际上有少数发达国家对其本国语言的人—机对话，已达到相当水平，并积累了不少的新方法和理论。但目前也还存在不少问题，如：识别不同语气的错误率还高，合成的语音还有“机器味”，对语句的自动分段还有难度等等。如把他们的成果用于汉语，计算技术方面可以引用，但语言规则方面就会遇到困难，这还得靠更深入的研究来解决。其主要原因，让我引用北大季羡林教授最近的一篇文章“探求正未有穷期”中有关汉语语法研究的几段话，或可说明问题之实质所在。他说：

“当前我们（对汉语语言学的新路）的探求，已经触及汉文和西方印欧语系的语言文字的根本差异。但是我认为还很不够。语言文字是思想的外在表现形式，而思想的基础或出发点则是思维模式。东西方思维模式是根本不同的。西方的思维模式是分析、分析、分析、再分析，认为永远可以分析下去的。而东方的思维模式则是综合，其特色是有整体概念和普遍联系的概念。”

“综合的东西往往具有一些模糊性，中国语言也不能例外。在过去，人们往往认为，模糊不是什么好东西。而到了今天，世界上一切先知先觉者已经发现，世界上很少有百分之百绝对清晰的东西，而模糊性倒是一些事物的本质。二十世纪西方新兴的学科中，有两门引人瞩目的学问，一门叫模糊学，一门叫混沌学，而这两种学问又偏偏出自自然科学家之手。前者出于绝对清晰、绝对准确的数学……据我看，模糊论和混沌论也是用分析方法得来的结果。”

“时至今日，世界上科学发展的方向是：文理科界限越来越不分明，两者的关系是互相渗透，互相融合。模糊论和混沌论就是两个具体的例子。我们中国语言学家应当抓住这一点，继续进行探求。特别是对汉语的模糊性特色要多加注意，多加探求。”

上面所提的基本问题是：东西方的思维模式不同，因此，汉语的研究方法与西方语言的研究方法应该有所不同，西方的是分析，而汉语的是综合。中国语言具有模糊性，我们应该对汉语的模糊性特色多加研究。当然，季先生的论点是对汉语语言学、特别是语法的研究方向而发的。但我认为，把这个意见用在汉语语音上也完全适用。关于模糊论与语言学的关系，已有一些文献谈到。陈原先生在他的《社会语言学》中“语言的模糊性与模糊语言”一章，举了很多模糊语言构词的例，也都是关于语法的。不过他指出：“电子计算机要求的是精确的语言，而且是再精确不过的语言（按：这也就是分析、分析、再分析），计算机没有能力去接受、贮存和处理模糊信息。”（这是他十五年前写的书。当时的电脑还只有那点儿能耐。今日的计算机，已到了所谓的“第五代”，已能根据人所给予的程序来处理模糊语言了。）而语音的变量正是模糊论的重要组成部分。问题是只要我们能编出语音变量的模糊集合程序来给人机对话应用。在十几年前，瑞典的言语工程专家方特（G.Fant ）就已经向世界语言学家呼吁：要有第五代的语言学家来配合第五代的计算机，才能够让机器说话像人说的那样自然。十多年了，这个愿望还未能完全实现。今日语音信息的处理能否过关，当然，研究主角该由言语工程学家来当；不过，也许一半的任务还得要由语言学者和语音学者们来承担了。

问题已经清楚，目前人机对话工程给我们的启示是：

（1）东方的思维和汉语的特点，跟西方的不同。不能只靠分析，还得作综合研究。

（2）汉语的规则应该用模糊论方法来探求。

（3 ）目前应当培养出能配合第五代计算机的“第五代语言学家”，来解决语音信息处理的难题。

但是，由于我们对此项工作，过去有一大段时期无法去抓，目前虽已知道要急起直追，但投入的人力、物力，比起欧、美、日本来还差得远。而且汉语的语音特点究竟跟欧美的不同。引进的一些技术和算法固然有用，但汉语语音中新发现的规律，则完全需要我们自己努力去开发。这些规律不但对人—机对话有用，对语音教学以及其它许多和语言有关的学科和生产方面，也都有参考价值。这是摆在我们语言工作者面前的迫切任务。

二 “人—机对话”的研究成果、方法和启发

1.成果：人机对话的研究现状，据我所知，前些年在国内作零散研究的，有一些院校和科研通讯单位。初期多半是作些单音节的语音分析，给人—机对话打下了一定的基础。近几年来有国家的统一调度和支持，已经有计划地由若干单位分担语音信息处理的各个项目。有的作合成，有的作识别，有的建立语库等。各方按期考核进度，汇报成果。有些难题也已逐渐解决。如：技术开发方面和语音研究方面的合作，使普通话的语音实验研究方向，从纯学术逐渐转向应用方面。特别是在最近的几年，更配合按人—机对话的需要，逐渐集中力量来攻关。有的已从语音特性的离散分析，提高到语句变量的综合处理；并根据汉语的特点，以及传统的音韵知识，建立若干专用于汉语语音处理的规则。诸如：普通话语音不同音色的分等归类；普通话声调、重音、时长等韵律特征的相互依存和制约的关系，及其在提高合成自然度上的作用。在句法的分析方面，也已能根据人—机对话的要求研讨出新的语法规则。在语调方面，继承了古代以音律定调的传统概念，参考现代音乐中移调的方法，来代替以频率标调，并建立生成语调的规则，等等。

2.方法：人—机对话的语音合成方法主要有两大系统。一类是声学参数的合成；另一类是录音拼接的合成。参数合成全由声学数据作规则的合成，所有辅音、元音的音色，声调、强度、长度等声学数据，无一不是靠语音实验分析取得的，还有，单音节中的过渡音，多音节短语中各短语之间的音变和调变等，都需要有精确的数据，把这些数据来合成音节、短语和句子，由于每个阶段都是由数字构成的音，因此对数据的可靠性和自然度的规则化要求就严格，成本也较高。近来国内外已多采用另一种录音拼接法，又称基频叠加法。顾名思义，这是把人们话音录下的单词（或复词）存库，再根据需要逐个调取出来，按需要拼成词或句。这样，对单音节就无须另编数据，不过调用现成的录音材料时，得根据词或语句的连读音变规则加以处理。这类方法对自然语音中的韵律特征（声调、重音、时长）变量的处理已大致可用，但对音色变量的处理，目前国内外都还在寻求有效的解决方法中。

3.启发的问题和思考：上面已经提出一些人—机对话中有关语音学的实际问题，现在再就理论方面谈谈。人—机对话系统的研制，当然牵涉到许多方面，如：社会科学的、自然科学的和技术科学的各方面。社会科学如：语言学、语音学、统计学、逻辑学；自然科学有：生理学、物理声学（还有光学。如果“文—语合成”要自动从文本直接输入，而不用字键的话，就要用到光学系统）、数学、电子学；技术科学有：计算机学、电子工程学；还有一门新兴的跨边缘学科：言语工程学。试想这样一套几尺见方的“机器”，竟然要动用这么多行业的人力、物力，其复杂可想而知。而根据国内外的现状，除第一类社会科学外，其它的一些学科差不多都已能跟上了。而社会科学中最急需的，恐怕就是前面所说的、第五代的语言学。

这所谓“第五代语言学家”的语音学知识，除足够的、高明的传统语音学的知识外，还有一大堆新兴的、为传统语音学乃至一般现代语音学教材中所无的、特别是汉语语音特点所独有的知识，是需要我们赶紧去研究开发的。而这些知识丝毫离不开实践。有志于斯的语言工作者，应该向这些日新月异的新知亲自去学习、研究和实验，并和技术工作者通过上机试用、反复改进。这就需要文理双方人员的密切配合，边干边学了。

三、“人—机对话”研究与“人—人对话”研究

传统语音学的研究范围和方法，有一个本质性的局限，就是它只提供了“人”所能“说出”和所能“听到”的语音，也就是人—人对话的表面成分的知识（过去所谓“口耳之学”）。但是，人们说话时，动脑和动口所产生的每一串话语，除应该表达的字音外，还夹带着许许多多的字头、字尾等音变成分。人们说出这些成分时，其中总有一些成分是“固然”的（不自觉的、必然会这样说出来的）；而另一些是“意控”的（自觉的、有意识地加以控制调节而发出的）。

先说说这“固然”的。就是在话语中说出每个单字音和一串字音时，前者一定会在单音节中、后者一定会在各音节间，产生一段“过渡”成分。单音节中的是辅音到元音的过渡，如／ba／，／da／，／ga／三个音节，由于发音时它们的辅音和元音的唇舌部位及距离的不同，其间的过渡成分也就各不相同。多音节的是前音到后音的过渡。这些过渡就造成前音尾或／和后音头的相互照应，使音质和调形都有了变量。这类过渡成分由说话人发出时，是不自觉的、不假思索的；而听话人听进时，也是只认定那些字音（此字或词的原音），而不计较那些过渡成分（请注意！听话人并不是没“听见”那些过渡成分，只是不去“计较”，而只感知其表义的成分。这种通过自动筛选、听辨话音的本能，在言语心理学上是一个重要规律）。这些不假思索的固有过渡成分的产生，有两个来源：一是发音生理的“肌动过程”（发音器官从一音转到下一音，其形位是滑移的而不是跃进的）；另一是说话人的“发音习惯”（同时也服从本语种的规则）。它们都可以算作是语音的潜在成分。这类变量的描写，在传统语音学的著作中，是找不到的。以前人—机对话系统的研制，对此也处理得比较粗略；而这类潜在的变量，在语音信息系统的设计中却是非要“计较”不可的，是必须把它们编入程序的。忽略或误测了这些变量，合成的音质就很难听，识别的结果也不会准确。

语音的表面和潜在的两类成分，除了有些是各语种具有的共性外，其余的、特别是潜在的，是要各自服从本语种或方言中共时或历时的规律的。共时的规律如：本方言现有的语法制约或本社会集体约定俗成的规则等。历时的规律如：本语种原有的音系或历史音变的规律等。现代的实验语音学，由于半世纪以来，通讯线路上要求压缩信息量、降低信号冗余率，寻找“载讯单元”，对语音中这类潜在成分的研究分析，已有相当成绩了；但在人—机对话中的、特别是用于汉语信息处理的潜在成分的知识，就研究得很不够。但这些“不假思索”和“必然经历”的成分的出现，是跟上述的特定语言的思维模式血肉相连的。在一般情况下，不同语族有不同的思维模式。在声调语言对非声调语言，特别是汉语对印欧语，语音的表面成分和肌动规律，多少还有其共性，至于其潜在成分如发音习惯方面，就有很大的差别。

语音中的“肌动过程”，就是发音时发音器官（包括唇、舌部位，声带动程等）移动的过程。如：辅音、元音间的过渡音征；音节间的协同发音；连读音节间调形的过渡；句尾调形的下降；后音节清声母受前音节韵尾影响的浊化；浊声母音节中调形起首的低升；儿化音被元音舌位同化而变位；发音前肌电的“动在声先”；以及音节间的逆同化等等。这些现象多属于发音生理或心理的动态规律。它们都是必然经历的、下意识的、随语流的进行而出现的。这类过程大都是具有跨语种或跨方言的共性的。

语句中的“发音习惯”。如：语句中各短语调群的断续；调群与意群的对应关系；音强与调高的关联；句长与气长的关系；辨义轻声调型与前接调类的关联，句中短语重读与逻辑重心的对应；多音节词组或短语中一些音节的缩短和轻读；语句中非重音节发音的含糊或省略；句头句尾音节的离格或轻读等等。这其间多半是有规律可循的：这些规律有属于语音层的，有属于语法层的，有属于音系层的。这些现象在同一方言或同一语言群体的对话中，都是说来不假思索、不自觉地、随本语族或本方言的习惯而“合辙”的。儿童从呀呀学语到能说会道，用不了几年，这些习惯就都自然而然地养成了。这类习惯或规律是在特定语言环境中形成的，因此在汉语中和在印欧语中的习惯自然不会相同。

现在再来说说这“意控”的，就是人们说话时为了表达自己情感或思想、或为了对来话的反应，脑子里就会（有意识地）立刻组织适用的对话词句，然后成为具有自然变量的语音流而输出（“言为心声）。意控包括两方面：单纯的脱口而出；或接收到对方的话语信息和／或环境的反馈信息，而有控制地说出。这类的语音变量，就不一定有规律，常常是随机而变的。这就牵涉到心理学的、模糊学的范围。连续语言中的主要韵律特征“语调”，就属于这一类。

以上两类知识，在语音合成的自然度上，在语音识别的准确度上，都是至关重要的，但在传统语音学的论著中就很少这类的介绍和讨论。特别是关于汉语的发音习惯知识的研究，即使在现代语言学乃至中外的信息处理书刊中，也是寥寥的。我们如要提高汉语人—机对话的质量，就不得不在这两方面作深入的探求。而这项研究，如果不先弄清楚汉语本身的“人—人对话”的思维模式和其发音习惯（包括表面的和潜在的），而简单地进行“人—机对话”系统的设计工程，必将事倍功半。我们也许常能听到这样的说法：“人—人对话中的语音现象，是跟人—机对话中的语音现象有很大的不同的。”不错。但这只是表面的、局部的现象；而实际上全面的、包括表面的与潜在的语音现象，在“人—机”和“人—人”的对话之间就没有什么不同，而且必需相同；否则合成出来的语音就不会自然。识别语音时如果不能把这些“潜在的成分”予以取舍和规正，就无法取得高标准的成果。

四汉语语音变量处理的理论基础

汉语语音的变量，在理论上可以列出许多项目。社会科学中一谈到理论，就会涉及哲学问题。不错，凡是事物一谈到“变”，就是一桩哲学公案。我国千古以来最早的一部讲“变”的哲学经典著作，就是《易经》，其中概括了一切事物的矛盾现象及联系、发展规律。动态的语音也离不了这样的规律。

语言和语音的变量，有“时”与“空”两种意义。一是它在运行中不断活动的时变；另一是它在运行中偏离规格的质变。这些现象，我们无时无刻不在看到、听到、作到。其中“变”的内容和关系，在定性分析方面，都能用《矛盾论》中的一些规律来启发；而定量分析方面，模糊学理论就可以帮助解决一些难题。以下但就矛盾论中与语音变量有关的一些规律，粗浅地谈谈。

1.动与静矛盾论中最主要的一条规律就是：事物的发展，运动是永恒的，而静止是暂时的。“矛盾存在于一切事物的发展过程中；每一事物的发展过程中存在着自始至终的矛盾运动。”（《毛泽东选集》：“矛盾论”）语言的发音，也和事物的发展相同，完全是处于动态的。我国早在一千七百年前，梁代的沈约就以诵读文章在听感上的变量标准来评价写作的水平（这是当时士大夫所提倡的美化文标准）。现在摘引《宋书》中所载他的“谢灵运传论”中的一段话：

“夫五色相宣，八音协畅，由乎玄黄律吕，各适物宜。欲使宫羽相变，低昂舛节；若前有浮声，则后须切响。一简之内，音韵尽殊；两句之间，轻重悉异。妙达此旨，始可言文。”

他这一段话，把文字声韵的变化，用了几个精炼的词汇都描述了。如：“五色”喻声调的五声（宫、商、角、徵、羽）；“玄黄”、“律吕”、“宫羽”、“低昂”都指声调的旋律；“八音”（金、石、丝、竹、匏、土、革、木）指声、韵的音色；“浮声”、“切响”指长短节奏；“物宜”指自然度。所有“变”、“舛”、“殊”、“异”等词都说明要有差别、有变化。总的来说，就是字音的搭配要避免单调重复；节律的安排要具有抑扬顿挫。他这短短的几句话，就已把语音的一切声学特征：音色、音高、音长、音强及其变量和动态，都说全了。当时虽然没有精密测量语音的方法，但这些模糊的描写就足以揭示汉语语音的特点。

人们说话的语音一说出来，就不是静止的，而是在话语中始终运动着的，古语所谓：“一言既出，驷马难追”。然而，要对语音作细致研究，就得把它分成若干个离散的、近似静止稳定的单元，才能加以分析实验。当然，语音不能脱离时空而存在。绝对静止的、没有时变的声音现象，是不存在的。实验研究时切分出来的离散音段，尽管短得人耳已不能辨别（譬如分成千分之一秒），但是还是有一定的长度。这在矛盾规律来说，已是相对的静态了。《庄子》：“飞鸟之景（影），未尝动也”。列宁的《哲学笔记》中引芝诺的运动论，也有“飞矢不动”的说法。高等数学中有这样的定理，把曲线分割得越小，就越接近直线。所以，把语音的声波切分得很短，就成为准静态的数据。因此，在人—机对话系统中，一般都应用这样的数据。近来对语音处理的分析，有主张把音节分成最小的“音子”单位的，每个音节可分好几个“音子”。最近又看到国外的合成报告，甚至能把语音单位分得更小，每秒分为好几百个“音子”的。（正如季羡林先生所说的：“分析、分析、再分析”）认为这样就能应付一切语音变量的合成处理了。这当然要比过去精密得多。不过用来处理汉语，还得经过一段时间的验证。

汉语语音的处理，不但要搞清它的特点，同时还应该考虑到，语句中的音色、特别是韵律，在语流中是常作相对的变动的，这就不能一概把它们定成绝对值，例如元音舌位的移位、短语基调的移调、重音和时长的变量，就都得用模糊的边界和等级式的相对量来处理。用分得过细的绝对值来定量，在话语感知上是否有这样的必要，还待通过更多的实验来证明。

2.正与反一切事物都有“正／反”或“是／非”的一对矛盾，通称为二元对立，这早已是我国古代哲学中的核心概念。《易经》八卦的“乾／坤”、“坎／离”等无一不是对立；矛盾论指出有正即有负，无正就无所谓负，等等。语音中所有的现象，几乎也都是属于二元对立性质的。现代语言学（布垃格学派）音系学的“区别特征”理论，把语音分成若干“最小对立体”如：“带音／不带音”、“辅音／元音”、“口音／鼻音”、“清越性／含糊性”等等，基本上都是建立在二元矛盾的观点上的。五十年代的有的汉语声码器对语音的处理，在输入的第一阶段，常常要先识别“蜂音”（带音的浊音）或“咝音”（不带音的清擦音），就是根据“区别特征”理论作为“是／非判”的。其实，音声中矛盾对立的概念，早在我国古代就有相当完整的描述了。春秋时晏婴对齐侯论及五声，就有“清浊、大小、短长、疾徐、哀乐、刚柔、迟速、高下、出入、周疏，以相济也”的论点（《左传》昭公二十年）。这完全是二元对立的关系，而且指出它们之间的相互关系是相互依存（“相济”）的。这就揭示了矛盾的统一关系。千百年来我国文献中这类说法举不胜举。传统语音学描写语音的特征，一些项目大致和上述的相同。此外还有如：元音的前后、开闭、开合、洪（响音）细（幽音）；辅音除清浊外，还有戛透（辅音的不送气与送气，见劳乃宣《等韵一得》）、口鼻、久暂；声调除高低外，还有升降、平曲、舒促（平仄）；音强除轻重（大小）外，还有刚柔；节奏除快慢（迟速）外，还有断续，等等。这些无一不是矛盾的对立。

语音的二元对立关系，最初是在本世纪早期，布拉格学派的语言学者（雅可柏森等），根据言语声学或言语生理学把人类有区别性的语音用“偶分”法，分成若干“最小对立体”，创立了《区别特征》理论。这种偶分法当时就引起有些语音学者的争论，因为有不少语音现象单单用二分法来分是覆盖不了的，于是又有人提出“多元”的分法，称为“多分”或“N分”法。拿前元音的舌位为例：从高到低（／i／—／a ／）在元音图上就是多次的。随后又有一位语音学家发表一种调和的说法（拉第福给德），认为：“多分特征可用许多偶分特征来解释，而任何偶分特征似乎也包含着许多的多分特征。”他的前一句是合逻辑的，因为任何多分下来的一点，如再要去分，最低限度是得跟它前面或后面的一点（不管距离多么小，总是有区别的）来作“偶分”的。所以一切事物，只要一用“分”的概念，就一定有“偶”的条件。至于“偶分”中是否包含“多分”，他的后一句用了“似乎”不肯定的说法，而且也同前一句的说法有矛盾。我们认为这可以拿中国古代的哲学来解释。如：《庄子》：“一尺之棰，日取其半，万世不竭”。“取半”就是偶分，而“日取”、“万世”，就是多分。这些偶分在理论上是可以无穷地分下去的。所以语音的动程中总是有成对的矛盾，而矛盾的数目又可以无限地出现的。简言之，事物被“分”（手段），就成为“偶”，而“偶分”（次数）又是可以多次的。

语音中成对的矛盾，其性质是多种多样的。正如音系学理论中所划分的三种类别：有些是“是／非”的对立；有些是“逐级”的对立；有些是“均等”的对立。“是／非”（非此即彼，亦称“有／无”）两方的界限是明确的，在处理中可用符号来标记。“逐级”（程度不同的分级）和“均等”（两方各以多于一项的不同条件来作比较，而不是如前两类，是只有一项条件不同，而其它条件都相同）的矛盾双方的界限就不明确，甚至两方都带有你中有我、我中有你的交叠现象，很难给予切分定量，处理时就可用模糊集合的方法，把它分成有限的台阶或等级，用少数几个数码来定量。根据语言学模糊论的原则，语言中语法的变量可以用构成的“词集”来作模糊处理；那么语音的变量中这类模糊现象更多，都可对动态语音归纳成“音群集”和“韵律集”来处理。因为人耳听入语音，感知上有一定的“溶抹度”，即使范围或界限不清，太细的分界数据也是没有必要的；用模糊的规格来分，就已足够了。

人的语音为什么会具备这些形形色色的对立特征？其作用只有一个，就是要求给受话者在感知上有所区别，而达到分辨不同事物信息的功能；幸而人的发音器官动程有其局限性和共性，是可以给定规则的。所以语音虽有千变万化，但如用矛盾论和模糊论来指导处理方案，应可得出比较满意的结果。

3.联系、依存与转化汉语普通话的单字读音有“阴、阳、上、去”四种不同的声调，它们在一个调域内分布着“高、低、平、曲”的模式，既有二元对立，又有相对关联。“妈、麻、马、骂”四字的拼音完全相同，只因为声调不同，听话者就能区别意义。除了这些音段和声调成分，还有其它韵律特征，如音强、音长等变量。它们在连续语流中互相影响而产生协同或同化作用。《矛盾论》说：“一切矛盾着的东西，相联系着，不但在一定条件之下共处于一个统一体中，而且是在一定条件之下互相转化的。”人们对语音中的音长和音强，都是根据其相对量来判断语气的，而对字调则须感知其调型走势和各调间的相对关系，如平或曲，升或降，来识别词义，而不斤斤计较其绝对频率值。对语调的感知，除识别其调形动势外，还同时根据其调域展缩和基调转移的比例，连同轻重长短等的相对差别，来理解说者的语气和感情。因此，我们可以得出一个比较简明的规则：不同的字调在一个短语调域的统一体中，可依据各字调间的高低、平曲等的对比，来辨别词义。不同的语调在一段语句的统一体中，可依据各短语间的基调及转调、轻重及长短等的对比，来理解表情。这些都是符合矛盾论中的相互依存又相互制约的规则的。

4.主要矛盾和主要矛盾方面《矛盾论》说：“在复杂事物的发展过程中，有许多矛盾存在，其中必有一种是主要的矛盾，由于它的存在和发展，规定或影响着其它矛盾的存在和发展。”“任何过程如果有多数矛盾存在的话，其中必定有一种是主要的”，“矛盾着的两方面中，必有一方面是主要的，他方面是次要的”。普通话语句中的若干短语，为了突出语义中的某个着重点，其中必有一个（据赵元任先生说，有时是两个）短语是被人感觉到比较“重”些，称为“逻辑重音”。这个短语比起同一句中的其它短语来，在“轻重”上构成对立的主要矛盾；而“轻重”的两方面，“重”是主要矛盾方面。（不过，许多实验证明，传统语音学所谓“轻”或“重”，其承担功能并不都由于话音的“强”或“弱”，而是主要靠调值的“高”或“低”或调域的“宽”或“窄”，有时也靠短语的“长”或“短”。）因此从这两方面说，音高又是主要矛盾方面。

一个平叙句子的语调中，由于某一两个词或短语，在逻辑上或感情上需要加重或减轻，它们的“基调”就会被抬高或压低（不是调型格局的变化，只是像歌曲中主旋律的转调，而且其调域不超过本人常规的调域范围），它们与同句中的其它短语就形成了矛盾。笼统地说，此矛盾的双方，短语声调的抬高或压低，自是矛盾的方面。但是，这个短语的调形是几个单字调的组合，如上所述，它们所形成的调域的上限和下限，也就是此调域的高调阈与低调阈，都能作为基调，基调按语句中逻辑重心短语的要求而抬高或压低。实验证明，一般平叙句的语调，基本上是由短语基调的变化来表达的。在合成时，把一个句子中的短语基调作不同比例的变动（当然此短语中的其它声调也跟着作常规的变动），就可以生成出一系列不同的语调。因此，基调的变化就成为主要矛盾方面。此外，在一些情感变动较大的语句中，说话人重心短语的调域就有可能比本人平时说话的常规调域更为展宽或缩小，用以表达情绪的加强或压低。因此，在这样的情况下，调域的变化又成为主要矛盾方面。

5.量变与质变从量变到质变，是唯物辩证法中的一条重要规律。现代语音学中对语音的分析，已从定性发展到定量。语音中能计量的事项可以在此略举一些。在生理上发音部位的动程，诸如：双唇的开度，舌面与上腭的距离，舌尖与上齿背的距离，声门的开度等等，都是以毫米计量。在声学上发音方法的现象，诸如：气流的压力以水柱（或电子仪器）刻度计量；气流的流量以仪器（如热敏电流计）所测的流速计量；音色的声谱及声调的调值以频率的“赫兹”计量；音长及停顿以时长的“毫秒”计量；音强及重音以振幅的“分贝”计量等等。其中有不少音是（在感知上）随着量变而发生质变的。诸如：发擦音时，舌尖与上腭的中缝由小变大，擦音依次由舌前擦变到舌中擦；声门的开度由狭变宽，声带的闭合由全闭到半闭，或声带肌的拉力由松到紧，都改变了嗓音音质。声带每秒颤动次数的多少对应着声调的高低。声带每周期中波形的繁或简（过零点的多或少）对应着元音的偏央或偏前，偏低或偏高。元音声谱中第二、第三共振峰与第一共振峰频率差别的大或小，对应着元音的高或低，等等。这些都足以证明量变与质变的关系。还有，一个音节在合成中常会因切分的长短不符而给出不同音色，甚至改变了音位。例如：一个“星”字／xing／的录音，在分析的仪器上，把音波从开头逐步向后切短来听音，结果会被依次听成：“轻”／qing／、“京”／jing／、“丁”／ding／和“登”／deng／等不同的单字。这也是量变到质变的一个例子。这些单字之间被切分时，又可常常发现其分界是模糊的。如果把切分点在两字之间作一些前后移动，则可能听来既像前字，又像后字，很难确定其标准分界。这种音段分界的模糊现象，也是量变到质变的结果。

五、“人—机对话”队伍的建设问题

从以上所说的一切，已经可以清楚：人机对话所需要的语音知识，在目前高等院校的相应课程中，似乎还很少安排。这就需要由有关方面作全盘考虑了。这里可以再提一下前述的那位呼吁“要有第五代语言学家”的专家，他是瑞典的通讯工程师兼语言学家的方特G.FANT 博士。 1983年在荷兰召开第十届国际语音科学会议，当时国际上有一股浪潮，都热衷于要搞“第五代计算机”（还不及现在的多媒体电脑），以为只要有了这样的先进设备就可以解决言语工程上的一切问题了。他认为这是过于乐观了，他在大会上以“言语工程学”为题作中心报告，指出：如单靠工程上的改进而没有语言学的知识，是会“触礁”（碰壁）的。他说：“我们对作为语言代码的言语的认识仍然是很贫乏的。我们需要的是第五代的言语科学家，而不是第五代的计算机”。他用了“言语工程学”这个名词来概括这一学科。所要解决的是用什么样的代码去处理言语的可变量和不变量。他并提醒：今后的语音识别不能满足于仅仅作为模式匹配的样板，而是要“能够处理大量词汇和连续语言，这才是一条面向语音学的途径。因为这是以识别最小单元为基础，这种最小单元可以是区别特征、音位、双音、音节或单词”。“就是要寻求语言代码，寻求信息单元与其语音实体之间的关系，以及由语种、方言、个人特点和不同语气等成句因素所引起的可变性”。

方特的发言最后转入正题，他极力主张文理合作，说工程师们应该学习语言学，而文科学生也应补习数理。他说：“语音学与言语工程学之间的紧密联系是不言而喻的。语音学已经计算机化了，并且已经有了高效的新仪器和先进的言语处理方法……今天的语音学受到了新的重视，这是因为它在越来越重要的人类职能的研究中有着极其重大的作用。语音的这种技术色彩还明显地表现在所有的言语研究实验里，不管它们是属于语言学、心理学还是医学部门。”“这种学科的大胆尝试在过去各独立的学科之间开辟了新的通道。我们可以发现文科院校的年轻人正在研究信号处理的数学问题，反过来，电工学系的学生对语音学和语言学的研究也作了出色的贡献。”

方特语重心长的这一席话，把我们今天要作的事在十几年前都提到了。他的呼吁在今天仍是新鲜而响亮的。这里面指出了人—机对话面临什么问题，为何这样重要，该培养什么样的队伍，怎样培养。简言之，我们针对国内的情况，可以把这问题归纳为如下的几条：

（1）语音学对人机对话（言语工程学）极其重要，技术部门如果单干就会碰壁。

（2）人—机对话的队伍要由文理科双方共同培养。

（3）目前的工程技术人员应该学点语音学，文科学生也该补习数理。

（4）人机对话的实验室可以分设在各部门，而各自发展。

六普通话连续语音综合音变（协同发音）举例

“协同发音”（Co-articulation）一词早在三十年前就出现了。英语原词顾名思义，是生理发音的协同现象，早期的定义多只限于：两个发音器官部位的相互影响而造成的同化作用。是连续语音的相互影响而造成音变的专名。传统语音学中一向多用“同化”字样，后来语音学界对同化作用就逐渐用“协同发音”来代替，并且涵义更广了。现代的“人—机对话”系统的处理对象既然已经面向连续语言，连音变化规律又是连续语言自然度的核心，因此“协同发音”的研究就成为当务之急。本文就打算在这个课题上，特别是对汉语的协同发音，多说一些。

在连续语音中，前后两音相接较近，就相互影响而产生协同发音现象。其前后的影响有三种方式：（1）顺协同：前音不变，后音变。（2）逆协同：后音不变，前音变。（3）双向协同，前后音都变。在早期三十年代，美国的哈斯金斯研究所开始用机械的语音合成器作声学参数合成实验，就找出音节中的辅音—元音间有过渡段，奠定了后来的协同发音研究的基础。现在知道，不但是在音节中，即在各音节间和各短语间，如果前后两音相接得较紧，也都会产生过渡作用，称为协同发音。这样，协同发音跟过渡音在定义上的分别就不太明确。现在我们为了简化，把两音之间的相互影响，称为“协同发音”；把它们有影响的一段，称为“过渡段”或“过渡音”。现在将协同发音的成因和结果列出如下：

协同发音在什么情况下出现？两音相接比较紧密时。（When）

协同发音为什么会产生？因为前后两音的部位不同，就互相迁就而使前音尾和后音首有了变量。（Why）

协同发音出现在哪些场合？在音节中和音节间。（Where）

协同发音对哪些成分产生变量？辅音、半元音、元音、介音、鼻尾、调形、基调、调域、强度和长度。（What）

协同发音有哪些变量方式？离格、省略、延伸、缩短、移位和转换。（How）

现在把人—机对话中，两音节连读的协同发音变量的处理规则，简化为音段集和韵律集的两类模糊集合及其子集的图解，列出如下：

普通话协同发音变量的模糊集合图解①

音段特征变量的模糊子集②

(音节:语音的、表义的)

───────────────────

声母③ 韵母④

───────

(音节中)

辅音过渡元音缩略

半元音过渡介音过渡

辅音逆协同辅-元音过渡

(音节间)

后字清声母不变前-后音段过渡

(浊声母有时顺同化) (前韵尾缩略、移位)

韵律特征变量的模糊子集⑤

(短语:语音的、语法的、表义的)(语句:逻辑的、表情的)

───────────────────────────

声调⑥重音⑦节奏⑧

字调:(音节中) 四声调域变化

(短语中) 多音节连读变调连音节语法轻读连音节语法缩短

双音节辨义轻声

语调:(语句中) 前-后短语过渡

语句首/尾变调

短语逻辑移调短语逻辑重/轻

短语逻辑延/缩

短语表情移调短语表情重/轻

短语表情延/断

短语调域展缩

符号说明:"-"="到";"/"="或".

说明：

①语音变量的模糊集合

普通话的语音也如语法一样，其成分是可以用模糊集为构成单位的。人类认知语音，并不是很精确地接受某些绝对音值，而是相关的、综合的模糊体。特别是对语音变量的认知，不是一个个音素，而是以音节、乃至以短语为主，因此用模糊理论来处理就有许多便利。上图将语音的全部变量分成许多模糊子集，把它们作为人—机对话中语音变量的处理基础，是可起简化和规正作用的。语音变量的模糊集分为两大类：音段特征变量和韵律特征变量。都以连读音节的短语为单位，然后每类再分为若干子集。各子集的基本内容分别说明如下。至于变量的详细说明及处理规则，可参阅后列有关文献。

②音段特征的变量

普通话的音段，也即表义的单音节中的构成音素，包括辅音和元音。现在用汉语音韵学的声母、韵母来分类，比较能起到综合作用。其变量是由于在连续的语言中，受发音生理和语言节奏的制约而引起的变化。

③声母

普通话声母有清、浊辅音和半元音（零声母）。有些辅音在音节中受后面元音的同化作用而起了若干变化，造成逆向的协同发音作用。清塞音如：／b／受后面元音／a／，／i／，／u／的影响而口形略有不同，同时并使元音的开始产生不同的过渡段。／d／受同样的元音影响，舌位变化较小，但过渡却有较大差别。／g／受元音影响最大，舌位和过渡段都向后接元音的舌位靠拢。其它的清辅音也各有不同的过渡。浊辅音如：／m／，／n／，／I／在／a／，／i／，／u／前面、还有／n／，／I／在／ü／前面，都有不同的口形、舌位和过渡。

零声母音节是以元音或介音起头的，因不同人的发音习惯而说成不同的半元音。半元音在开元音前多为喉塞音[？]，而在闭元音前则为通音[j]或浊擦音[j]。在合成中如保持了半元音的特点，可以免除听得像“机器音”的毛病。

两音节间的后一音节，其声母本身一般比较稳定，只对前音节的韵尾产生逆同化作用，而使它变化。

④韵母

普通话的韵母有单元音、复元音、鼻尾韵母各类。元音在自然的口语中可以缩短或不到位。在一个音节中，元音被前接辅音的同化而产生过渡。有介音时，介—元之间也有过渡段。

两音节连读时，前音节的韵尾由于逆过渡关系而致缩短、不到位，或移近后音节的口形或舌位，情况视韵母结构而定。单元音一般不变。复元音如为前响（如／ai／，／ao／），韵尾可能缩短或移位。如为后响（如／ia／，／uo／），则韵尾不变而介音可能缩短，但必须到位。如为鼻尾（如／an／，／eng／），则前鼻尾与后鼻尾在逆同化中有些不同。前鼻尾／—n／受后接声母的唇位或舌位的同化，而可能在双唇音前变为／—m／，或在舌根音前变为／—ng／。如为后鼻尾／—ng ／，则／ng／可能丢失而使其主要元音成为鼻化。

⑤韵律特征的变量

语音学中的韵律特征（即超音段特征）包括音高、音长和音强。除单字调和多字连调的音高是表义的外，其余一般都是用来表情的。

⑥声调

声调在汉语中可分为“字调”和“语调”两种。字调的变量在单音节单读、或多音节连读的变调中，都是表义的；它们都是字调的变体。普通话单音节有四个声调调位，其调型分为：“高平”，“高升”，“低降升”和“高降”。这四个调形（或称为“曲线”）按音高频率的上限和下限构成一套“四声的格局”，其调域宽度因人因境而异，但在个人的平叙句中，其各短语中各调形的相对走势及其调域的宽度是守恒的。只是在不同语气的语调中，调域才产生较大的变化。

两音相接，其前后的调形就有过渡，一般是逆同化，即前音节的调尾的形或势，向后音节调头的形势靠拢或滑移。这样，两字组合成一词或一短语，连读时由于字调不同，就构成许多“二字组变调模式”。三字组和四字组也各有其连读变调模式。这些模式在同一意群或短语中，如不加表情成分，其调形的频率上下限是服从本人的常规调域的。

普通话中的两字组合出现率最多，其变调规则至为重要。简单说来，前后两调相接：如后字是清声母，调形就产生逆向同化；如后字为浊声母，就有逆向或双向同化。但其中的上声却比较特殊：上声与非上连读，前上成“半上”；两上连读，前上变阳平。这是普遍现象。变半上是语音学的规则，而变阳平则是音系学的规则。（汉语的北方官话中多数如此）

普通话中有一批两字词，后字为轻读而改变了词义，这类字称为“辨义轻声”，它的本调消失，调型随前接的调位而变，而且比前字调约短一半。其模式大致可分为三种：1.阴平、阳平后面的轻声是中短调，2.上声后是高短调，3.去声后是低短调。但如遇两字都是上声，而后字是轻声时，本该读成“上加轻”的高短调，但由于音系规则，仍要按两上连调的一般读法，使前上读成阳平；这时的前上既变为阳平，就得实行阳加轻的变调规则，而使后调改读为中短调了。这种复杂的变调过程（可称为“多米诺”式的连锁变调规则），在说标准普通话时，却是不假思索，一次完成的。

“语调”通常有两种定义，一是专指语句的声调，另一是泛指语句的韵律特征。此处专指语句的声调。句调的全部调形变化很大，在不同语气或不同表情的句子中，调形就各不相同。寻找规律就很困难。我们从大量的实验证明，语句是由若干组的单词、复词或短语组成的。各音节之间或各短语之间，一经连读，就有调形的过渡。还有，在一句的开始和结尾的音节，常有读轻现象。这些“短语间过渡”和“首尾轻读”，是语调的初级形式。单字有其固有的调型，复词或短语也各有其连读变调模式。这些都还有规律可循，运用同化或过渡规则就容易处理得当。这些是属于语音学的规则。

在一短语中，可以有几种多字组的变调模式。二字组的模式跟语法无关，三字以上的组合，其变调规律要受语法的制约，模式就比较多样化。语法的干涉在除上声外的一般声调组合中还不明显，在几个上声连读时就发生了复杂的现象。例如同为三个上声的组合短语，就可有两种语法结构：（A）“好领导”和（B）“领导好”。在语法上，“领导”二字是直接成分，结合较紧。按两上相连规律，“领”字都得变阳平，（音系规则）；而在语法结构上，例A为“单双格”，因上声“领”已变阳平，其前面的上声“好”就得变“半上”，这是语音学的逆同化规则；另一例B为双单格，在三字组合中“导”是中字，就成了前后两字的过渡调（语音学双向同化规则；我们称为“跳板规则”。）。结果这两个三字组的全调形就大不相同。这些语法学的、语音学的和音系学的变调，都属于字或词的连读变调，是辨义变调的范围。

语调变调和字调变调的范围不同。字调的变调是以字或词为单位的。至于语调就要以短语为单位来变调。在一句表情平稳的句子中，总有一两组短语在语义上是着重点或核心，它们的调子就抬得比其它的短语高些；反之，如有意减轻口气分量，就压得低些。这种高或低是以基调为准则的变化，其四声的相对走势（以半音阶坐标为准而不是频率的线性坐标）是守恒的。这和歌唱时换个“调门儿”来唱是同一个道理，已如上述。这在乐理中叫做“移调”（广义地说，也叫做“转调”）。这种语义重心的移调是属于逻辑性或一般情绪的变调。此外，还有因表情激动而致语气的增强或减弱，使声调的“抑扬顿挫”的动程较大，细究起来，它还是某些短语的移调现象，不过其调域有时展缩的程度，比常规较大而已。这种语气上的移调是属于表情性的变调。它们因表情的不同而有许多模式。

⑦重音

重音有两个意义。一是指一个单字的重音，其物理性质是音强，这是一般的说法。另一是指语调中的逻辑重音，这就要包括韵律特征的全部项目，音高、音长和音强。它是在语句中的核心短语上，来和非重音的短语起对比作用的。因此，它只能以相对值来记量。两字词的轻声，除读得较短外，还常读得弱些。这些词或短语的轻重之间的界限是模糊的。

⑧节奏

“节奏”在传统语音学中有时是指节拍，有时是指韵律特征的代词。我们这里专指语音的长度和停顿（或“间歇”）。一个说话人语流中多音节连读的词或短语，其中有的单字比他本人在常态中单读时缩短或延长的，都认为是变量。例如：在词或短语中，二字的轻声或句中的轻读就要缩短；三字组的次字也要缩短。在语句中，句首的字有时要缩短，句尾的字有时要延长。“停顿”在句子中有两种类型：字组间的停顿代表文本中的逗号或句号等，是服从语法惯例的。短语间或句子间的停顿，可长可短，是要视语气或语境的需要而随时意控的。

七 “人—机对话”的前途

关于人—机对话这一类的言语编码或言语工程的前途问题，在八十年代初，国际上曾掀起一阵预测的浪潮。那时有几位很有名望的言语工程师，在国际会议上发表过一些明确预言，如：到哪年就可完成哪些项目等等。但对这一自动合成和自动识别的发展，却比较审慎地把它们列入“十年以上”的“长期观测”项内，认为“还需要有更高的语言学知识的人才，能运用人工智能研究，来完成高级的自然语言模型”。这类的预测是否能兑现呢？后来“第五代计算机”问世了，而“第五代的语言学家”还没面世，合成与识别中的难关也还未攻破，此后十余年的多次国际会议上，关于这类预言，就很少再有人贸然提出了。国际上的气候是如此，我们呢？是否也能提出一点预测？我认为：只要实事求是，有根据地、有条件地、来作点预测，还是可以，也是有益的。目前在还缺乏调查统计的情况下，不妨试谈一下人—机对话的未来。

笔者在十年前的《实验语音学的过去、现在与未来》一文中，曾指出：各大专院校的中文系建立语音实验室的已有多家；其它理工科研单位从事此项研究的也已不少了。到今天十年以来，各方的进展和人才的补充已大非昔比。国家的集中规划，文理的交流合作，也是空前的。再加上与国际信息高速公路的沟通，各自对汉语语言特点的综合研究，没有理由不能攻下一道道的难关。不过，根据目前所了解的一些处理上还不能尽如人意的情况，绝大部分是属于语音变量规律的研究，还不够有系统和更深入的问题，诸如：语言短语音段的自动切分；建立语料库的合理规划；自然语言中协同发音变量的规则；以及语音信息处理与言语生理学、言语声学或言语心理学的关系；特别是与汉语特点有关的语音知识等等，都还待集中力量来研究。这些知识如不能提高，不免成为前进的障碍。

半个世纪以来，国内各方对言语声学的知识，参考了有用的文献，引进了国外先进的方法，用来处理汉语语音，已经取得了可观的成果。不过有些处理方案或不免过于繁琐（也就是“分析、分析、再分析”），或应用于汉语还有凿枘不合之处。我们认为，汉语本身自有其特点，如能根据汉语语音的发展规律和交谈习惯（前者如音变和调变，后者如说话和听话）来作设计，或可提高若干效率。汉语语音的特点及其处理上的问题，有如下述：

音节的切分：录音拼接式合成对单音节中的协同发音变量是不必处理的，最成问题的是音节间和短语间、前后连音波形的切分。前后两音节相连，如后音的声母是清辅音，协同发音为逆向，分界就比较清楚。但如为浊辅音或元音时，协同为双向，分界的模糊性和交叠性就难确定分界点。前面介绍过的方特，他曾用图解表示连音的交叠现象，是一连串朝下扣的半圆形曲线，彼此交叠着横列在一条底线上，就如同公园草地或花坛外围的矮拦。对于逆向协同发音可以再拿一个例子作比喻：譬如运动会上的四百米接力赛，当“一跑”跑到一百米处该要传递接力棒时，一定还得继续向前跑、跟已经起跑的“二跑”并排跑上十来步再交棒，而不是让“二跑”干等在百米交界点上来接棒。这就如同在逆向协同发音的前后两音相接时，前音尾的舌位或唇形要移动去“协同”后音的舌位或唇形，而不是让后音凑合前音。结果是前音的尾变而后音的头不变。因此，如果从两音相连的波形中等分切开，这个前音节的尾段已经带有后音节的协同信息，如果用它来和另外的音节相接，就得注意这个音节的辅音舌位或唇形，是否跟原来后音节的相符。如果不符，就得把前音尾加以修改，来适应新后音的起点。

以上所说的音节的切分是兼指全波纹、声调曲线和音强振幅线的分界的。所幸汉语是一字一音，多数还能表现出固有的调型。把调形和振幅综合起来研究，就可作分界的参考。所难的是对双向协同过渡音波形的分界。因为它的音色融合了前音尾和后音头的音色。连着听时无问题，如切开来听，则两音都不像。这在语音识别中是一个难题，往往就得靠语库来解决。

声母：汉语音节的开始，如用声母为单位而不是辅音就比较合理。因为声母不只包括辅音，还有半元音及零声母在内。这看来似乎不科学，其实正是它的优点。这样分类的范围就比较宽，在处理过程中无形中就起了把繁琐数据规正化或模糊化的作用。传统语音学用“声母”来概括一切音节的起点而不用辅音，是符合汉语的特点，和听辨字节的实际的。

韵母：传统语音学把汉语音节的结构分为声母和韵母。韵母中又分成韵头、韵腹和韵尾三部分。韵头为介音或零声母；韵腹为主要元音（单元音，复元音中的前响和后响元音）；韵尾为复元音中的非响音或鼻音。在建立语音库时，如以声母和韵母为单元来归类，就可按汉语发音习惯，起了规正的作用，也符合汉语语音结构的特点（学童学习汉语拼音，学声母韵母比学音素要容易），对协同发音的处理也可以简化许多。这是对汉语语音处理有利的一面。还有，普通话的复合元音有前响、后响之别，在合成中作音节或韵母的伸缩处理时，对介音和主要元音的伸缩度就必须分别对待，这与英语等的复合元音不同，是较为复杂的一面。还有，普通话鼻尾分为前鼻音和后鼻音，在语流中的音变就须作不同的处理（详后）。

声调：汉语的声调最为复杂，在信息处理中是最感麻烦的事。普通话的调类，比起汉语各方言的调类虽不算多，但在连读音节中，由于协同发音作用就有许多变体，而且在语句中的语调，更是随感情环境而异，几乎难有规律可循。对声调的处理，应该确定研究的步骤。先要认定汉语的字调既然是辨义的，就必然是有规律的。我们通过许多实验得知，变调在两字组合中基本上有固定的模式。三字四字的变调，在二字模式的基础上也各有其规律，但同时要受语法制约而有若干变体。五字以上则基本为二加三或三加二的组合。记调的单位如不用线性频率坐标而用乐律的半音音程为坐标，就起了规正的作用。这样的处理都是符合汉语的需要的。

语调：关于语调的处理，应摒弃西方的学者们把设定的语调模型强加于字调的概念，而以短语连读模式为基础，将其基调作移调（转调）处理，可以根据表情的需要而生成不同的语调。这就使程序大为简化。实验中证明这是可行的。不过在生成不同的语调时，如遇基调的变动较大，其谐波频率也随着作较大的变动，元音和浊辅音的特性频率就会超出基本征值范围而失真，这就还要对语音的数据加以修正。这种转移基调的办法本来是在歌唱中常用的，用于语音是符合汉语的渊源和特性的。语言学大师赵元任先生早在半个世纪前就指出：“（汉语的）任一词在任一语调中说出时，都不会丧失它的词性区别。语调只能表达语气、情调、用途，等等。”他又说：“（汉语）语调的差别不同于英语：第一，汉语两部分（按：指句首语调略高于结尾）之差别不大；其次，汉语只是基调的差别，而不是像英语那样上升或下降的曲线。”都明确指出了汉语的字调与语调的区别。1.字调在语句中调形比较稳定，是辨义的；而语调是表情的。2.语调的变化在于基调的转移，而不是调型的变换。

协同发音：两音节连读时音色的过渡段，如用插入法来合成，则计算一下普通话中的两音节连读时，前音节可能出现的不同韵尾（元音和鼻音）跟后音节可能出现的不同字头（辅音、零声母和半元音）交互搭配，就会产生约三百种音色过渡模式。这个数量对编制程序是太不经济了。所幸人们说话时对音色的发音部位的动程和发音方法的类型都还有限；过渡段两端的音可以按其相同的或相近的予以归类，通过这样的规正，就只有十几种模式了，这就大为简化了音色过渡段的处理程序。

两音连读时声调的过渡段，按普通话中的声调格局，用五度制来标记全调域的调阶，就足够表达声调的区别特征。如按照前文所述的用乐律半音程的座标来计量，在平叙句中，对这段过渡调形的两端通过半音音阶的规正，就能跟前音节的调尾和后音节的调头（它们当然也得先通过半音座标的规正）衔接得十分合辙，而不会有错位跳音的现象。这样也就简化了调形过渡段的处理程序。

协同发音中音强幅度的变动，在连调中只能滑移，除非元音断开了才会跃变。因此，它跟声调变量的处理是同步的。而且，声调高低和音量强弱的对应，虽为非线性的，但可通过实验给予阶梯化的规格。这样，汉语语音中协同发音的音段（音色）变量和超音段（韵律）变量，都可用规则来处理了。

自然度和轻声：普通话语音合成对质量的要求，在声学上可分三个等级：“清晰度”、“可懂度”和“自然度”。合成的单音节能被听得清楚是什么音，是“清晰度”的标准；多音节连读时，能被听得明白是什么意义，是“可懂度”的标准；合成的句子让人听来感到流利舒畅，没有“机器音”的味道（“机器音”如：合成出来的话语，各音节连接得生硬，听来不像真人说的；合成出来的话音腔调，像外地人说不好的北京话；或腔调像外国人说的中国话等等），这是“自然度”的标准。目前各家合成汉语的水平，前两个等级都不难达到，而自然度则大有差异。一般还距离理想甚远。影响自然度质量的因素很多，不能一一列举。兹检最主要的几项谈谈。这些也就是汉语语音的精华所在。

轻声：对普通话的自然度影响最大的，应该说要推轻声。在语法上轻声可分为三类：1.“辨义轻声”（简称“轻声”）：在汉语词汇中，二字词的次字，同样的字，读轻了就和读重的意义不同。如：“火烧”是着火了，而“火·烧”是一种烧饼。（字前有·号为轻声）。这类词在汉语中为数不多。2.“可轻声”（此名从赵元任）：如二字词“老虎”的“虎”，“起来”的“来”，读轻读重，意义不变。这类字在汉语中为数中较多。3.“轻读”：此类字多在句首或句尾。如：“他不去”的“他”；“天好啦”的“天”，在自然口气中都读得轻。1 类在功能上属于可懂度；2类和3类在习惯上都属于自然度。各类轻声的声学特性在强弱上不一定要读得怎样弱；倒是在长短上总是读得短于同词中的其它的字。在音色上由于读短了就常会把此字的元音读得不到位，这就在合成的音色处理上成了问题。特别是在拼接合成系统中，对音高、音长、音强等韵律特征的处理，目前的技术都还能办到，唯独对音色的处理是个难题。因为处理音色就得修改音波的模式；这在技术上是难于做到的。不过据悉现已有人在实验另外的方法，把元音的复合波还原为声带波，再给与新的声腔系数，来调制出各种音色的元音。例如：把前[a]改成后[ɑ]，把紧[i]改成松[I]等等。此法如能处理得好，是有前途的。

以上所说的这些，都是“人—机对话”中汉语语音处理的新问题，对汉语人—机对话的前途发展至关重要。这也是我们在文理合作后，边干边学得来的一些体会；文中的叙述，对语音合成方面较详，对语音识别很略，这是笔者对识别方面接触较少的原故，今后对此增加认识后当有所补充。不过，由于语言环境的多变，说话人身份的不一，以及种种目前还有未能解决、乃至尚未发现的问题，这是要集中更多的人力物力来统筹规划，继续攻关的。所以，现在拿“探求正未有穷期”这句话来预测“人—机对话”的前途，也许是切合实际的。

标签：语音学论文; 发音方法论文; 成分分析论文; 模糊理论论文; 关系处理论文; 矛盾处理论文; 语言学论文;

论人机对话中的汉语语音_语音学论文

猜你喜欢