基于超声成像的语言研究综述

张金溪^1，2，李永宏²，寇贇²

(1.兰州财经大学商务传媒学院，甘肃兰州 730020；2.西北民族大学中国民族语言文字信息技术教育部重点实验室，甘肃兰州 730030)

[摘要] 先进的实验设备和方法对语言研究有着极其重要的作用。基于国内外现有研究成果，介绍了超声设备及有关超声图像处理工具，对超声成像在语言研究中的应用进行归纳和分析。从发音生理、病理语音、语音工程三个领域探讨超声成像在语言研究中的前沿应用，梳理了最新的语言研究的实验手段和研究方法，分析了超声成像的优劣势和应对策略，展望了超声成像在语言研究中的发展趋势，以期为语言研究提供新的思路和佐证手段。

[关键词] 超声成像；语言研究；发音生理；病理语音；语音工程

一、引言

语言研究中可以借助相关实验设备^[1]，在语言认知方面，可以采用肌电脑电仪、眼动仪等设备，结合语言学、认知科学和计算科学多学科、多方位地探讨语言产生和语言习得过程中的脑机制；在语音生理方面，可以采用气流气压计、喉头仪、呼吸带传感器、鼻流计、动态腭位仪、超声记录分析仪、三维运动捕捉等设备获取发音时的语音、嗓音、呼吸、肌电、气流、腭位、鼻流、舌位、唇形多种生理信号，进行语音生理多模态的研究；在语音声学和口传文化方面，可以采用录音设备、非线性编辑器、专业摄像机和提词器等设备，进行语音资源库数字化建设、语音和口传文化的声学分析。

长期以来，由于受到实验方法和实验设备的局限，很多语言中的语言现象没有被客观、科学、合理的描述出来，采用超声成像技术能够一定程度上解决长期存在的描述性问题，因此一些学者较为注重使用超声成像技术来进行语言研究。在国外，早在20世纪60年代末，超声波就被用于语音研究。随后的几十年中，超声成像技术被实际应用到语言学中的语言教学、二语习得、田野调查、音系学、方言和语言接触、协同发音、语言治疗、语言病理学、发音生理、母语对学习乐器影响以及言语工程等众多领域。

本文样本来自《中国工业企业数据库》，样本时间区间为2002～2006年。剔除相关变量缺失、数据明显错误(比如员工数量为0，资产小于0)样本，最终形成时间范围为2002～2006年的平衡面板数据，共计77 705家企业，所属行业均为制造业。

1.3 观察指标 ①医院感染防控情况：记录实施前后医院感染发生率、多重耐耐药发生率、医疗纠纷发生率、患者满意率情况。患者满意率采用自拟的《患者满意度调查问卷》进行评价，问卷共10个条目，每个条目采用1～4级评分法，总分>30分为满意。②护士医院感染防控知识：采用自拟的《护士医院感染防控知识调查问卷》进行评价，包括感染科护士院感流行处置知识、病房院感预防与控制知识、感染重点项目管理知识、手卫生知识、院感防控知识，护士所有知识答对则为知晓。

目前为止，国内尚未发现有学者把超声成像技术应用到少数民族语言研究中。而且十多年来，只有极少数研究人员把超声成像技术应用在汉语的生理语音学和言语工程领域，且发表的相关文章也不多。随着人工智能、机器学习的发展，新的图像处理技术、新的实验方法以及实验设备的出现将会推动实验语言学的发展进步，全面改善与提升超声成像技术在语言研究方面的应用，通过超声成像技术来分析语言现象的研究将会越来越多。因此，超声成像技术将越来越多的被应用在语言研究中，可以用来研究的领域也会越来越广泛，研究的问题也会更加深入。先进的实验设备和实验方法对解释语言现象发挥着重要作用，尤其是在语音生理方面的研究，对我们理解人类言语产生机制的原理有着重要的理论和实践意义。

二、超声成像设备

随着人工智能技术的发展，新的图像处理技术、新的实验方法以及新的实验设备的出现将会推动实验语言的发展进步，超声成像将继续在语言研究中被使用，可以用来研究的领域更广范，研究的问题更深入。超声成像技术能够进一步提升语音识别和语音合成的质量。

图 1中国民族语言文字信息技术教育部重点实验室的超声设备

图 2 舌体剖面图图 3 超声波从下面穿透舌头图 4/ z/的正中矢状舌曲线的图像

超声成像技术和目标跟踪技术可以对语言发音时的舌体运动进行动态成像记录，而这些技术设备一般都在实验室的环境中使用。便携式超声被证明是一种非常有用的实地语言研究工具。图5便携式超声^[5]和图6基于个人电脑的超声^[6]、数字视频记录设备、图像处理分析软件的可用性及其较低的价格为语言语音的田野调查研究成为可能。Gick B，Bird S^[7]讨论了在野外相关应用中使用超声波进行语言成像的技术，研究确定了在现场环境中控制头部/传感器运动的重要因素，研究了在不同的语音背景下头部运动的范围以及舌头组织压迫对舌头图像数据的影响。结果表明，采用一种简单的方法包括头枕或曲面以及固定的传感器，可以在现场收集可靠的语言超声数据。

图 5 便携式超声设备图 6微型超声系统

对包裹相位，定义p、q两个方向为与x、y方向顺时针成π/4方向，并计算四个方向的一阶差分采用四向最小二乘使解缠相位对已知的原相位主值拟合，解得的相位斜率与包缠相位斜率尽可能逼近，使各方向上解缠相位的一阶差分和包缠相位一阶差分的差值绝对值最小，即

三、超声成像在发音生理研究中的应用

发音视觉反馈技术的进步为治疗语言障碍提供了新的机会。Bernhardt等人^[35]对4名患有听力损失和语言障碍的青少年进行了为期14周的语言治疗研究，方案中设计了一对齿擦音/s/和/ʃ/，一对流音/l/和//，以及松紧元音和高元音。在该研究中他们使用了电腭造影技术和超声成像技术两种动态的视觉反馈系统技术，其中，电腭造影提供了关于舌头硬腭接触点的信息，超声成像显示了舌头的形状和从舌尖到舌根的两个维度的运动。结果表明，治疗效果显著改善，与治疗前相比，测试者在辅音上表现出了很大的进步。

(一)基本音位

Hamlet S L等人^[14]通过超声波穿过咽喉来研究喉颤音(Laryngeal trills)，认为喉颤音是一种连续发生的脉动声音，通常在基频和强度上有很大的变化，每秒钟发生7次左右，频率和强度的变化并不总是同步，发声脉动也不是完全有规律，而超声数据中的周期性模式与声道强度变化相对应。Moisik S R等人^[15-16]提出了一种利用喉超声(laryngeal ultrasound，LUS)影像资料的光学流分析来量化喉部高度变化的方法，采用该方法能够精确地量化喉部高度的变化，以此来评价喉头高度对元音共振峰频率的影响，同时，他们在规范的普通话声调上进行了同步检测，从而验证了该方法的有效性，指出喉超声最适合喉部高度的量化，也可以提供喉部状态的部分信息。在此基础上证明了虽然喉下降一般会产生预期的降喉效果，但喉抬高对F2和F3有降低作用，而F2和F3则更具有已被标记为咽化的特征。

Wodzinski等人^[17-18]通过超声波对软腭前音(Velar fronting)和软腭元音(Velar-vowel)进行了初步研究。在对软腭前音的研究中指出软腭辅音的关闭位置在所有的中、后元音中都是一致的；对于前元音，软腭音靠前的程度似乎与元音的正面有关；双元音关闭位置的测量方法遵循单词目标的后元音模式；对于非单词，关闭位置受前双元音的发音质量和下一个双元音的发音质量的影响。在对软腭元音的研究中指出在软腭前端，因为元音语境，所以软腭辅音的关闭位置沿着上颚向前移动。

Bouavichith等人^[19]用马拉雅拉姆语(也称德拉威语，被描述为有7个鼻音位：唇音、牙齿音、齿槽音、卷舌音、硬颚音、软腭音及鼻音)中的软硬腭鼻音来研究对比硬颚和软腭发鼻音的不同，使用超声成像来确定这两个部位的鼻音发音是否是动态稳定的，集中讨论硬腭鼻音和软腭鼻音在舌与腭接触的位置和时间上不同，以及其他腭音的辅音位置和时间上的不同。

Gick^[20]使用便携式超声设备进行语言语音实地调查，研究的问题主要集中在舌根上，第一个问题是关于Kinande(刚果的班图语)的舌根和谐，第二个问题是关于Nuu-chah-nulth(温哥华岛西海岸的一种瓦卡山语)中的咽部化和元音降低。Alwabari^[21]探讨了硬腭和软腭的背侧抬高是否会阻碍舌根收缩以及这个阻碍力度的大小和时间跨度问题。结果表明发音约束的程度导致了对发音的梯度阻力，发音约束对发音阻力的时间跨度有明确影响。

在元音和谐律方面，Stewart^[22]提出了一种舌根前伸(ATR，Advanced Tongue-root，分为-ATR和+ATR)特征来区分许多非洲语言中的成对元音，如/i/和//、/u/和//、/o/和//。为了进一步研究元音和谐问题，Eichholz等人^[23]用超声记录赞德语元音的舌形轮廓，统计后发现舌体轮廓线在舌背区域是有规律的偏离，而在舌根区域偶尔存在偏离，结果表明赞德语中负责元音和谐的语言特征主要是与舌头高度差异有关而不是与舌根前伸有关(见图7)。

由于水库涵洞未修建检修闸门，工作闸门长期处于工作状态，检修比较困难，因此本工程主要是在涵洞进口处新建一座闸井、涵洞及坝体连接段。

图 7成对元音的舌体轮廓线之间存在显著性差异( p< 0.05)(粗线表示)

(二)方言

Lu Z等人^[6]98通过超声舌像来研究中国陕西西安方言的舌体运动模型。文中对西安方言的静态视位(Viseme)进行了分类，通过超声成像记录舌头在VCV和CVC的话语中发音活动的时间和位置属性，开发了相关程序能够在超声舌像中自动进行舌头运动轮廓跟踪，对提取的视觉信息进行了分类并定义了全部视位，用于创建陕西西安方言舌体的动态视位系统。

(三)二语习得

传统的语言教学一般都是通过声学的方法，学习者往往通过耳朵听和观察发音口形来习得语音发音，但是对于一些难发的音就束手无策。如果学习者能够直接看到发音时舌体运动变化情况，那么他们会对发音过程有更深入的了解，能够尽量准确地调整自己的发音舌位。

Gick^[24]对超声成像在二语习得中的应用作了描述，对相关概念进行了简要介绍，并给出了具体的应用案例。Tsui^[25]对日本成年人学习第二语言英语的/l/和//进行了超声训练研究，研究结果表明，所有参与者都提高了英语/l/和//在各种词汇位置和语境中发音的准确性，将超声应用于语言训练对学习英语发音的日本成年人是有益的。Suzuki^[26]使用超声、视频和MRI开发了可视化语音发音应用程序(见图8)，该程序将音频、正面和侧面视频、MRI和超声波视频连接在一起，用户可以观看到发音视频，也可以录制自己的音频/视频，并与模型同步播放，以便进行比较。

图 8可视化语音发音学习 APP

(四)协同发音

超声波可以用来解决音位理论中尚未解决的问题。一些研究已经表明，通过超声成像手段可以揭示出音位元素的差异是如何变化的。Davidson L^[27]选择了5名说英语的人，他们用元音插入(例如[zegomu])来修复这些非单词(例如[zgomu])，利用超声成像技术，将这些非单词序列与发音相似的合法序列单词进行比较，以评估在/z/和后面辅音之间非重读央元音的性质。结果表明，对于一些发音者来说，在[zC]序列(例如[zdiri]与[zderu]、[zgama]与[zgomu]、[zbura]与[zbertu])中产生的非重读央元音与非重读央元音的音位转换是不一致的，相反，发音者似乎没有充分地重叠辅音。协同发音是语言的一个共同特征，虽然不可能对语言的协同发音效应作出普遍的概括，但Krebs^[28]通过研究部分元音与辅音的协同发音问题，证实了[k]的两个同音词在一个类型不同的语言中存在协同发音效应，证实[k]对协同发音的抵抗力较低，舌根参与了舌背前元音的协同发音。

(五)儿童

Zharkova^[29]针对儿童语言协同发音发展方面利用超声成像进行了有关研究，该研究描述了6组3至10岁的苏格兰英语儿童的语言协同发音模式，利用超声舌成像数据，对4个不同约束程度的声母进行舌预测协同发音分析，在所有年龄组中，包括两个最小的儿童群体，可以观察到由这两个元音语境(以[pi]和[pa]为例)制约的辅音舌形的某些差异，对于图9所示的/p/，两个元音上下文中最集中的部分舌的相对位置(沿舌曲线)的差异是可见的，在/i/的上下文中，更多地向舌的前面聚集，而在/a/的上下文中，则更多地聚集到舌的后面，其中各年龄组内的辅音在舌形上的差异较小。结果表明，随着年龄的增加，个体语音协同发音程度的发展变化受到舌头发音限制。

图 9各年龄组的[ pi](点状线)和[ pa](实线)发音时的舌形

McAllister Byun T等人^[30]采用声学测量和超声测量(舌背偏移指数，Dorsum Excursion Index)方法分析软腭前音中的隐性差异(Covert contrast)，结果显示，不同的软腭音和齿槽音之间存在显著差异，一个能发软腭前音的儿童在声学和超声波测量中表现出了隐性差异，另一个则没有显示出差异的迹象。借助超声成像技术来分析语言现象，对于具有儿化或卷舌的语言来说，目前还不清楚这种咽收缩姿势是否也是一种发音功能，Boyce等人^[31]研究比较了不同语系的儿化或卷舌现象，描述了咽部收缩的存在与否，结果表明在所有的语言中都能观察到咽部的收缩，这被认为是儿童难以获得的。

然而，不同制度背景下管理者自主创新决策的动机并不一致。相比国有企业，民营企业的管理者往往更关注企业的长期竞争力和利润最大化，研发意愿更为强烈。而国有企业的经营目标需要兼顾行政目标和社会责任，经理人的更替也更多依赖于政府干预。因此在给定相同激励机制条件下，相对于选择谨慎提高企业绩效所带来的政治回报，国有企业管理者可能不会热衷于需要较高成本的研发投资风险利益。而基于此，我们提出以下假设：

(六)舌体运动

叶为昌^[32]利用超声观察成人发音时的舌头运动，对健康成人男性和女性在发元音时的舌体运动时长和舌体上下运动距离进行了测量。陈彧^[33]利用超声波检测方法对汉语普通话基础元音发音的舌体运动进行了研究，结果表明：各元音发音的舌体都会出现相应的形态变化，舌体形态在稳定程度上不一样，在舌体形态峰值出现的时刻上也不一致，同时，验证了超声在发音生理研究中的可行性，验证了发音音系学和元音格局理论能够对元音发音舌位特征进行描写。

语言中的大量研究可以借助超声舌成像(Ultrasound Tongue Imaging)实时反馈技术观察到发音时的舌体运动情况，让发音人比较容易的调整舌位，纠正发音，也可以根据舌位信息解释语言中某些音的发音现象。同时，可以将超声舌成像保存成图像视频文件，根据后期的计算机图像处理技术很容易获取舌位的高低、前后极值点数据，舌位最高点与硬腭距离，舌根松紧程度，舌面弯曲度等信息，通过这些数据可以进一步研究发音生理模型，但是其中最为关键的是如何获取高质量的舌形轮廓。获取舌形轮廓之前先把超声舌像视频处理成一张张的图片，然后从每一张图片中获取舌形轮廓，有两种方法，一种方法是手工标记，在舌线的位置用鼠标点击打点，每张图片上标记150～200点；另一种方法是自动舌形轮廓跟踪(Tongue tracking)算法，除了收费的软件AAA(Articulate Assistant Advanced)^[8]之外，还有4个免费的软件，分别是美国马里兰大学的EdgeTrak^[9]，美国北卡州立大学的Palatoglossotron^[10]，加拿大西蒙弗雷泽大学的TongueTrack^[11]以及加拿大多伦多大学的Ultra-CATS^[12]。这几个软件各有优缺点，要根据具体的实验环境进行选择使用，也可以根据这些软件的优缺点，使用语言科学研究的Matlab^[13]搭建适合自己研究方向的超声舌像处理平台。

四、超声成像在病理语音研究中的应用

临床表现为构音障碍、失语症以及言语失用等病理现象，从构音障碍与言语失用的定义上我们可以发现这两类患者的听理解尚未受损，其听理解功能是正常的，而失语症患者中不论其为哪一种失语类型，其听理解能力多少都会有异常。研究表明视觉反馈技术可以成为语言康复的有效工具。采用视听结合的实时反馈治疗技术，能够改变语言的滥用和误用，诱导正确发声技能的形成。语言障碍治疗中采用超声成像技术，为语言康复治疗工作人员进行科学系统的治疗和训练提供了有益的帮助，使有语言障碍的人能方便、清楚地表达，提高他们的交流沟通能力。Bernhardt B、Gick B等人^[34]论述了超声在语言治疗中的作用，对患有严重听力障碍、持续语言障碍、带有英语口音的青少年和成人进行语音治疗研究，并从动态二维超声中得到反馈。

生理语音学(Physiological Phonetics)是研究有关语音产生和感知的一门学科。语音的产生依靠的是发音器官，我们经常提及的发音生理研究就是借助实验设备对发音器官展开研究。人的发音器官大致可分为3个部分：喉下、喉部、喉上。其中：喉下有用来呼吸并且也作为发音能源的各器官，包括气管、肺、胸廓、横膈膜和腹肌；喉部是声源器官，包括喉头、声带；喉上是用共鸣作用或阻碍作用来调节声音的各器官，包括口腔中各部位及鼻腔。而口腔中又包含了3个部分：口壁(包括双唇、上下齿、齿龈、硬腭、软腭、小舌)、舌(分为舌尖、舌叶、舌面和舌根)以及咽喉。由于超声成像的特殊性，目前学者们借助超声成像技术主要在咽喉、腭及舌等部位开展发音生理研究。

图 10 超声播放器图图 11发音过程中舌头运动的中矢状舌形图像和结果分析

汪小波没有回答，他还在瞪着整个房间。麦小秋开始走向阳台，好像自言自语，她说：“是别人的，我偶尔过来。”

Wang J^[43]提出了一种将动态信息集成到基于超声波的无声语音接口中的新方法，该方法中分别对静态和动态视觉特征信息的可靠性进行了加权，采用了多流隐马尔可夫模型(MSHMM，Multi-stream Hidden Markov Model)技术。最终在普通话多模态数据库中对基于多流的集成方法进行了评估，并与传统的连接融合方法进行了比较，结果表明语音解码的准确性得到提高。路文焕等人^[44]在基于超声的无声语音接口实现中，提出了3种混合特征提取方法：使用主成分分析从小波系数中提取特征(WaveletPCA)、分块离散余弦变换主成分分析(block DCT G PCA)和分块WalshHadamard变换主成分分析(block WHT G PCA)，实验结果表明：混合特征提取方法更能够提取舌部超声图像中重要的特征，该方法优于通常使用的主成分分析或离散余弦变换，其中block DCT G PCA方法最优。借助深度学习技术、新方法以及新算法的应用，相关研究人员对语音识别中的基于超声成像的无声语音接口方面的研究更加深入。Yan Ji等人^[45]引入深度学习技术，使得基于超声的无声语音接口的准确率大幅提升。Grósz T等人^[46-47]采用深度神经网络(DNN)，从超声波图像中进行发音和声学转换，重点是基于超声波的发音—声学映射中执行基频估计，结果证明了发音与基频的预测是有希望的。同时，他们还将舌体的二维超声作为深度神经网络的输入信息，给出了基于超声舌体运动的语音转换的初步结果。上述研究将会对无声语音接口的应用起着重要作用。

五、超声成像在语音工程研究中的应用

早在20世纪60年代末，超声就被用于语音研究^[2]、语言训练^[3]。超声能够捕捉动态的舌形，使其能够研究舌根、矢状沟、元音和辅音之间的相互作用等难以理解的语言现象。随着技术的发展，超声从开始的一维变成二维(B模式，图1是实验室和临床上广泛使用的超声设备)，发展到现在的三维(时间分辨率对于测量大多数自然语言来说还太低)。诊断超声的高频(3-16MHz)声波很容易穿透皮肤、脂肪和肌肉(见图2)，但它们会被骨骼吸收并反射出空气的边界。为了尽可能全面的看到舌头，超声探测器需要紧贴颈部以下的下巴，所以声波从下面穿透舌头(见图3)。探头声波穿过下颌骨和舌骨，通过舌头肌肉表面的空气进行反射。根据探头的方向，可以获得正中矢状或冠状图像，图4显示了使用超声波获得的典型正中矢状舌形图像^[4]，其中舌根(Tongue root)、舌骨阴影(Hyoid shadow)在左边，舌尖(Tongue tip)、下颌骨阴影(Jaw shadow)在右边。

传统的语音识别采用的是声学特征。我们也可以通过提取超声图像和光学图像中的视觉特征用于语音识别(见图12)，这样的合成器只能通过发音生理数据来驱动，称为“无声语音接口”(SSI，Silent Speech Interface)^[40]，由于声音的发声是不必要的，无声语音接口有许多潜在的应用。例如，为了帮助接受过喉切除术的病人，无声语音接口可以被用来代替电喉。此外，在嘈杂背景环境中，无声语音接口可以提高通信质量。

图 12基于超声的无声语音接口原理图

Hueber T^[41-42]从超声舌头图像和嘴唇光学图像中获取信息进行了连续语音识别，对语音语料库的处理采用自动语音校正程序和强大的视觉特征提取技术进行语音标记，并基于HMM(Hidden Markov Model)的随机模型分别在视觉语料库和声学语料库中进行估算，将视觉语音识别系统的性能与传统的基于听觉的识别系统进行了比较，证明了通过超声图像和嘴唇的光学图像来识别语音的可行性，这对于我们去理解无声语言与发声语言的区别联系有着重要意义。

Adam Buchwald^[39]等人对一个失语症患者做了关于音位增音方面的研究，患者说话时会把类似于非重读央元音插入到辅音中(例如clone和c[]lone)。实验中采用辅音(C1C2)组(例如clue)与插入一个元音的单词(C1VC2)组(例如collude)做对比分析，全部发音采用超声成像来记录，它提供了发音过程中舌头运动的中矢状舌形图像，如图11-a所示。结果如图11-b显示，C1C2组(glue、clue，实线表示)与C1VC2组(galoot-collude，虚线表示)没有明显的区别，对于插入到辅音之间的元音的感知仅仅反映了两个辅音相关联的动态发音姿势错误。

使用超声成像技术可以提高语音发音的准确性。Michelle Cavin^[36]利用超声生物反馈技术来对北美英语/r/发音进行矫正，这种非侵入性的生物反馈技术可以让一个人看到他们舌头形状的运动特征，这样他们就可以根据正确的发音模型来修改自己的发音。Preston J L、Brick N等人^[37]对6名9岁至15岁语音失用症(apraxia of speech)的儿童进行了18个疗程的实验，利用实时超声波图像的视觉反馈，孩子们被要求调整舌头的动作，在治疗前、治疗中和治疗后收集探测器数据，以评估治疗和未处理的声音序列的词汇水平准确性，所有参与者在至少2个处理过的声音序列中达到了性能标准(连续两次的准确率为80%)，结果表明，为了提高语音失用症相关的持续语音错误的儿童语音的准确性，使用超声生物反馈的治疗方案是一个可行的选择。为了提高患者的发音意识，Hueber T^[38]开发了超声播放器(见图10)，一种为语音治疗和发音训练应用而设计的超声可视化以及舌、唇视频序列的软件。

书签功能：对浏览过的地图可进行书签操作，快速进入保存的书签地图；定位功能：对地图上的点位可进行定位操作；搜索功能：按地图上的区域空间、属性及类别进行搜索操作；测量功能：可对地图范围内划定区域或线形进行面积、长度测量操作；图层功能：按工程分类信息设置图层对地图简单明了操作；图例功能：对地图上根据属性设置的图例进行说明。

此外，在语音合成方面，Jaumard-Hakoun^[48]提出了一种基于超声舌成像和唇形的歌唱声音合成方法，提取超声舌像和唇形图像序列中的特征，利用多层结构对这些特征中最相关的特征进行非线性预测，最终合成的质量效果令人满意。

六、总结

(一)超声的优势

超声被用于语音中提供舌头位置和配置的实时视觉反馈，与EMMA(电磁中矢状发音测量仪，也称“艾玛仪”)提供视觉反馈相比，超声是一种更广泛、更少侵入性的技术，而且它提供了整个舌头形状信息的优势。超声具有足够的灵活性，能够快速地从矢状面转变为冠状视图，可以动态或静态地观察舌头的矢状或冠状斜视图，提供关于构形和运动的不同视角。超声成像可以叠加到视频中，能够同时观察到口形和舌位运动。另外，超声波不需要个性化的硬件(比如EPG的人工腭)，它可以立即使用，而不增加每个用户的费用，尤其是便携式超声设备允许用户在田野进行数据收集。

(二)超声的劣势

首先，与核磁共振成像(MRI)或造影技术相比，超声成像技术具有劣势，因为在超声成像中不可能记录舌根的整个形状(由于舌骨的阴影)，加上探测器范围的局限性，舌尖信息也很难获取到。其次，二维超声不能同时监测矢状位和冠状位，三维动态超声(目前是一种静态显示)或同时使用EPG(电子腭位仪)和超声可以提供更多的多维视图，这可能更容易实现。再次，超声不提供舌腭接触信息，但是EPG和超声的组合使用可能比静态参考线或透明性更具有启发性。最后，超声不提供声学信息，显示舌头结构和声音显示的分隔屏幕可以提供关于音调、强度、声音、发音方式和发音的附加信息。

2016年7月15日，从在土耳其首都伊斯坦布尔市举行的第40届联合国教科文组织世界遗产委员会大会上传来喜讯，中国广西左江花山岩画文化景观申报项目通过大会审议表决，被列入《世界遗产名录》。申遗成功无疑为花山岩画文化的保护、传承与传播奠定了一个国际基础，花山岩画这一非物质文化遗产站到了一个更高更大的平台上。如何利用申这个国际平台展现自身的价值和魅力，吸引更多的国际关注，反过来为自身的保护、传承与传播创造更多的有利条件，是花山岩画对外译介承担的一个必要任务。但是反观花山岩画目前的对外译介情况，笔者却觉得不容乐观。

(三)超声的有效性

使用超声成像作为科学研究的工具，它的测量方法和研究结果是否具有有效性，还需要进一步研究证明。Ménard L等人^[49]用超声成像测量舌头的形状和位置，通过开发的VLAM发音模型来评估超声测量方法的有效性。提出的数据分析方法将舌形轮廓重新塑造成三角形，然后提取出舌头最高点、曲率度和曲率位置的角度、x和y坐标。结果表明，与绝对舌位(舌头高度和前后位置)相关的参数对探头的水平和垂直位移更敏感，而与舌曲率有关的参数对这种位移的敏感度较低。Wodzinski等人^[17]2395评估了超声成像对测量软腭辅音关闭位置的有效性。McAllister等人^[30]249指出由于目前的研究并没有提供令人信服的证据，证明超声波在声学测量方法上的优势，研究人员和临床医生可能会质疑，是否有可能为将超声波技术纳入研究或治疗儿童语言所需的时间和资源进行辩护。然而，这项研究仅限于对从超声波和声学数据中提取的定量测量方法进行比较。

(四)未来的研究方向

首先，发音生理部位舌体的舌尖和舌边信息补全机制。在元音和辅音的产生过程中，对舌头的整体结构进行研究是最有用的，但由于舌头的前部经常被下巴所遮蔽，所以舌尖和舌边的信息会丢失，如何补全丢失的信息或许可以成为未来关注的重点。其次，添加多模态的发音生理数据增加语音合成的自然性。可以将基于超声的舌体形态数据应用在文字—语音转换系统(TTS，Text-To-Speech synthesis)^[50]中，即视听语音合成系统(Audiovisual TTS)^[51]。在文字—语音转换系统中添加舌体运动(Tongue movement)和唇形动作(Lip motion)等发音特性将会提高TTS的自然性，最终研发出一个会讲话的人头(Talking head)。最后，在语音识别中的无声语音接口研究方面，采用卷积神经网络技术、自动编码技术，研究并添加舌、唇、上下文相关模型、统计语言模型和新的集成模式的新视觉特征，改善识别效果，推动无声语音接口的实际应用。

为考察过境免签政策实施的动态效果，本文引入多期DID模型，将政策虚拟变量与政策实施后的年份的虚拟变量构造交乘项，从而判断政策实施的阶段性效果。修正后的计量模型如下：

语言学方面的研究需要在广度与深度上继续展开，一些传统的研究方法和研究手段也需要不断更新。超声成像技术的发展推动了语言的深度研究，以前，对于某些语言现象只能依靠理论推测，而今，我们可以借助超声成像技术用科学合理的实验数据进行解释分析。虽然超声成像技术有着一定的不足，但是国外有大量的学者们已将超声成像技术应用在语言研究中，并且取得了重要研究成果。相信随着超声成像、图像处理、三维建模、机器学习等技术的深入发展，对于我国的语言实践研究有着重要意义。

参考文献：

[1]李永宏，孔江平，于洪志.现代语音学仪器及生理语音学研究[J].生命科学仪器，2008(9)：54-58.

[2]KELSEY C A，MINIFIE F D，HIXON T J.Applications of Ultrasound in Speech Research[J].Journal of Speech Language and Hearing Research，1969，12(3)：564.

[3]SHAWKER T H，SONIES B C.Ultrasound Biofeedback for Speech Training. Instrumentation and Preliminary Results[J].Investigative Radiology，1985，20(1)：90-93.

[4]DAVIDSON L.Comparing Tongue Shapes from Ultrasound Imaging Using Smoothing Spline Analysis of Variance[J].The Journal of the Acoustical Society of America，2006，120(1)：407-415.

[5]GICK B.The Use of Ultrasound for Linguistic Phonetic Fieldwork[J].Journal of the International Phonetic Association，2002，32(2)：113-121.

[6]LU Z，CZAP L.Modelling the Tongue Movement of Chinese Shaanxi Xi'an Dialect Speech[C]//2018 19th International Carpathian Control Conference.Szilvasvarad：IEEE Computer Society Press，2018：98-103.

[7]GICK B，BIRD S，WILSON I.Techniques for Field Application of Lingual Ultrasound Imaging[J].Clinical Linguistics & Phonetics，2005，19(6-7)：503-514.

[8]ARTICULATE INSTRUMENTS LTD.AAA(Articulate Assistant Advanced)[CP/OL].http：//www.articulateinstruments.com/downloads/.2019-06-30.

[9]LI M，KAMBHAMETTU C，STONE M.Automatic Contour Tracking in Ultrasound Images[J].Clinical Linguistics & Phonetics，2005，19(6-7)：545-554.

[10]BAKER A.Palatoglossatron 1.0[EB/OL].https：//phon.chass.ncsu.edu/manual/pgman.2006-01-13.

[11]TANG L，BRESSMANN T，HAMARNEH G.Tongue Contour Tracking in Dynamic Ultrasound Via Higher-order MRFs and Efficient Fusion Moves[J].Medical Image Analysis，2012，16(8)：1503-1520.

[12]BRESSMANN T，HENG C L，IRISH J C.Applications of 2D and 3D Ultrasound Imaging in Speech-language Pathology[J].Journal of Speech-Language Pathology and Audiology，2005，29(4)：158-168.

[13]李永宏，马强，赵琦.语言科学研究的MATLAB实现[M].北京：国防工业出版社，2013.

[14]HAMLET S L，PALMER J M. Investigation of Laryngeal Trills Using the Transmission of Ultrasound Through the Larynx[J].Folia Phoniatrica Et Logopaedica，1974，26(5)：362-377.

[15]MOISIK S R，ESLING J H.Evaluating the Vowel Space Effects of Larynx Height Using Laryngeal Ultrasound[J].Canadian Acoustics，2011，39(3)：180-181.

[16]MOISIK S R，ESLING J H，BIRD S，et al.Evaluating Laryngeal Ultrasound to Study Larynx State and Height[C].Hong Kong：Proceedings of Icphs，2011：136-139.

[17]WODZINSKI S M，FRISCH S A.A Preliminary Ultrasound Study of Velar Fronting[J].The Journal of the Acoustical Society of America，2003，114(4)：2395-2395.

[18]WODZINSKI S M，FRISCH S A.Ultrasound Study of Velar-vowel Coarticulation[J].The Journal of the Acoustical Society of America，2006，120(5)：3373-3374.

[19]BOUAVICHITH D A，NAMBOODIRIPAD S，GARELLEK M.A Contrastive Place of Articulation Between Palatals and Velars：An Ultrasound Study of Malayalam Palatal-velar Nasals[J].Journal of the Acoustical Society of America，2018，143(3)：1755-1755.

[20]GICK B.The Use of Ultrasound for Linguistic Phonetic Fieldwork[J].Journal of the International Phonetic Association，2002，32(2)：113-121.

[21]ALWABARI S.Gradient Resistance to Coarticulation and Articulatory Constraints：An Ultrasound Study[C]//The 16th Conference on Laboratory Phonology(LabPhon16).Portugal：University of Lisbon，2018.

[22]STEWART J M.Tongue Root Position in Akan Vowel Harmony[J].Phonetica，1967，16(4)：185-204.

[23]EICHHOLZ J，MEIER M，GREISBACH R，et al. Vocalic Tongue Shape Contours in Zande[C]//Proceedings of the Conference on Phonetics & Phonology.German：Berlin，2017：49-52.

[24]GICK B，BERNHARDT B，BACSFALVI P，et al. Ultrasound Imaging Applications in Second Language Acquisition[J].Phonology and Second Language Acquisition，2008，36：315-328.

[25]TSUI M L.Ultrasound Speech Training for Japanese Adults Learning English as a Second Language[D].Canada：The University of British Columbia，2012.

[26]SUZUKI K，WILSON I，WATANABE H.Visual Learning 2：Pronunciation App Using Ultrasound，Video，and MRI[C]//INTERSPEECH 2017：Show & Tell Contribution. Stockholm，Sweden ：ISCA，2017：831-832.

[27]DAVIDSON L.Addressing Phonological Questions with Ultrasound[J].Clinical Linguistics & Phonetics，2005，19(6-7)：619-633.

[28]KREBS V L，SEDAROUS Y，MILLER A L.Consonant-Vowel Coarticulation in Velar Plosives[C]//Proceedings of Meetings on Acoustics. America：Acoustical Society of America，2013，19：1-9.

[29]ZHARKOVA N.An Ultrasound Study of the Development of Lingual Coarticulation During Childhood[J].Phonetica，2018，75(3)：245-271.

[30]MCALLISTER BYUN T，BUCHWALD A，MIZOGUCHI A.Covert Contrast in Velar Fronting：An Acoustic and Ultrasound Study[J].Clinical Linguistics &Phonetics，2016，30(3-5)：249-276.

[31]BOYCE S，HAMILTON S M，CAMPOS A R，et al. Articulatory Similarity in Rhotic Sounds：A Cross-linguistic Comparison[J].Journal of the Acoustical Society of America，2015，137(4)：2382-2382.

[32]叶为昌.由超音波观察成人发音时之舌头运动[D].台北：台北医学院，2000.

[33]陈彧.基于超声波检测的汉语普通话基础元音发音的舌体运动研究[D].天津：南开大学，2011.

[34]BERNHARDT B，GICK B，BACSFALVI P，et al.Ultrasound in Speech Therapy with Adolescents and Adults[J].Clinical Linguistics & Phonetics，2005，19(6-7)：605-617.

[35]BERNHARDT B，GICK B，BACSFALVI P，et al.Speech Habilitation of Hard of Hearing Adolescents Using Electropalatography and Ultrasound as Evaluated by Trained Listeners[J].Clinical Linguistics & Phonetics，2003，17(3)：199-216.

[36]CAVIN M.The Use of Ultrasound Biofeedback for Improving English/r/[J].Working Papers of the Linguistics Circle，2015，25(1)：32-41.

[37]PRESTON J L，BRICK N，LANDI N.Ultrasound Biofeedback Treatment for Persisting Childhood Apraxia of Speech[J].American Journal of Speech-Language Pathology，2013，22(4)：627-643.

[38]HUEBER T.Ultraspeech-player：Intuitive Visualization of Ultrasound Articulatory Data for Speech Therapy and Pronunciation Training[C]//14th Annual Conference of the International Speech Communication Association. Lyon，France：ISCA，2013：752-753.

[39]BUCHWALD A，RAPP B，STONE M.Evidence for Discrete Phonological Representations in Production：Ultrasound Imaging of Aphasic speech[J].Brain and Language，2006，99(1-2)：140-141.

[40]DENBY B，SCHULTZ T，HONDA K，et al.Silent Speech Interfaces[J].Speech Communication，2010，52(4)：270-287.

[41]HUEBER T，CHOLLET G，DENBY B，et al.Continuous-speech Phone Recognition from Ultrasound and Optical Images of the Tongue and Lips[C]//INTERSPEECH 2007，Conference of the International Speech Communication Association.Antwerp，Belgium：ISCA，2007：658-661.

[42] HUEBER T，BENAROYA E L，GRARD CHOLLET，et al.Development of a Silent Speech Interface Driven by Ultrasound and Optical Images of the Tongue and Lips[J].Speech Communication，2010，52(4)：288-300.

[43]WANG J.Integrating Dynamic Information with Multi-stream HMM in Ultrasound-based Silent Speech Interface[J].Journal of Information & Computational Science，2015，12(13)：4875-4883.

[44]路文焕，曲悦欣，杨亚龙，等.无声语音接口中超声图像的混合特征提取[J].清华大学学报(自然科学版)，2017(11)：1159-1162.

[45]YAN JI，LICHENG LIU，HONGCUI WANG，et al.Updating the Silent Speech Challenge Benchmark with Deep Learning[J].Speech Communication，2018，98：42-50.

[46]GRSZ T，GOSZTOLYA G，TTH L，et al.F0 Estimation for DNN-based Ultrasound Silent Speech Interfaces[C]//2018 IEEE International Conference on Acoustics，Speech and Signal Processing (ICASSP).Washington：IEEE Computer Society Press，2018：291-295.

[47]CSAP T G，GRSZ T，GOSZTOLYA G，et al.DNN-based Ultrasound-to-Speech Conversion for a Silent Speech Interface[C]//INTERSPEECH 2017.Stockholm，Sweden：ISCA，2017：3672-3676.

[48]JAUMARD-HAKOUN A，XU K，CLMENCE LEBOULLENGER，et al.An Articulatory-Based Singing Voice Synthesis Using Tongue and Lips Imaging[C]//Interspeech 2016.Stockholm，Sweden：ISCA，2016.

[49]MNARD L，AUBIN J，THIBEAULT M，et al.Measuring Tongue Shapes and Positions with Ultrasound Imaging：A Validation Experiment Using an Articulatory Model [J].Folia Phoniatrica Et Logopaedica，2012，64(2)：64.

[50]CSAP T G，LULICH S M.Comparison of Tongue Contour Extraction Methods from Ultrasound Images for Use in Text-to-Speech Synthesis[EB/OL].https：//www.researchgate.net/publication/280576843.2014-04-06.

[51]SCHABUS D，PUCHER M，HOFER G.Joint Audiovisual Hidden Semi-Markov Model-Based Speech Synthesis[J].IEEE Journal of Selected Topics in Signal Processing，2014，8(2)：336-347.

Overview of Linguistic Study Based on Ultrasound Imaging Technology

Zhang Jinxi ^{1, 2},Li Yonghong ²,Kou Yun ²

(1. School of Business and Media, Lanzhou University of Finance and Economics, Lanzhou 730020，Gansu;2. Key Laboratory of China's Ethnic Languages and Information Technology of Ministry of Education, Northwest Minzu University, Lanzhou 730030,Gansu)

[Abstract ]The advanced experimental device and method play important roles in the language study. Based on the existing research results at home and abroad, this thesis introduces the ultrasound equipment and ultrasound image processing tool, summarizes and analyzes the application of ultrasonic imaging in the language study. It also probes into the frontier application of ultrasonic imaging in the language study from the aspects of articulation physiology, pathological speech and speech engineering, expounds the latest experiment method and research methods in the language study, analyzes the strengths and weaknesses as well as the coping strategies of ultrasonic imaging and looks into the development strategy of ultrasonic imaging in the language study, thus providing the new thinking and evidence for the language study.

[Key words ]ultrasonic imaging; language research; pronunciation physiology; pathologic speech; speech engineering

[中图分类号] H01

[文献标识码] A

[文章编号] 1001-5140(2019)06-0143-11

[收稿日期] 2019- 09- 13

[基金项目] 国家社会科学基金青年项目“藏语拉萨话元音的超声舌像数据库及舌位研究”(项目编号：19CYY039)

[作者简介] 张金溪，男，讲师，博士研究生，主要从事实验语音学研究；李永宏，男，教授，博士，博士生导师，主要从事实验语音学、语音科学研究；寇贇，女，硕士研究生，主要从事图像处理与虚拟现实研究。

(责任编辑张瑞珊责任校对张瑞珊)

标签：超声成像论文; 语言研究论文; 发音生理论文; 病理语音论文; 语音工程论文; 兰州财经大学商务传媒学院论文; 西北民族大学中国民族语言文字信息技术教育部重点实验室论文;

基于超声成像的语言研究综述论文