辽宁普通话有声数据库的建设构想论文

辽宁普通话有声数据库的建设构想

徐 今

大连理工大学,辽宁 大连 116024

摘 要 建立辽宁普通话有声语料库的目的在于以特殊的形式保存方言,并能使省内外语言学习及研究者方便地进行语音资料的查询和研究。辽宁普通话有声语料库的建库重点是语篇分库,在数据采集和数据处理上和国家语保工程地方普通话有声数据库有所不同。

关键词 地方普通话;辽宁;有声语言;数据库

一、地方普通话有声数据库建设现状

地方普通话是方言区的人们在学习与使用标准普通话的过程中,受方言影响而形成的带有不同程度方言色彩的普通话,表现出中介语的特点,过去也叫作“蓝青官话”。地方普通话在当前跨地区交际中发挥着重要作用,全国范围内绝大多数人说的都是地方普通话。了解地方普通话的状况,探索地方普通话由低级向高级的发展规律,总结地方普通话的“板结”特点,对于推广普通话、研究语言学习规律等都具有重要意义。[1]

近些年,地方普通话的研究已然成为汉语研究一个新的增长点,但成果还远远不够。我们认为,地方普通话的研究应该充分重视地方普通话有声数据库的建设,它可为地方普通话的本体研究提供丰富的原始数据,并实现地方普通话的长效保存。

中国语言资源有声数据库在国家语委的筹划组织下于2008年开始建设,这是国家语委的重大建设项目。该项目将地方普通话列为主要调研对象之一,体现了国家对地方普通话的重视。项目旨在将中国各县域的语言实态记录下来,归档建库,永久保存,这一庞大工程目前正在各省陆续展开。地方普通话的调查内容是:1.用普通话讲述规定故事《牛郎织女》;2.用普通话朗读两篇短文《诚实与信任》与《大学生村官》。地方普通话分库相对于重点建设的方言库而言,明显居于次要地位。方言分库包括字库、词库、句库、话语库等多个子库,地方普通话分库则只有一个话语库,且所调查的内容是限定内容。方言库的话语库所调查的则是开放内容:一是任选话题进行讲述,每人共20分钟;二是任选话题进行对话,共20分钟。地方普通话分库无论在子库种类、内容存量上均和方言库有明显差异,反映出我国地方普通话有声数据库处于初步建设阶段。

2015年,教育部和国家语委在国家财政的支持下,开始实施中国语言资源保护工程,这是一项大型的语言文化类国家工程,计划5年时间完成。“语保工程”是2008年的中国语言资源有声数据库建设工作的延续、扩充和提升。[2]然而,“语保工程”在地方普通话的调研上,与2018年的方案相比没有变化,依然是整个建设工程中不被重视的部分。

二、辽宁普通话有声数据库建库目的

辽宁普通话有声数据库的建库目的有三:其一,旨在“保存”。记录和保存地方普通话是方言保存的一种特殊形式,是对单纯的方言保存工作的有机补充。

(1)器材:使用索尼、佳能、松下等一线品牌的全高清数码摄像机,配套有线或无线话筒及三脚架。使用一线品牌计算机,例如联想(含Thinkpad和Lenovo)、戴尔(Dell)等,配置酷睿i7以上的非低电压版CPU,DDR3 4G以上内存,转速7200转以上硬盘(最好是固态硬盘),USB接口不少于3个。

其三,旨在“展示”,为其他省份的人以及辽宁地区的外国留学生了解和熟悉辽宁普通话提供有声材料。

根据杨春宇的相关研究[3],辽宁境内方言可分为五个片区:朝峰片、辽西片、辽东片、盖桓片和登连片。片区内每个市、县设立一个调查点。

三、辽宁普通话有声数据库数据采集

(一)调查地点

这一建库目的区别于国家语保工程的“保存”目的,因此,辽宁普通话有声数据库的建库设计,将在参考国家语保工程的基础上有些针对性的调整,主要体现在数据采集和数据处理两个方面。

(二)调查对象

每个调查点选择2名地方普通话发音人,2名发音人的普通话水平均为二乙(即80-86.9)。不选择普通话水平为二甲的发音人,二甲等级的普通话是比较标准的普通话,已经不适宜看成方言向普通话的过渡态了。也不选择普通话水平在二乙以下的发音人,主要考虑有二:一是因为国家语保工程对这部分地方普通话发音人进行了调查,国家语保工程在每个调查点选择3名地方普通话发音人,1名发音人的普通话水平是三甲,另2名发音人的普通话水平不入级。选择普通话水平是二乙的发音人,正好构成对国家语保工程调研的有机补充。二是辽宁地区的方言主要是北方方言、东北方言和胶辽官话,和普通话的差异并不显著,换句话说,辽宁人的整体普通话水平高于全国平均水平。因此,我们对辽宁普通话发音人的普通话水平的择定等级略高于国家统一标准。

(三)调查内容

1.概况:包括调查点概况、发音人情况、调查人情况、调查情况。

学风关乎文风和作风,学风正才能作风硬。重视学风建设,是我们党的优良传统。1942年,延安整风使党内达到了空前的团结。其中,对学风的彻底整顿,不仅使党的干部改进了文风,也转变了作风。

2.语音:发音人念读《中国语言资源调查手册·汉语方言》[4]调查表中针对音系调查的字,调查人描写记录,整理出地方普通话的声韵调系统。

熹又蒙垂谕,深以士大夫之朋党为患,此古今之通病,诚上之人之当疾也。然熹尝窃谓朋党之祸,止于缙绅;而古之恶朋党而欲去之者,往往止于亡人之国。盖不察其贤否忠邪,而惟党之务去,则彼小人之巧于自谋者,必将有以自盖其迹,而君子恃其公心,直道无所回互,往往反为所挤,而目以为党。……愿丞相先以分别贤否忠邪为己任,其果贤且忠耶,则显然进之,惟恐其党之不众,而无以共图天下之事也;其果奸且邪耶,则显然黜之,惟恐其去之不尽,而有以害吾用贤之功也。不惟不疾君子之为党,而不惮以身为党;不惟不惮以身为党,是又将引其君以为党而不惮也。[10]1243-1244

(1)场所:安静的房间,语音数据信噪在-48d b以下。

4.词汇:发音人念读调查表中的1200个词汇。

因此,美国在1906年成立了专门的食品和药品监督管理局,同时制定了第一部食品法案《纯净食品与药物法案》。该食品法案为美国食品安全提供了法律依据,也为美国以后的食品法案立法、食品药品管理政策制定提供了基本法律依据。

5.朗读:发音人朗读短文《诚实与信任》和《大学生村官》。

6.讲述:

(1)发音人讲述规定故事《牛郎织女》。发音人提前熟悉故事内容,用普通话把故事的意思自然地讲述出来,内容可发挥,篇幅可加长。讲述时不允许看文本。

第五、表1中学校督导和二级学院督导听课的成效在教师日常的教学质量评价中并没有体现,作为具有较大评价能力和评价质量的督导听课结果,应该在日常的教学评价中占较大比例。

(2)发音人从给定的7个话题(当地情况、风俗习惯、传统节日、个人经历、工作情况、业余爱好、家庭情况)当中选择某几个话题进行讲述。发音人提前熟悉讲述的话题,用普通话自然地讲述,越具体越详细越好,不少于20分钟。

(4)录音参数:单声道;采样率为44100HZ;采样精度为16bit;音频格式为windows PCM(.WAV)。byly和YBSL已设置以上参数为默认值。

(3)对话。2位发音人自由对话,不少于20分钟。

汤翠是第二天下午返回来的。院子平了,碎砖碎瓦也都被推走了,南菜已经天翻地覆了,过了今天,南菜恐怕只能在照片中看到了。几台铲掘机还在工作,它们在破坏,也在建设。铲掘机们张开巨大的铁手,毫不费劲地插入坚硬的土地里。汤翠没想到,新翻上来的土呈红褐色,像人的血。汤翠晕血,赶紧闭上眼。

(四)调查方法

采用“音像图文”四位一体的调查方法。

实验组行4C延续性护理管理法。①创建专业化的护理小组:由护士长与护理工作人员组成专业化的护理小组,对患者进行健康知识的教育。②4C延续性护理:应遵循全面性的工作原则,在出院之前综合评估生理特点与健康情况,为其编制个性化的护理方案,指导患者及其家属掌握自我护理技巧[2]。还需保证护理工作的合作性,创建微信平台与患者之间相互联系,建立电子档案,使得家属密切配合,在协助监督的情况下改进问题。应遵循协调性的原则,相互协调密切的配合。另外还需进行延续性的护理,在出院之后的第二周到第四周进行家庭随访。第二个月到第六个月进行电话随访,每三周到家庭随访一次,掌握患者情况针对性护理[3]。

1.录音

3.字:发音人念读调查表中的1000个单字。

(2)器材:运行噪音低的电脑,例如联想Think-PadX、T系列(2G以上内存,USB2.0以上接口,Windows XP、Windows7或Windows8操作系统)。使用SAMSON C03U话筒(心形指向、全指向可调,话筒内带声卡)和奥创Alctron MA016防喷罩。

(3)录音软件:使用byly(北语录音)或YBSL(语保摄录机),YBSL可设置为仅录音。这两款软件可对调查条目逐条录音,录音时同步显示波形,自动逐条保存并命名录音文件。语保摄录机还具备自动录音、语音质量检测、信息标记、图片关联等功能。

羊巴氏杆菌病是养殖中很容易出现的细菌性传染性疾病,该种疾病的发病率较快,致死率较高。日常养殖中,需要养殖户构建完善的养殖制度,强化羊群管理,密切观察羊群生长状况,发现疾病后应该及时上报,确保早发现、早治疗,以提高治疗效果,降低经济损失。

《中华人民共和国车船税暂行条例》[8]规定专门用于农业生产的拖拉机免征车船使用税。现实中农业生产者劳作需要的交通工具除了拖拉机还有其他车辆,如农业运输机械(农业运输机械是将各种农业生产资料、农副产品和生活资料等从一个地点运送到另一个地点的交通工具),包括各种农用车辆、农用船舶和农用索道等,均应实现免征车船使用税,并给予使用者免费进行工具的检测、保养,提供服务的机构能够享受相应税费的减税,这样可以降低使用事故率,给农业生产者营造良好的生产环境。

2.摄像

其二,旨在“研究”,地方普通话是方言向标准普通话过渡的一种中介语形式,中介语研究无论对于源语研究还是目的语研究均有积极意义。

(2)摄像要求:镜头对准发音人的上半身,话筒放在发音人前方的适当位置或夹在领口。尽量用最远拍摄模式拍摄,不使用变焦(拉近放大)功能。如果必须变焦,只能使用光学变焦,不能使用数码变焦。发音人的背景应整齐干净平整,颜色不要太暗,使用纯蓝色背景。背景布上不要有明显的阴影。发音人的脸部正对镜头,不要背光,脸部不要有阴影。

从时间变迁的角度看,受国家政策、淀粉加工产业发展等因素的影响,我国甘薯种植面积在经历了先升后降的过程后,近年来逐渐趋于稳定.历年来的《中国农村统计年鉴》分别统计了我国各地区薯类与马铃薯的种植面积与产量,其中薯类包括马铃薯与甘薯,据此,我们可以通过计算得出2016年我国甘薯种植总面积约为3.315×106 hm2,总产量7 057.1万t.当前我国甘薯产业具有6个特征.

(3)摄像方式:使用YBSL。YBSL具备录音和视频同步采集功能,能按条目对录音和视频文件进行自动切分、命名和存储。

(4)视频文件:一律选择摄像机的最高画质、采用全高清模式拍摄,视频文件参数不低于1920×1080/50i(或 25p)/15000kbps。格式视摄像设备而定,例如:m2ts,mpg。

3.照相

(1)照相内容:包括发音人像、调查工作场景和具有地方特色的事物和现象。

(2)照相器材:最好使用佳能、尼康等一线品牌1200万以上像素的数码单反相机。

(3)照片文件:选择相机的最高画质模式(最高分辨率和精细度)拍照,采用*jpg格式,分辨率最好不低于4368×2912像素。

四、辽宁普通话有声数据库数据处理

(一)音频处理

音频处理主要包括噪音消除和语音切分两个环节。为使原始声音干净、清晰,需要进行降噪处理,降噪处理可利用音频处理软件Audacity来实现。语音切分主要是针对话题讲述和自由对话的音频而言的,我们拟将这类话语切分为小句,每个小句对应一段音频,音频按一定的序列排列,这可为辽宁普通话的观测及语言研究带来极大的便利。切音工作可由机器进行,人工校正。我们经过前期的寻找、对比、测试,发现软件Aboboo有着强大的音频自动分句的功能,在录音效果较好的情况下,初次断句的准确率不低于人工。

纳入标准:(1)年龄≥60岁;(2)术前第一诊断符合2015 AAOS膝关节骨关节炎诊断标准[5];(3)既往无血液系统疾病史,术前Hb>80 g/L;(4)围手术期未见严重肝、肾功能异常;(5)术前及术后3 d内均有血常规检查;(6)围手术期均有使用预防性抗凝药物。排除标准:(1)诊断为创伤性膝骨关节炎和类风湿性关节炎患者;(2)术前凝血功能异常,既往存在血液系统疾病;(3)术前Hb≤80 g/L;(4)术后补液量>2 000 ml/d;(5)同时行双侧UKA或TKA患者。

(二)语音转写

话题讲述和自由对话的语音数据均需转写为文字。软件Aboboo虽有强大的切音能力,却不具备转写功能。我们对包括讯飞公司在内的一些国内生产的自动语音转写工具进行了测试,发现机器对语音的识别转写率随着发音人口音的加重而大幅降低,本项目的输入语言是带口音的非标准普通话,机器仅能起到有限的辅助作用,主要还是依靠人工来完成语音转写。

五、余论

本项目拟建的辽宁普通话有声数据库将建设为向公众开放的数据库。项目组会对相关语言材料进行后期整理,包括规范文件名、文件归档、校对等。然后购买域名和服务器,前端设计网页,后端接数据库。最后内部运行测试,合格稳定后向公众开放使用。

[参 考 文 献]

[1] 李宇明.论中国语言有声数据库的建设[J].中国语文,2010(4).

[2]王莉宁.中国语言资源保护工程的实施策略与方法[J].语言文字应用,2015(4).

[3]杨春宇.东北亚语言发展与辽宁文化战略对策[J].理论界,2010(2).

[4]教育部语言文字信息管理司中国语言资源保护研究中心.中国语言资源调查手册[M].北京:商务印书馆,2015.

作者简介: 徐 今(1978-),女,湖北荆州人,大连理工大学中文系副教授,博士,硕士生导师,研究方向:现代汉语、语言理论。

基金项目: 本文系辽宁省经济社会发展研究课题“辽宁普通话有声数据库的研究与建立”(项目编号:2019lslktyb-072)的阶段性成果。

收稿日期 2019-03-18

中图分类号 H087

文献标识码 A

(责任编辑:武 亮)

标签:;  ;  ;  ;  ;  

辽宁普通话有声数据库的建设构想论文
下载Doc文档

猜你喜欢