方块白文文献数据库论文



方块白文文献数据库

韦韧

(中国社会科学院民族学与人类学研究所,北京 100081)

摘 要:白族是一个有着悠久历史和丰富文化的少数民族。方块白文是古代白族在长期使用汉语文的过程中,用来记录广泛使用的白语,仿照汉字创制的一种民族文字,是一种既借用汉字又自造拼合字的意音文字。针对方块白文情况复杂、信息量大等问题,在充分吸收已有研究成果的基础上,在普通语言学、普通文字学、比较文字学、汉字构形学理论指导下,借鉴汉字整理的方法,设计和建立了方块白文数据库,并以方块白文材料《云龙白曲残本》为例,详细介绍利用数据库技术研究方块白文的初步成果,以及方块白文数据库在中国少数民族语言文字研究创新中所起到的巨大作用。

关键词:方块白文;数据库;《云龙白曲残本》;白族

白族是一个有着悠久历史和丰富文化的少数民族。白族自称“僰”“僰子”“僰尼”,均是“白人”之意。别称比较多,不仅不同民族对白族称呼不同,连同一个民族对分布在不同地区的白族也有不同的称呼。纳西族称澜沧江边上的白族为“那马”,称大理和丽江的白族为“勒布”。傈僳族则称怒江边丘的白族为“勒墨”,称大理白族为“腊本”。洱海地区及其附近汉族称白族为“民家”。新中国成立后,1956-11,大理白族自治州建立时,根据广大白族民族意愿,确定族名为“白族”。白族是我国西南山区人口较多的少数民族,根据2010年民族统计年鉴,全国白族总人口有190多万人,主要聚居在云南省的大理白族自治州和昆明、楚雄、丽江等地州市,少数散居在贵州省毕节、六盘水、江陵等地市、湖南省张家界市及湖北省鹤峰县。

基于绿色建筑空间分布评价因子体系的建立,采用三分法为因子设定评判标准(表6),以广州市城市总体规划(2011-2020年)为基础,对各个地块的各个因子进行评判打分,形成一系列绿色建筑潜力分布单因子评价图(图3),分值越高表示对绿色建筑分布正相关影响越大。

方块白文是古代白族在长期使用汉语文的过程中,用来记录广泛使用的白语,仿照汉字创制的一种民族文字,是一种既借用汉字又自造拼合字的意音文字。方块白文的历史文献以碑刻、有字瓦片和经卷的批注浮签为主,近现代方块白文文献以祭文、白曲曲本、大本曲曲本为主。有部分碑刻内容已被释读出来,但还有一些,由于年代太久远,与现代白语差异巨大,还有待破译。建立方块白文数据库,可以利用数据库的优势,整理、分析方块白文,破解存疑文献。

1 方块白文数据库建设的总体思路

1.1 必要性和可行性

我们已经进入数字化时代,数字化技术的运用也早已成为科学研究的一个必要有效手段。早在20世纪90年代,汉语言研究就已开始使用数据库技术,有一部分少数民族语言研究也引入数据库技术,建立了一系列少数民族语言数据系统。方块白文由于之前收集的材料较少,目前还没有建立方块白文材料数据库,相比较其他少数民族的语言研究,稍显滞后。因此,迅速建立一个方块白文数据库是非常有必要的,数据库的建立既可以加大方块白文材料的整理速度和准确度,又可以使方块白文的资源共享,减少工作中的重复浪费,提高工作效率。开展方块白文数据管理关键技术的研究,也为方块白文语言数据和元数据存储提供了坚实的技术基础,同时也是满足少数民族语言信息快速检索与少数民族语言研究的需要。研究开发方块白文数据库系统对抢救和挖掘白族非物质文化遗产也具有非凡的意义。

语言学的材料一般都很庞大,信息多面,必须考虑采用有效的手段进行组织、存储和管理,并在此基础上能够充分、有效地实现语言数据共享和数据发布。其中语言数据存储是数据查询检索、管理、共享发布的基础,开展存储构建技术的研究,解决语言数据高效、安全存储问题,为数据的有效集中、高效查询、管理、快速传输提供基础,是迫切需要的。

总之,微课在教学中应用是信息时代教育发展的必然趋势。在小学语文教学中充分发挥和利用微课教学,对于激发学生学习兴趣,培养小学生的自主学习能力有着较好的帮助,而且其对于教师教学能力的提升也有一定的帮助。因此,在当前的农村小学教学中运用好微课就极为有必要了。

数据库建设步骤流程如图1所示。

数据库的建设和方块白文文字整理研究思路是相辅相成、互相促进的关系。在最初建立数据库时,方块白文文字整理研究思路还不明晰,数据库的结构也很简单,只是根据材料来源的特点,设计了描述方块白文形音义的几个字段。在大量输入和接触方块白文材料后,逐渐总结出方块白文的特点,摸索出研究的一些规律,由于方块白文字符的类型不同,各类型有自己的特点,需要分别建立数据表,设计能够反映其特性的数据库字段,以求尽量全面地描述出材料的不同信息。建立合成字数据库又单独增加了示音构件、表义构件、标示构件3个字段。因此,数据库是进行方块白文文字整理研究的重要手段,研究方法的进展也必定会反映在数据库上。

1.2 数据库的选用

Oracle Database是关系数据库的一种,支持关系对象模型的分布式,面向Internet计算,它提供安全的、开放的和科学的信息数据管理方法。由一个Oracle DB和一个Oracle Server实例组成保障了Oracle数据库具有数据自治性并且能提供很好的数据存储机制,方便了用户的使用和操作,提高了信息管理的效率。Oracle数据库是目前世界上使用最为广泛的数据库管理系统,作为一个通用的数据库系统,它具有完整的数据管理功能;作为一个关系数据库,它是一个完备关系的产品;作为分布式数据库它实现了分布式处理功能。 Oracle还提供了丰富的数据类型,可以用准确的数据类型和合理的数据长度来定义数据类型,这样不但可以降低数据冗余而节省系统存储空间,还可以提高信息系统的检索效率。

传播学理论认为,传播过程中的“噪音”对信息的有效性产生危害。任何不符合信息来源意愿的、妨碍有效信息传递的障碍物,都属于传播学意义上的噪音。在企业外宣翻译的过程中,任何可能影响信息表达、理解和接受的语言、文化、认知或心理方面的因素都被视为噪音。为了实现信息的有效性,使得译文最大限度地实现预期的传播效果,译者可以通过遵循以下原则,尽可能地降低噪音。

1.3 数据库建设与方块白文研究的关系

方块白文情况较复杂,提供的信息涉及较多方面,设计和建立方块白文数据库是一项消耗巨大精力的工作。在具体操作过程中需要不断地研究和解决问题,如果考虑不周到或有疏忽遗漏,会给后面的研究工作带来不可预计的后果,因此,数据库的建设既是基础又是关键,是方块白文文字整理研究的重要基础。

数据库的一个显著优点在于能够容纳海量数据,并方便管理。这一优点体现在建库者能够建立关系清楚明晰的数据库表。

1.4 数据库建设的总体方法和阶段

总体方法是根据方块白文的不同类型和特点,分别建立结构不同的数据表,尽量全面地反映各种方块白文的不同信息,以达到分析每一个字形都可以调动多方面信息的效果。一个信息量充足完善的数据库需要一个长期建立的过程,必须不断地完善和补充数据库。

数据库建设主要分为4个阶段,依次是数据库结构设计和建立、数据录入、数据校对和数据整理。对方块白文进行语言学的大量分析处理没有先例,在进行方块白文数据库的建设时,是摸索前行的,4个阶段交叉推进。比如录入、校对数据时,需要不断地验证数据库的结构设计是否可以充分地展示材料各方面信息,并适当加以改进;同样,在录入和校对时也要根据碰到的新情况、新问题对数据的整理步骤和方法进行调整。需要说明的是,在数据录入时,作者对方块白文材料已有一些粗略的思考并进行一定的分析,但全面、细致的分析是在数据库完全建立后才进行的。因此,建立方块白文数据库不是遵循一般数据库建设的4个阶段逐步计划进行,而是基本按照4个阶段建立数据库的顺序,但在4阶段中不断交叉互进。

1.5 建设步骤流程

在语言学的研究中常需要对数据进行索引、搜索、排序、抽取和分组等操作,数据库在这些问题上都很容易实现,并且能形成一个数据库管理系统。因此,用数据库进行方块白文的处理是合适的。

在数字化《云龙白曲残本》文献原文时,基本采用紫光华宇拼音输入法v6.7,遇到超出输入法所支持的字符,使用逍遥笔手写识别软件和方正超大字符集。如果字符不在上述两种输入法所支持的字符集内,则使用Windows自带的TrueType造字程序进行造字。

width=284.3,height=122.7

图1 数据库建设步骤流程图

2 《云龙白曲残本》材料的数据库建设

元数据表字段共6个,分别是材料名称、对应的汉字形字表表名、对应的拼合汉字形字表表名、建库时间、材料收集人和材料来源。

目前,已发现并整理的方块白文文献形式包括碑刻、大本曲、“吹吹腔”剧本、宗教经文、祭文。选取的第一份建库材料,《云龙白曲残本》是中国科学院少数民族语言调查第三工作队白语小组于1958年在云南省云龙县宝丰乡搜集而来,后由中国社会科学院民族学与人类学研究所研究员徐琳先生保存下来。现由美国马里兰州圣玛利大学傅京起老师收藏。目前曲本已释读出版(见《中国白族白文文献释读》),可以直接用于研究。曲本中的文字除使用白族一般运用的汉字音读、训读、借词外,大量使用汉字或汉字部首构造表音兼表意的合成字,合成字在整本曲本中出现较多,远多于其他已释读方块白文文献。这些合成字是我们分析白文的重要基本材料,这也是选取《云龙白曲残本》作为第一个建库材料的重要原因。

2.1 数字化

目前有关土石坝除险加固方面的研究,主要以大中型土石坝工程为主,针对小型均质坝的研究相对较少[4-6]。坝坡不稳的处理措施通常是坝体加高培厚,放缓坡度,而砂岩料充分的土石坝工程采用当地砂岩料压重坡脚的加固措施是一种既有效又经济的处理方案。因此,本文以某典型的小型水库大坝为例,针对其上游坝坡不稳的问题,拟采用砂岩压重的措施进行处理加固,计算加固后的上游坝坡在不同运行工况下的安全系数、滑裂面及浸润线,并与加固前的稳定计算结果进行对比,分析砂岩压重上游坝坡设计方案的可行性及有效性。

考虑到使用的广泛性和通用性,论文作者在数字化材料时,将《中国白族白文文献释读》中白曲的注音音标转写为潘悟云、李龙开发的云龙国际音标输入法4.0版。

2.2 建立数据表

数据库的建设和方块白文文字整理研究思路是相辅相成、互相促进的关系。

2.2.1 建立语言材料元数据表

元数据是描述数据及其基本属性的数据,相当于所有数据的管理中心,为将来数据的使用和管理提供方便。

方块白文到底有多少,目前尚不得而知。已发现的文献多以文学作品形式存在,分布范围广,搜集和整理的工作较为艰巨。因此,为了尽快建立一个方块白文样本库,选取的第一份材料一定是可以直接用于研究且学界认可的资料。

分析表明,混凝土盖板与基础之间的脱空在探地雷达图像上主要表现为电磁波在胶结面以下出现多次同相轴呈弧形的反射波,同相轴扭曲或者断裂,能量明显增强导致振幅很大。一般来说,雷达回波同相轴向下弯曲可能是反映地层含有大量水分。

汉字形方块白文字表字段共13个,分别是曲序号、句序、字形、字形分析、构形模式、声、韵、调、对应汉字、双音词义、句直译和句意译。

全字表字段共7个,分别是曲序号、句序、白字、音、义和句直译。

2.2.3 建立图文对照表

由图2可知,以综合滋味得分3分(y值)为接受临界点,确定镀铝袋脆口萝卜产品各储存温度的货架期(保质期):35 ℃产品货架期=Qs(35)=(5-3)/0.0173=115.61天;45 ℃产品货架期=Qs(45)=(5.084-3)/0.0357=58.38天;Q10value=Qs(35)/Qs(45)=115.61/58.38=1.98;推算产品流通货架期为Qs(25)=Q10value×Qs(35)=1.98×115.61=228.91天,即镀铝袋脆口萝卜产品货架期(保质期)为229天。

图文对照表字段共2个,分别是字形和对应的图片。

2.2.4 建立汉字型方块白文字表

2.2.2 建立全字表

由于小学六年级阶段的应用题复杂程度相对而言比较高,在题目中易志德条件中往往还会具备很多种属性,这就需要学生们学生利用等量替换的角度去解决问题。通俗来讲,就是使用一个量来替换另外一个量。在同等条件下,替换成自己比较熟知的量来实现对相应问题的解法,这也属于一种比较简便的解题思路,需要学生们加强学习,熟知并掌握。

2.2.5 建立拼合汉字形方块白文字表

不过究其实质,称谓虽然不同,但它们针对的内容对象却并无截然的不同,它们所论述和传授的方法并无二致,都是为了使所要研究的社会现实状况明朗化,都是获取社会信息数据的手段或操作过程。甚至还有一些名称看似相去甚远,但其论述的内容仍然是调查方法或曰研究方法。比如,菲利普·迈耶是一位精确新闻学家,他所著的《精确新闻报道》副标题却是“记者应掌握的社会科学研究方法”,论述的主要内容也还是抽样、调查、统计分析等,是将社会调查研究方法尤其是量化研究方法运用到新闻报道中去罢了。

拼合汉字形方块白文字表字段共15个,分别是曲序号、句序、字形、声、韵、调、对应汉字、双音词义、字形分析、示音构件、表义构件、标示构件、构形模式和备注。

1.2.1 手术器械 采用德国STORZ公司生产的外鞘直径9 mm的持续灌流手术宫腔镜,膨宫压力100~120 mmHg, 膨宫液流速100~120 ml/min,切割功率60~80 W,电凝功率35~50 W。灌流液为5%甘露醇液。

依据数据库,统计得出作品总字数7 241字,使用的单字1 307个(包括异体字),其中,汉字字形的单字828个,拼合汉字的单字479个。数据库条数共计2 815条,条数指的是每一个在《云龙白曲残本》中以不同的形音义出现的字,我们都作为一条。比如“阿”在数据库中以不同的音义出现了9次,在统计使用的单字时,算作1个方块白文,数据库中算作9个方块白文。我们这样处理就是要全面地反映方块白文的面貌。只有这样,才能全面考察方块白文文字系统,使研究结论更加准确。

依据方块白文数据库,借鉴现有汉字研究的理论方法,采用结构功能分析法对方块白文的字体类型进行分析,方块白文分成借用字和自造拼合字两种类型。借用字是白文借用汉字。以字符构件具有的功能属性,即白文字符与汉字字符的形音义对应关系为标准,可分为全借字、音读字、训读字、记号字四类。自造拼合字是借用字进入白语言语音系统后,白族仿造汉字构字原理创制。从字符功能角度看,分为7类:音义拼合字、会义拼合字、双音拼合字、标音拼合字、标义拼合字、标示音义拼合字、记号拼合字。

3 总结

本文介绍的是方块白文原始语料数据库的建设,以这些原始语料数据库作为方块白文研究的基础,在对方块白文进一步的分析研究中,会不断生成新的数据库表,可以用于各方面的研究。数据库将形成方块白文语料库,并最终建立方块白文研究系统。该系统将为白族语言研究提供坚实的服务基础,并为其他汉字系少数民族文字的数据库建设提供相关的技术探索。作者对方块白文的信息处理已经解决了基本的编码、造字、录入、排版、部分史料数据库建设方面的技术问题,但是与实际需求还有一定的距离。根据现有基础和应用需求,下一步应该开展的工作包括:①尽快制订方块白文字符标准,把它纳入国家和国际标准体系。②出版方块白文字典和开发方块白文和汉文翻译系统。由于方块白文字形复杂,各方言区和各个使用者书写的方块白文不统一,导致目前能够阅读方块白文的人越来越少,方块白文文献的收集、整理任务越来越艰巨,因此,编辑方块白文字典和研究开发方块白文和汉文翻译系统的工作迫在眉睫。

感谢傅京起教授提供原件资料,王锋研究员提供白语方言调查词表用于作者论文创作!

参考文献:

[1]徐琳,赵衍荪.白语简志[M].北京:民族出版社,1984.

[2]《中国少数民族语言简志》编委会,《中国少数民族语言简志丛书》修订本编委会.中国少数民族语言简志丛书修订本·卷贰[M].北京:民族出版社,2009.

[3]张锡禄,甲斐胜二.中国白族白文文献释读[M].桂林:广西师范大学出版社,2011.

[4]王宁.汉字构形学讲座[M].台北:三民书局,2013.

[5]宋继华,王宁,胡佳佳.基于语料库方法的数字化《说文》学研究环境的构建[J].语言文字应用,2007(01):132-138.

[6]李奕琳.借音壮字研究思路与数据库建设[D].南宁:广西大学,2006.

[7]刘连芳,顾林,黄家裕,等.壮文与壮文信息处理[J].中文信息学报,2011,25(06):175-182.

[8]柳长青,杜建录.网络下的西夏文及西夏文献处理研究[J].宁夏社会科学,2008(05):113-115.

[9]王成平.彝语言语料资源数据库的设计与共享的实现[J].中文信息学报,2016,30(01):129-132.

[10]刘连芳,海银花,那顺乌日图,等.壮、蒙古、维、哈、柯、朝语信息处理研究进展[J].广西科学院学报,2018年,34(01):18-26.

文章编号:2095-6835(2019)01-0022-03

中图分类号:G250

文献标识码:A

DOI:10.15913/j.cnki.kjycx.2019.01.022

作者简介:韦韧(1982—),女,博士,助理研究员,主要研究领域为民族语文信息化。

〔编辑:张思楠〕

标签:;  ;  ;  ;  ;  

方块白文文献数据库论文
下载Doc文档

猜你喜欢