网络环境下新“汉语叙事表”的功能定位与发展_汉语主题词表论文

网络环境下新“汉语叙事表”的功能定位与发展_汉语主题词表论文

网络环境下新型《汉语主题词表》的功能定位与发展,本文主要内容关键词为:词表论文,汉语论文,功能论文,环境论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

《汉语主题词表》(以下简称《汉表》)是我国第一部大型综合性叙词表。1980年出版第一版,包括社会科学和自然科学部分[1],1991年出版《汉表》(自然科学增订本)。《汉表》是我国图书情报界集体智慧的结晶,在我国图书情报事业中发挥了重要作用,为此于1985年获得国家科学技术进步二等奖[2]。20世纪90年代,人类进入网络时代。在网络环境下,信息存储、加工、传播等发生显著变化,具备了海量信息资源,拥有了突破时空限制的网络技术,用户可以自由参与信息资源组织,由此,叙词表的编制方法、应用方式甚至表现形态等也发生了相应的变化。在这种背景下,中国科学技术信息研究所近年来组织全国的情报检索语言专家,对《汉表》的修订工作进行了多次咨询和论证,于2009年正式启动《汉表》在网络环境下的修订改造工作。这项工作将以《汉表》(工程技术版)为起点,目前已经完成编制方法的前期论证,编制规则制定、编制平台研制、基础词库建设、范畴类目修订等相关工作正全面展开。网络环境下,新型《汉表》的表现形态、编制维护方式和功能定位都将发生深刻的变化,《汉表》将随着时代的发展而创新[3]。

1 网络环境下新型《汉语主题词表》的形态特征

1.1 系列词汇概念集成的知识组织系统

网络环境下,新型《汉表》的总体形态特征将从一个包含叙词和非叙词的单一词表,转变为包括基础词库、核心词库、叙词词库等在内的知识组织系统,包涵词汇、术语、概念和实例数据库。目前我们正在开展的相关工作包括:《汉表》基础词库建设、专业核心候选词库建设、词汇空间向概念空间的映射、词间关系的自动构建等。修订改造的《汉表》,其表现形态将不再是10个分册的纸质版本,而是包含分类、主题和概念等不同语义级别的一系列词汇和概念数据库的集成知识组织系统。

它有着以下的特点:①不再控制概念术语的数量,而是尽可能找全所有的专业术语。②给出这些术语之间尽量多的词间关系:不必刻意区分叙词和非叙词,尽量穷尽所有的同义词关系;通过计算机聚类和关联分析尽量获得相关关系。③集中于如何抽取完整范围的概念术语,以及全面的概念关系。④在词表词汇组成方面,将从过去10万个左右概念词汇组成的单一词表,转变为将来的从基础词库、核心词库、到叙词库,从百万级到十万级词汇数量的一套词汇概念知识体系。新型《汉表》还将包括系列实例知识数据库,例如时间、空间、机构、国家等通用实体知识数据库,地理名称、化学名称、部件组成等专业实体知识库,并涵盖专有名词实例数据。

1.2 呈立体结构的概念语义网络

传统叙词表呈现出的是一种树状结构,它对知识采用从总到分,层层推进的方式展开,有着很强的系统性。为了便于文献标引,传统叙词表一般将主题词平行分布在多个树状结构内。但是,在网络环境下,各种信息技术手段的应用,可以克服复杂的词间关系在传统的纸质显示中受空间因素制约的不足,以立体的方式展现分布在多个树状结构中的叙词,使整个概念体系呈现出立体网状结构。类似于语义网络的概念图,将某一领域内的知识元素按其内在关联属性,以可视化的形式展现,揭示知识结构及其细节变化。同时也为每个叙词设置了超链接,从而揭示立体网状结构中的不同节点之间的关联关系。

1.3 机器可读的概念知识关系体系

网络环境下新型《汉表》将是机器可读和可理解、表达适度概念关系的知识组织体系。传统叙词表主要通过人工标引和检索发挥作用,语义关系的制定和使用也由人工完成。在网络环境下,新型《汉表》的主要使用方式将转入系统后台,通过机器直接阅读叙词表的语义关系,用于机器标引和智能推理与检索。目前实现了基于XML数据格式,使用RDF或者OWL机器语言表达词表概念关系[4]。用户或系统管理者可以根据使用目的不同进行相应定制,达到最佳使用效果。概念关系将在传统的等同关系、等级关系和相关关系基础上,向简约和细化两个方向发展,构成由简到繁的知识地图,甚至达到初级本体级别的语义关系。

1.4 基于用户检索和文献语料的专业知识组织工具

网络环境下新型《汉表》,其词汇来源将充分考虑用户检索用词和文献主题的准确表达,实现叙词表词库与用户检索用词最大限度的一致。目前的大型网络数据库,如万方、维普等,为我们实现这样的目标提供了可能。首先通过用户对这些数据库的检索日志,来获取用户检索用词,并根据用户专业等信息对这些检索词进行标准化清洗,可获得符合叙词表标准的规范化词汇。继而通过词频统计和聚类等信息技术,使用加权等选择手段,从海量专业文献中,选出叙词表的系列概念词汇。综合用户检索词和文献语料库词汇信息,最终得到叙词表系列数据库词汇系统,具备用户依据和文献依据,为新型《汉表》的有效利用奠定坚实的基础[5]。

1.5 用户参与编制维护的知识表达工具

网络环境下新型《汉表》,无论是其编制还是其维护过程,都将充分发挥用户的积极性,都将在用户的全力参与下完成。没有时空限制的网络环境,为用户参与叙词表的编制提供了可能:通过在线的叙词表编制平台,在专业概念分类、重点概念建议、词间关系建立等多个方面,用户可以与叙词表编制人员或组织进行互动,随时修改和完善叙词表的编制。在维护方面,更能体现用户的参与作用,虽然新型《汉表》的直接应用是通过机器实现的,但最终还是为用户服务,用户在使用过程中,可以根据自己的领域知识在线参与修订和维护叙词表,充分体现用户的需求,发挥用户的积极作用。

1.6 智能化和可视化应用的系统

网络环境下新型《汉表》将提供更多人性化的应用方式。系统具备默认的智能检索方式,用户无须查阅浏览叙词表的概念知识体系,叙词表在后台系统中直接运行默认的词表应用,发挥叙词表的查全查准功能;此外,用户检索过程的不同阶段都会有叙词表的智能参与,如在用户输入检索词过程中,检索系统依据叙词表的词汇数据库和概念语义关系,自动提供适合用户专业背景的概念词汇。同时,还具备可视化特征,在用户需要的时候,可通过合适的图像或者多媒体的方式将叙词表的概念关系形象直观地层示给用户,更利于用户的学习使用,也利于知识的传播,以区别于传统叙词表的不同应用方式。

1.7 动态变化的专业知识体系更新工具

修订改造后的新型《汉表》是以系列词汇概念数据库为基本成分,学科分类相对集中的立体网状知识体系。词汇、概念系统具有纵横动态更新变化的特点。纵向变化表现为:基础词库的自由词始终处于动态更新中,专业核心词库随时间变化相对稳定,叙词词库相对固定。横向变化表现为:可以根据信息管理与专业领域的需要,分解或从中提取任何一个专业领域的专业叙词表,如基于基础词库、核心词库、范畴分类等信息,构建农业科学叙词表、建筑科学叙词表等。新型《汉表》词汇数据库系统,将具备机器可识别的专业核心概念、专业通用概念和通用概念等,概念关系在专业领域内相对集中,在领域间互联互通,可以根据信息组织需求,自动生成不同专业的叙词表。

2 网络环境下新型《汉语主题词表》的编制和维护

2.1 基于海量数据资源选用概念术语

过去,叙词表概念术语的选择主要由领域专家人工确定,虽然也要考虑文献覆盖、使用词频等因素,但当时计算机应用普及程度低,无法获取海量的信息语料,造成在实际操作中无法准确地获取文献覆盖、术语词频等数据,所以往往是领域专家决定术语的选取数量和具体词汇,由于人为因素占的比例大,很容易出现同一领域不同专家选用的术语不一致,导致叙词表的应用存在偏差和阻力。在数字化网络化的信息环境下,我们已经具备万方数据、重庆维普、CNKI等这样的大型文献语料库,已经具备类似谷歌和百度等可以搜索因特网上主要信息的网络搜索引擎,同时,还可以通过日志获取用户使用检索词汇的种类和频次[5]。所有这些语料,为叙词表编制中基于概念覆盖、基于词频统计、基于用户使用的关键词来选取规范的概念术语奠定了基础,为概念术语的选取提供了数据支持和科学依据。

2.2 基于知识关联获取词间关系

传统叙词表的词间关系建立,同样也是由领域专家建立并确定的。由于专家领域知识的个体差异和对叙词表的不同理解,造成他们提供的词间关系不一定适合专业叙词表词间关系的正确表达,词间关系以领域专家力图反映领域知识结构为主,体现文献知识真正关联度有一定差异,这样,不利于相关文献的扩检。在网络环境下,叙词表词间关系的建立,同样可以利用海量的语料。以万方数据和重庆维普的数据为例,在选定了某一领域一定数量的概念术语以后,将这些术语两两组合,统计在专业文献的标题、关键词或文摘语料库中的共现频率[6],通过术语前方一致、后方一致等语言处理[7],还可以通过垂直搜索统计网络专业信息中的共现频次、共篇、同引、耦合等多种方法和手段,来确定词间关系,也从建立词间关系的源头上保证了通过叙词表可以实现相关知识文献的准确获取。

2.3 基于多表映射的集成融合

《汉表》的建设带动了我国众多专业词表的建设。网络环境下新型《汉表》的建设,需要对相关知识组织体系进行转化、映射或融合,一方面从技术角度达到互操作等知识共享应用目的,另一方面不同程度地吸收相关词表的词汇概念及其词间关系。根据知识本体、语义网络的设计思想,建立语义类型(较宽泛的主题类目)与语义关系(术语概念间关系)相结合的基础构架,对传统分类法、叙词表、标题表、术语词典等进行结构改造和兼容;基于不同知识组织系统自身体系结构建立映射,在不同的受控词表之间或词表与分类号之间建立等同词联系;或者根据同一元数据或编目记录中同时出现的来自不同体系的术语建立链接关系,将词汇与其他词汇根据语义关系,而不只是概念的等价性链接起来;利用各种语义工具、专家系统等建立起概念、术语间错综复杂的关系,使计算机系统理解用户的检索请求,帮助用户实现语义检索和知识挖掘。

2.4 基于网络平台的协同工作

网络时代新型《汉表》使用标准的数据格式,例如SKOS的数据格式[8],或者使用OWL格式[9],将有利于不同系统、不同操作平台的数据转换和数据利用。这些语言都与具体的系统分离,可以单独表达词汇概念及词间关系。机器可以理解其中的知识结构和知识体系。在叙词表的编制中,可以编制网络可视化系统,清晰表达各类知识结构层次关系。在编制方面,系统支持不同地域的叙词表编制者同时在一个网络平台上工作。不同编制者上传的数据和词间关系,既可以保留编制者的数据信息,也可以展示所有编制者共同工作的集成成果,而且主要编制工作过程也在网上实现可视化,通过图形清晰表达概念及词间关系,通过拖动、链接、合并等界面简单操作,随时提出概念及词间关系的建立或修改建议,其他编制者也可以在网上同步显示相应的工作过程及结果。同时,还可以进行概念逻辑关系的自动校验和修正,提升《汉表》的编制效率和质量。

2.5 基于用户体验的网络维护

网络时代新型《汉表》的维护是其发展的生命源泉。在叙词表编制理念的基础上进行词及词间关系的维护,无论是新词的选用、还是现有术语的更新,都需要建立相应的更新机制,以推进叙词表的维护工作走向可持续化轨道。新型《汉表》的最终目的是为用户服务,因此,其维护更新和发展需要建立基于用户体验的网络化服务维护平台。在网络维护中,可利用Web 2.0技术中的社会标记法(social tagging)[10]和自由分类法(folksonomy)的类似方法来改进词表的升级/维护工作[11],采集用户在使用汉表时动态产生的修改意见;使用一些标准化自动工具发现新词和词间关系;设置公共讨论区,让网络用户或专业标引人员,便利地在网上提出新增概念术语和相应的词间关系,或者上传对现有术语的修订意见。词表维护人员既可以将修订内容分发给不同的编制者共同讨论,也可以将修订内容在总体词表环境下进行显示和检查,理顺新的词间关系,核实所有互逆概念,剔除或调整已有的相同或相近概念,使《汉表》的维护制度化,保证《汉表》的可持续发展。

3 网络环境下新型《汉语主题词表》的功能定位

3.1 知识揭示功能

无论是传统的信息组织工作,还是网络环境下的知识组织实践,都离不开信息描述和知识揭示。只有通过对文献资源有效知识点的准确信息描述,才能真正揭示知识,提供信息检索和知识链接等服务。利用新型《汉表》建立知识库的自动分类系统,进行基于统计分类与机器学习技术的文献标引,对海量科技文献资源中的知识点,如科技术语、内容主题和相关科研对象等,进行自动标注,实现科技文献有效组织、知识揭示和知识化关联,实现“分类号(类目词)—主题词—关键词”的一体化应用,达到自然语言到检索语言的规范控制,可以提高查全率和查准率,提升检索效率。

3.2 学科导航应用

在网络环境下,通过信息获取平台系统,用户可以非常便利地使用主题和分类两种方法获取信息。修订改造后的新型《汉表》,将会建成主题分类一体化叙词表,用户如果习惯从学科分类入口浏览查询相关信息,则可以选择范畴分类信息,从学科知识的顶层,逐层向下浏览,直到获得自己需要的类目以及相应的信息;用户也可以通过叙词表可视化技术,浏览新型《汉表》词族知识概念体系,推荐的概念知识体系,直接浏览检索需要的信息。

3.3 智能检索应用

网络用户的主要活动是检索信息,通过网络获取信息已经成为普通网络用户的常规方法。经过修订改造后的新型《汉表》,同时具备了分类表、叙词表和本体的共同属性,能够实现不同颗粒度的智能查询与检索功能,可以是分类水平上的范畴类目体系的批量文献信息获取,也可以是主题词汇概念级别的扩检与缩检,甚至是知识本体意义上的概念关系级别智能推理检索和语义相似度聚类,结合其他词表映射融合等多种不同方法,实现不同目的和条件下的智能检索。

3.4 知识学习应用

网络环境下新型《汉表》将是领域专家与在线用户知识体系的最新成果。叙词表本身就是领域知识的结晶,经过向范畴分类、向概念关系细化、向定义注释等多个方向发展,它甚至可以具备网络百科的功能,成为网络用户日常工作中的必备知识工具。对知识管理机构来说,可以利用可视化等多种信息技术,将叙词表用于研制开发智能知识机器人、甚至知识博物馆等未来产品。从汉语规范化角度出发,新型叙词表也是用户查找和检索规范专业词汇、基础词汇和通用词汇的常用工具,具备着词典的功能。

3.5 文本信息处理应用

网络环境下新型《汉表》由一系列词汇库组成,可根据不同目的,用于切词、信息抽取、聚类、词频统计、情感分析等所有文本信息处理基础工作,成为计算语言学的重要研究和应用工具。反过来,文本语言处理技术的改进又可以促进叙词表的维护和应用。文本信息处理应用还包括:在跨语言检索和机器翻译等方面的应用;通过新型《汉表》的英汉双语对照,实现英汉双语检索功能等。利用新型《汉表》词汇的系列英汉对应词库及词间关系,也可以为英汉机器翻译系统的开发提供基础语料,提高机器翻译的准确性。利用新型《汉表》的词汇、术语、概念等语料词汇系统,还可以开展研究热点领域监测、专业知识挖掘、领域知识聚类等计算语言学相关的系列应用。

4 结语

历史上的《汉表》在我国图书情报界具有重大影响,是当时信息组织与检索的重要基础工具。在网络时代,修订改造后的新型《汉表》将朝着数字化与网络化、语义化、标准化、互操作化和可视化等方向发展。随着时代的变迁,传统《汉表》的应用将成为经典的方式,新型《汉表》的建设探索,将变成普及和主流的应用。新型《汉表》将吸收不同知识组织体系的优点,在机器语言表达和概念关系细化等方面进行改造,通过计算机化表达基于海量的数字信息数据,更好地层现人类已经获得的领域知识;通过计算机的逻辑计算和推理,自动或半自动获取概念以及概念关系,并邀请领域专家对相关知识进行认定和补充。从而,不断发展和完善知识表达,嵌入机器应用,达到智能检索、主题分类一体化和知识导航功能,同时,概念关系和属性实例将进一步细化,达到初级本体级别的知识挖掘、推理运算功能,支撑网络数据库使用,驱动语义网发展,成为信息组织与知识服务必不可少的重要工具,形成我国从信息服务向知识服务转型的重要基础设施。新型《汉表》肩负着传播汉语领域知识的重要历史使命,必将在我国科技创新中发挥重要作用。

收稿日期:2010年7月27日

标签:;  ;  

网络环境下新“汉语叙事表”的功能定位与发展_汉语主题词表论文
下载Doc文档

猜你喜欢