论网络环境叙述表中词汇的新来源_百科词条论文

网络环境叙词表收词新来源刍议,本文主要内容关键词为:词表论文,刍议论文,来源论文,环境论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

修回日期:2011-04-13

1 前言

随着信息技术的快速发展,网络信息资源急剧增长,网络词汇日新月异,丰富多样。除了传统词汇外,在网络上已经形成了由缩略语、汉语新词汇、数字代语与网络形语4部分组成的网络语言体系[1]。目前基于关键词的网络信息组织和信息检索,由于计算机无法识别检索词的语意信息,在信息的查全和查准方面存在严重不足,传统叙词表的词汇已经不能完全满足现代用户的检索要求。因此,传统词表的收词方式向网络环境收词方式的转变势在必行。

无论是叙词表的编制还是维护,都离不开收词这一基础性工作。叙词表收词的基本原则是文献保障原则和用户保障原则。网络环境叙词表的主要“文献”是网络信息资源,用户主要是网民。因此,编制主要面向网络用户和网络资源的叙词表就必须适合广大网民的查找习惯和思路,词汇就必须来自网络、用于网络。不对收词方法进行改革,不面向网络资源和网络用户,编出来的叙词表就很难具有适应性和实用性。现阶段的叙词表收词也应该以机器作业为主,人工方法为辅,在继承原有词汇的基础上,借助计算机技术和网络技术,全面、快捷、低成本地收集更多的词汇,以满足叙词表编制和更新的需求。

自20世纪60年代以来,传统叙词表一直采用手工方式收词,主要来源有:传统叙词表和分类法资源、各类工具书、专业术语和专业词典、名词委审定词汇以及检索刊物的主题索引或关键词索引等。这些方法都是手工环境编制叙词表的智慧结晶,在当时是行之有效的。现在网络环境中叙词表编制和修订时,这些收词方法大多可以配合计算机操作(诸如词频统计等)继续使用。但是,在网络和计算机技术迅速发展的今天,这种手工收词方式已经很难适应网络环境中叙词表的研制和利用,探索新的收词方法已经成为一项亟待进行的课题。

2 面向网络的收词方法

在网络信息环境下,拥有海量的语料和丰富的词汇来源,诸如网络数据库中的关键词和网络百科资源,基于用户参与的folksonomy(大众分类网站)的标注词(tagging)[2],还有像谷歌、百度这类搜索引擎为方便用户检索提供的扩展词,另外就是近年互联网上出现的热点词汇以及伴随输入法出现的联网检字法词库等。

在已知网络词汇来源的基础上,利用技术人员编制的软件,可以有针对性地展开词汇收集工作,以用于叙词表的编制和修订。其基本流程如图1所示。

图1 叙词表收词流程

2.1 网络数据库中的关键词

网络词汇的第一来源就是使用万方、维普、CNKI等网络文献数据库,获取期刊论文和学位论文的关键词资源。近年来不少叙词表或叙词词库就是利用网络数据库中的关键词来扩充词库。网络数据库中的关键词,是由专业人员或作者标引,能够表达文献主题概念的主题词或叙词,其标引质量比较高。收词做法是用编制好的下载软件提取全部关键词,经过去重,同时考虑通用词和专业词词频等信息,对词汇进行机器和人工选择,获取相应的词条,纳入语料库。另外还可以对论文和参考文献题目做切词处理,抽取得到一部分词汇。

网络数据库论文关键词的优点是比较成熟和定型,词汇准确性高,但其内容更新速度慢,难以涵盖新生的词汇,网络上的新词、热词难得到及时的反映,不过这与在后面述及的网站热点词收词法,倒是可以互补。

2.2 联网检字法词库

一款输入法的强弱主要由其自带词库的强弱来决定,它是用户打字的词汇基础。这一点上,搜狗输入法融合了搜索引擎技术,使网络新词等可以即时在线更新至固有词库,从而实现了词库的无限扩充。这也就是后来业界所定义的“网络化输入法”[3]。而后,谷歌输入法、QQ拼音等纷纷效仿,于是类似谷歌输入法词库、QQ分类法词库、火星输入法词库、百度手机输入法词库等众多联网检字法词库相继出现。

其中,“细胞词库”就是搜狗首创的、开放共享、可在线升级的细分化词库的功能名称[4],其意义是满足用户的个性化输入需求。在搜狗词库里,凡是新出现的名词术语、人名、机构名、文献名、事件名、影视作品名、文献名等,一旦成为人们常用的词汇,搜狗就会收入细胞词库,其收词范围如表1所示:

搜狗细胞词库具有如下几个特点:①新;②有较高的使用频率;③分布广;④词汇主要来自网络以及和网民的义务提供。这几个特点正符合编制修订叙词表收词的要求,因此这些细胞词库成为叙词表候选词的重要来源。当然,其不足之处也显而易见,主要表现在:由于建库的目的主要是用于录入,所以词库的词汇太细,粒度太小,很多词汇不符合编制叙词表的需要,如下例中:当前位置、月国内、月份当月粗钢、是支撑、目前国内等词;另外,由于使用wiki方式,网民义务提供词汇,错误率较高,质量很难保证。

其中,工程与应用科学>>钢铁冶金>>钢铁steel不锈钢 粗钢 钢材细胞词库里共有词条328个,部分词条样例如下[5]:中国联合钢铁网、当前位置、热点专题、中联钢、月国内、粗钢、资源量、环比再降、中联钢专稿、可供资源量、月份当月粗钢、同比增加、进口同比减少、出口同比增加、当月粗钢同比、新增资源量、月份粗钢、同比新增资源量、是支撑、目前国内、钢材市场。

2.3 网站热点词

网络“锐词”或“热词”具有浓郁的网络“微文化”的特征,也成为正在蓬勃发展的网络文化中最有代表性和生命力的表现形式之一[6]。网络“热词”是基于用户搜索的产物,是近期网络流行新闻、影视、大众生活等的及时反映,往往是一些检索热点,属于检索频率较高的词汇。

大多数门户网站都有自己的热搜榜,例如百度的搜索风云榜、搜狐的热搜榜、酷6网视频排行榜、口碑生活的热卖榜等。通过热搜提示,将搜索引擎和搜索对象打包,直接推送到用户面前,给用户推荐参考。百度风云榜上通过七日关注[7](见图2)、热门搜索、世说新词、事件、人物、娱乐、生活、奇艺、汽车等共14个板块分类显示网络用户热点词汇。

网站热点词时效性强、更新频率快、表现形式也丰富多样。而叙词表需要收取的是能反映事物概念或特征等的新鲜词汇,像“囧”、“槑”、“3Q”、“+U”、“PMP(拍马屁)”、“酱紫(这样子)”、“斑竹(版主)”、“幽香(邮箱)”等,这类网民专用的网络语言就不可用于词表收词。另外,网络热点词大多数是关于新闻、人物、影视等文艺方面词汇,它们对于社科类词表收词用处比较大,但对于自然科学类的叙词表编制就没有太大意义。

图2 百度风云榜七日关注前10名词条(截至2010/09/159:51)

图3 百度“数据库”检索弹出词汇(截至2010/09/30 9:51)

图4 百度“数据库”检索后相关搜索词汇(截至2010/09/30 9:52)

2.4 网络检索界面相关词显示

目前人们主要通过网络搜索获取信息,可以通过查看用户检索的痕迹,即查看人们检索时所用的检索用词(检索日志),收集用户经常使用的专业词汇。通过统计用户检索日志中使用关键词的种类和数量频次,可以直接获得基于用户检索的高频词汇。这种选词方式有很好的用户保障和文献保障,所以更为科学和实用。可以通过Google、百度等著名网络搜索引擎的用户检索日志,获取用户检索用词的各类信息,通过词汇统计和术语规范后,作为语料库的候选词汇[8]。

工作人员将一批已经收集到的基本词汇或者是叙词表原有的叙词和非叙词分别输入百度的用户检索框中,拷贝其自动弹出用户检索记录统计结果以及检索后出现在页面下方的相关词汇。例如,在百度检索框中录入检索词“数据库”,加空格键以及检索之后,百度列出的与“数据库”前方一致、与“数据库”相关的用户高频检索词见图3和图4。

通过这种方法可以获得大量的相关词汇,这些词汇既可以增补新词扩充语料库,又对以后词间关系的建立起了一定的辅助作用。对比这两种显示的相关词汇,相关搜索词汇更具收词价值,前方一致词汇次之。

2.5 大众网站的标注词

传统的主题标引及元数据标注主要是由专业标引人员和作者本人完成,而随着网络的发展,一大批大众标注网站(如del.icio.us、Fliekr、豆瓣、Yahoo! My Web2.0等)应运而生,一种基于网络用户,使用自然语言为对象的标注——网络社会化标注以其方便、低成本、高效率等优点正全面兴起和发展。在各网站特定服务范围内,网民可以根据自身习惯、喜好自由地选择词语作为关键词,对网页、图书、博客、音乐、电影、图片等进行标注,这些关键词称为标签,方便以后对这些资源进行管理、使用和检索。

例如豆瓣网,用户可以检索自己喜欢的图书,创建自己的图书收藏,为它们自由地添加图书标签。豆瓣网上的图书标签都是广大用户自己创立的。这些标签是大众自发对网络上图书信息进行标识和批注,进而能实现信息共享。

大众标注是一种使用用户自由选择的关键词对网站内容进行协作分类的方式,其原理与文献标引相同,因此大众标注词也可作为叙词表候选词纳入语料库。与传统主题标引相比,网站大众标注,具有标注工序简单,标注者不受限制,可自由选词标注,标注词不受控制、直观地组织信息和共享信息等优点。同时它也存在着标签数量参差不齐、缺乏词形控制、标注错误或不当等缺点[9],如《重读近代史》一书标注了“中国近代史”、“散文”后(见图5),再标注“历史”和“歷史”、“科普”、“2010-08”等词汇[10],就显然冗余、重叠,甚至是错误标引。标注词汇和网络热点词汇的共同之处在于,它们能够解决传统主题标引存在的词汇更新慢、不能及时反映新学科和新技术等问题。但是,不论是网络热点词还是标注词汇,它们主要反映的网络用户所关注的文学艺术、影视作品、休闲娱乐等方面的内容,对社会、文艺、影视类叙词表的收词有一定的参考价值,但对于收集专业性较强的自然科学、工程技术类的词汇,作用显然较小,这是这种收词方法的明显缺陷。

图5 《重读近代史》标签示例(截至2010/10/2210:42)

2.6 网络百科资源

网络百科全书也称百科在线(encyclopedia online),是最近几年来出现的新型参考工具,它是在传统百科全书的基础上,结合互联网的特点兴起的一种新的参考源[11]。目前网络上的百科全书和具有百科性质的网络资源有不少,如维基百科、互动百科、百度百科、中国大百科等。

词条是网站百科的基本单元,每一个词条都有一个条头(即词条标题)。词条包括词条分类、英译名、释义、相关词以及编辑者等信息。我们利用网络百科收集专业词汇时,通常先找到相关词条,然后抓取词条中的相关内容,尤其是词条释义等项中使用的词汇,从中发现新的专业词汇。这些信息可以提供某一词语的同义词、反义词、不同译名、上位词、下位词、相关词,即相当于叙词表中的Y(用)、D(代)、S(属)、F(分)、C(参)等关系的词汇。

例如,图6、图7为百度百科中“官话”的截图内容,在其开放分类里提供了族首词“方言”;同义词“官话方言”、“北方话”;下位词“华北官话”、“西北官话”、“西南官话”和“江淮官话”,还有各方官话的下位词条“北京话”、“西安话”、“成都话”、“扬州话”;同位词“南方官话”等[12]。

图6 百度百科“官话概述”(截至2010/09/16 9:00)

图7 百度百科“官话”部分内容(截至2010/09/16 9:10)

目前的网络百科全书,主要有基于印刷版百科全书而开发的能通过网络使用的电子版百科全书和直接在网上开发的百科资料数据库两种。基于印刷版的网络百科全书的内容是经过严格审核编制的,词条内容比较权威。而基于大众用户编制的百科资源,词条内容主要由广大网民共同维护和编辑,具备了内容丰富、知识完备、高度开放、编辑互动、及时更新等特点[13]。客观地说,这些优秀特性是传统百科全书所欠缺的。但其不足之处也正是由于它的高度开放性,使得内容的权威性缺失,造成其处于一种无序状态。将会给收词完成后的词汇审核带来更大的工作量。但相对于前5类词汇来说,百科词汇准确性更高些。

3 结语

传统手工收词方法和面向网络的收词方法,各有特点,分别满足不同时代叙词表编制的需要。现将两者的利弊比较如下,如表2所示:

上述6种面向网络的收词方法各有优劣。网络数据库中的关键词的优点主要是词汇准确性较高,但由于文献内容更新慢,难以涵盖新词。由于网络数据包括各个学科的文献,所以这种收词方法覆盖面广,收词全面。与此相反,联网检字法词库的优点是新词多,词汇更新快,但是由于基于网民的录入用词,词汇学科覆盖面不全,主要适合于非学术性词表的编制,加之录入用词太细,粒度太小,很多词汇不符合叙词表收词的需要。网站热点词具备了时效性强、更新频率快、表现形式丰富多样等优点。不足的是很多词汇不规范、不科学,词汇大多与社会生活密切相关,更适合人文社科类词表编制。网络检索界面相关词显示可以快速获取相关词汇扩充语料库,并可为以后建立词间关系提供参考依据。但是,筛选淘汰的词汇量巨大,而且多半需要手工完成,因此大大影响这种收词方法的效率。大众网站的标注词的优点是标注词来源于众多的网络用户,具有用户保障,但是标注词数量和质量参差不齐,而且缺乏词汇控制,冗余词多,适用词少。网络百科资源内容丰富,覆盖面广,高度开放,更新及时,可以用收词软件发现所需的词汇,但是手工筛选量大。

总之,网络收词的6种方法各有利弊,各有长短。实际上这些方法可以互相补充、互相辅助。可以充分利用网络技术、计算机技术和自然语言处理技术,使这些新型的收词方式焕发出新的活力,为网络时代的信息组织和检索做出贡献。

标签:;  ;  ;  

论网络环境叙述表中词汇的新来源_百科词条论文
下载Doc文档

猜你喜欢