面向用户的大型图书馆中文检索系统模型_汉字结构论文

面向用户的大型图书馆汉语检索系统模型，本文主要内容关键词为：汉语论文,模型论文,图书馆论文,检索系统论文,用户论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

早期的卡片式中文检索方式主要采用笔划（首字偏旁部首）、拼音（字音）、学科等少量几种分类索引方法。应用计算机检索以后，为提供更多的检索方法创造了条件。这些检索形式按文献分析的强度分为表层、浅层、深层和语核四个层次；表层包括对作者、期刊、语种、学科等限定字段的索引；浅层包括对关键词、主题词、自由词、词组等的分类检索；深层包括修辞结构、文体结构、引证方式、主题思想、风格等的分析〔7〕〔10〕〔8〕；语核则可达到自然语言理解。

文献检索是面向用户的，文献分析的质量直接影响到检索的质量。文献分析的深层分类和语核是最接近用户需要的，这是因为它们通过全文检索（Fulltext Retrieval）〔6〕，即建立文本中每个字词的索引及其关系，实现基于内容的查询。文献自动标引的研究、高容量存储设备和光学字符识别系统，都为全文检索及全文数据库的建立提供了技术环境和物质基础。国际上推出的TRIP、美国国会图书馆的美国飞行员资料库、ZyLAB、Ariadne、Envision等检索系统〔9〕〔10〕〔15〕〔16〕都具有一定的面向内容检索的文献分析能力。我国已建立了一些全文数据库，如上海交通大学的“法律条目全文数据库”，武汉大学的“湖北省地方志全文数据库”，陕西省中医研究院的《素问》等多部中医经典古籍的全文数据库，深圳大学的《红楼梦》全文数据库等。

检索的目的是为了能从文献库中检出切题的文献资料。建立文献库的一项基本原则就是要保证存入与检出的可逆关系〔12〕：能以存入时的概念（至少是文本语义上的概念）把文献检出来。目前，国内外中文全文库大都采用抽取词典提供的索引词汇词的方案，由标引词构成检索式。无奈汉语属于孤立语，与作为屈折语的英语和粘着语的日语相比，缺少词形变化，词序要求严格，属分析型语言，不能套用英语和日语的文献分析模式。一旦人们按词表或统计方式得到的标引词抽取词，就只剩下词的物理属性，而失去了词的逻辑关系。最多还能保有极少数孤立的信息，例如出现频率、权重等。

大型综合性图书馆（如北京图书馆、上海图书馆）拥有各个领域的信息资料，而不同领域用户研究的方法和使用的信息却不尽相同，如何组织这样一个丰富的信息源来有效地为有各类需求的用户服务，就显得特别重要。目前，国际上尚无适宜的大型图书馆汉语检索体系结构。现有中文全文系统都是某一领域的专用研究系统，使用的语言分析技术也大相径庭，不适于大型图书馆的需要；此外，缺乏统一的语言分析结构，移植性差，重复开发的弊端，不利于软件的再用。

（组件）标准化和（模式）多样性是当今技术的两个重要特征。本文根据大型图书馆检索系统使用周期长、修改少、增加频繁的特点，设计了一个开放演进的模型：充分利用已经解决了的语言技术、信息技术和计算机技术，构造标准的信息基础；对于上层结构，提出了一些原则，使检索系统的设计者可以各尽所能，采用不同的模式；随着网络技术的发展，用户能够根据自己的需求，选择不同的检索层次，构筑各自的专用子系统。这样一种内部改进灵活、对外部开放的模型，能够满足多数应用的需要。

1 面向用户的开放模型

1.1 图书馆用户的需求

大型图书馆的检索系统是为用户提供服务的，用户的需要就是它的目标。那末，什么是用户的需要呢？

假定用户A （个人或者群体）出于某种目的（研究的或者其它什么的），选择图书馆的信息资源作为辅助手段。A 希望从图书馆的信息库中获取他所需要的信息，并通过使用UEK（User Expressed Keywords）提出查询请求。然而，

UEK 与系统可识别的索引项SRII （SystemRecognizable Index Items）大相径庭〔3〕〔2〕。数据库里的信息，可以是由字符、像点等组成的位流，也可以是具有修辞结构的句文，还可以是带文体结构的体裁文。UEK 只是用户构想中的一些不甚确切的支离片段，与SRII是不同的。A作为信息的被动获取者，完全依赖于检索系统所提供的SRII，即系统提供的指示性数据（如索引字段等），而这些仅仅是对全文整体的断章取义，无法反映文章全貌以及引证关系。不恰当的题目、粗糙的摘要、曲解的主题标引，都可能误导A。如果将作者意图、修辞结构、行文风格等诸方面全面展开，对用户在引用、借鉴、联想、启发等方面有极大意义。这就必须提高检索系统的文献分析能力，缩短与用户的差距。因此要求在文本（ document ）和检索请求（request）的表达形式上更接近自然语言，即全文检索必须奠基在语言的最基本构件上〔3〕。对汉语来说就是字〔5〕、单纯词〔14〕，而不是合成词或短语。

用户群使用图书馆的交流方式是不同的：不同领域的用户使用不同的信息；同一用户使用不同级别的信息；不同用户的知识层次不同。这就决定了图书馆检索体系应具有层次性，以适应广大用户群的个体差异。此外，系统应具备良好的模块性，以便充分利用现有的技术（如语音技术），并考虑到未来新技术的发展。

综上所述，面向用户的中文检索系统应当具备以下几个特性：

（1）稳定性：系统体系结构要保持一定时期的相对稳定；

（2 ）基本性：系统低层结构必须真实反映汉语中已被确认的一些基本特性；

（3）标准化：对确证成熟的一些汉语规范设计标准化组件，保持在一定时期内不作原则性变动；

（4）独立性：不同检索层应保持相对独立，以利于发挥设计者各自的设计方案和风格，便于系统的移植和演化；

（5 ）开放性：能够支持大部分涉及汉语信息的专门领域研究的应用研究系统。

1.2 基础结构

我们的检索体系结构分成基础部分和扩展部分。基础结构（图1 ）包括四个部分：元件组、文献库、索引和查询。下面分别对各部分进行讨论。

元件组是一个层次结构（图2），每一层由代表该层的元件库和元件管理器组成。这里把字、单纯词、合成词、短语等称作元件。分层是为了符合汉语的结构特点。把汉字作为汉语的最小组件〔5〕，或者更确切地说，作为词、短语和句子的最小组件。汉字由于其结构和字集的稳定性，可以分离出来作为独立的一层；这一层不具有任何语义上的意义，只是形式符号。单纯词是由一个语素（语言学中把音义结合的最小符号称作语素）构成的，是最小的语义单位，不存在拆分和组配问题，因此可以单独作为一层；这一层是最基本的语义层次。合成词、短语、句以及段、节等都奠基在它们的基础上。我们自底向上来命名这些元件层。

最底层是第0层，包括汉字的语音构件和偏旁部首部件，用于构成汉字的音和形。考虑到汉字的形象化表意特性和造新字的需要，以及汉语便于语音输入的特点，存放语音构件和部首部件是必要的。多媒体技术的发展，使人们能够方便地通过语音和图形方式进行交互。

第0层构成第1层（字层）的基础，包括字库及其管理器。字库存放汉字的形码（汉字机内码）和音码（一个字可能有多个音码）。字库管理器由部首—字生成器、字库结构描述（包括字源链、字体链、异体字链、库组织方式等）、字索引等组成。

图1 基础结构概图

图2 元件组结构

第1层构成第2层（单纯词层）的基础，从这一层开始元件具有了语义性质。单纯词是由一个词根语素（或加上词尾）构成的词〔14〕，与其任一真子序列无交叉语义。例如，“胡同”、“华盛顿”、“熵”等。单纯词层包括单纯词库及其管理器。单纯词库存放单纯词的形码和音码。单纯词管理器主要包括单纯词生成器、单纯词库结构描述（包括词源链、词义、词间关系、词类、库组织方式等）、单纯词索引等。93%的常用汉字可独立成词，而且其表达能力ε[0]＝1。

由第1层和第2层构成第3层（合成词层）的基础。合成词是由两个或两个以上的语素组成的词〔14〕，与其某一真子序列有交叉语义。例如，“稀土元素”、“第三”、“科技”等。第3层的组织方式，按词的语素的合成度划分成不同级别的合成词。例如，部类＞大类＞次类＞小类。实词和虚词是两大部类：实词部类分成体词、用词、点别词、副词四类；虚词包括方位词、介词、连词、助词、量词、语气词。大类还可分出次类、小类〔4〕。根据汉语词类层级的特点，合成词层有合成词分级词库及其管理器。合成词库存放合成词的形码和音码。合成词管理器包括合成词生成器、合成词库结构描述（包括词源链组、词义、词间关系、词类、库组织方式等）、合成词索引等。

文献库里的文献，是指原始文献经过人工或专家系统加工处理（如划分字段等）后形成的具有结构型式的文献，这种形式化表示方法使系统具有一个坚实的知识基础，而且具有灵活方便的特点。

索引部分主要包括索引生成器和索引等。每一类元件都有相应的索引生成器和索引。索引生成器包括模式匹配、索引结构描述、索引生成策略、压缩等。其中索引生成策略是由策略库、策略生成元规则库、语言知识规则库经索引生成策略产生器创建的，还可具有算法生成和算法优化的机制。由于全文检索的量十分庞大，压缩是必要的，它不仅可以节省存储空间，也是逆检索的有效表示方式。

查询部分包括查询管理器（每种元件有一个）、查询分配器、查询处理等。查询处理主要完成查询解释、类别选择、查询优化、结果提交等功能块，图3是这样一个结构。

图3 查询部分

图4给出了基础部分的一个概图。

图4 基础结构

2 扩展部分

心理学研究认为，分类的目的是为了把无从选择的大数量的东西，归并为小量可引起注意的选择类。字可以按生存期、频度等划分；词可以按生存期、领域、频度、词性、内涵等进行分类。从这一意义上讲，我们可以在基础结构之上扩展，扩展部分与基础结构的各部分相对应，更接近语言的深层理解。试分析其中的几种。

（1）字频度。汉字的频度分布符合一定的规律（见表1），如果把汉字按字频的排序位置记作w，字频记作f，则满足f＝f[,0]×e[-aw]／

√w，其中f[,0]与文献中出现的汉字集有关，a＝0.00181，据上式分析

，w较小时，f∝w[-1／2]，即少数常见字的字频远高于其它出现的频率；w较大时，f∝e[-aw]，即罕用字的确异常罕见，其字频呈指数下降。这些与英语中的字频规律（f＝f[,0]×w[-1]）是不同的。例如，“ 的”字就占3%，前10个字占12%。因此在扩展层中相对于基础结构中字管理器一级，可增加字频管理来处理高频字、常用字、次常用字和罕用字。

表1 汉字使用频度统计

汉字数(万字)240

500

1000

1500

2000

3650

5888

1982年发表

安子介(140)57.5

74.7 88.8

94.5

97.4

99.83 100.0

1988年发表(242) (2008)(5991)

"贝_张"(210)

58.8

77.4 90.8

95.9

98.1

99.85 100.0

（2）词生存期。语言从来都是动态的，其存在和使用是人类的惯用系统而非自然法则。如果某个词不再被使用，它就失去了使用价值。现代人之所以喜爱春秋战国时期的一些作品，就是因为其中的许多词语沿用至今，仍具有生命力。可以在扩展层中相应于基础结构的单纯词、合成词管理器上增加关于词生存期的知识。

（3）词频度。按照词的使用频率，分为高频词、常用词、罕用词。据《现代汉语频率词典》统计，在1314404个语料中，使用频率最高的前100个词覆盖了语料总量的40%左右，前2562 个词覆盖了语料总量的85%左右，满足Zipf分布。一般地说，代词、断词、衡词、介词、连词、助词等活动频率高，属封闭类（词成员有限、可穷尽）；名词、动词、形容词等活动频率低，属开放类（词成员无限、不可穷尽）〔4〕。从汉语的音节长度看，通用词类以二字词为主，而在科技工业词汇中四字词、三字词和五字词居多。〔11〕这符合汉语通过增加音节构造新词的特点。

（4）应用领域。按照词在不同应用领域出现的几率，组合成领域词群，如物理、化学、生物、数学、音乐等。领域的相关知识加在相应的词的管理上。

语义是在词的水平上，最多是在句子的水平上讨论；内涵分析至少在句子水平上，最多在上下文中讨论；外延分析要回答是否还有其它；逻辑推理要问为什么；对策博弈要找出解法〔12〕。因此，要求系统应具备多维度空间查询策略（multidimensional space of informationseeking strategies）〔1〕〔15〕。系统的层次性可以保障这一点。在扩展模型中，系统开发者能够各尽所能，发挥不同语言观点（如词组本位、三品说等）的优势。语义网模型和流控模型提供了较好的分析推理模型。

3 评价与展望

本文提出的模型与不同的应用领域相结合，可以形成不同特色和品质的应用系统。这主要体现在此模型的开放性体系结构：由于每一层均对应确定的汉语组成结构，因而不必对所有应用领域都采用单一的数据模式，便于实现综合性需求；不同领域的应用可以根据自身的特点，使用与之相适应层次的索引作为其应用开发的基础，在这样的检索系统上嫁接新的应用子系统，就具备了很强的灵活性，因为它对用户的应用子系统来说是开放的。例如，关于字用法、异体字的研究可以建立在字索引级上；联绵词（如葡萄）、词源学的研究可以建立在单纯词索引级上。这种开放性不仅体现在用户在使用系统时可有多层次的选择，而且体现在用户直接加入到应用领域的开发中。图书馆与用户之间变成一种协作关系，网络技术的日益发展和知识推理的应用〔9〕将使这种协作成为可能。

本模型作为上海图书馆检索系统的方案提出，部分内容已在针对报刊文摘、论文、专利类的“二次文献及其全文检索子系统”中初步实现（用于12月20日新馆开业用），证明在单汉字—规范词—应用域词的层级索引上，检索效率很高。目前正与中文系合作其它部分（如切词、音码、用例等），将逐步完成。

面向用户的汉语检索模型，支持大多数应用研究领域，尤其是那些过去缺乏得力研究工具的领域，如语言学、医学、文学、历史、哲学、宗教、伦理学等。实现这样一个系统，需要信息学家、计算机学家、语言学家和系统学家的通力合作。

标签：汉字结构论文; 用户分析论文;

面向用户的大型图书馆中文检索系统模型_汉字结构论文

猜你喜欢