现代指数法研究_语义分析论文

现代标引方法研究，本文主要内容关键词为：方法论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

[中图分类号]G254.36

[文献标识码] A[ 文章编号] 1004—325X（1999）06—0004—03

1957年，美国IBM公司的H.P.Luhn发表了两篇论文，首次将计算机技术引入文献标引领域，开创了以自动标引为特征的现代标引方法。在自动标引技术已经发展40余年的今天，面对纷纭的各种标引方法，系统地对其分类归纳，深入地分析其原理机制，客观地评价其性能，探寻其今后的发展方向，这无论是对现代标引方法的理论研究还是实践应用都具有重要的意义。

1 统计标引法研究

词频统计标引法的理论基础是著名的Zipf定律，它建立在较成熟的语言学统计研究成果基础之上，具有一定的客观性和合理性，加之这种方法简单易行，因而在自动标引中占有较重要地位。国内外很多学者都曾使用这种方法进行了标引试验，结果证明此法行之有效。词频统计方法要进一步发挥其功能，就必须融合其它因素，因此这种方法目前更多是综合进其它标引方法中使用。

在加权统计标引法中，逆文献频率加权标引和词区分值加权标引主要依赖于词的频率特征（标引词在一特定文献中的出现频率或词的文献频率）和词的区分能力。这两种方法的主要缺陷是与用户的相关性无关。而词相关性加权标引和价值测度加权标引模型不仅考虑了词在一特定文献或整个文献集合中的频率特征，而且考虑了标引词在相关文献集合和无关文献集合中的频率特征，以及检索结果的效益值。理论和实践都证明这两种方法比前两种方法更为有效。但这两种方法在实际应用中具有一定的局限性，权值函数中的R等值在标引之前是未知的，只能近似估计。

n-Gram法是一种原理简单，处理容易，且实践证明又是较实用的标引方法。因为一种语言的n-Gram是有限的且较稳定，因此这种标引方法几乎不受学科术语发展变化的影响，同时它还可以检查文本中单词的拼写错误。n-Gram法虽产生于英语但能适用于多种语言，不仅是基于字母的西文，甚至是东方语系的日文。但是这种方法仅从形式上对n-Gram进行统计，会出现一定程度的标引词不准，标引短语中缺词和误组配等问题。

统计学习标引法独辟蹊径，通过一个学习过程建立了标引词与其相关词和非相关词的关系，并以此为基础确定标引词的标引值。试验表明这种方法是有效的，用一特定标引词标引文献，发现超过87%的相关文献被该标引词正确标引，只有不到9%的非相关文献被错误地标引。但是这种方法目前只能处理单词，无法处理多词短语，而多词短语一般比单词包含了更多的语义信息，因此统计学习标引法的处理范围还有待进一步拓展。

相比于其它自动标引方法，统计标引法较为简单实用，因而使用较普遍，也取得一定的实际标引效果，它同时也是其它一些类型自动标引方法中重要的组成部分。但是语言是有意义的符号序列，这类方法要克服单纯统计的形式化缺陷，取得更高的标引质量，就必须结合语法语义分析。

2 概率标引法研究

概率标引法所依据的概率主要有相关概率，决策概率和出现概率。基于相关概率的标引法一是根据包含相同标引词的提问与文献的相关概率来标引划分文献，如二值独立性标引模型；一是根据具有一定联系的文献之间的相关概率来标引特定的文献，如基于被引用与引用文献的标引方法。基于决策概率的标引方法主要是依据某标引词赋予某文献这一决策事件正确的概率来标引文献，如DIA标引方法。而RPI模型则是同时以需求一文献相关概率和叙词标引文献正确的决策概率为基础而构造的标引方法。基于出现概率的标引方法是根据词在文献中的出现频次所服从的概率分布的特征来选择标引词，如2—Poisson模型。

相比于其它概率标引和检索模型，二值独立性标引模型可产生对一给定需求一文献对相关性概率的直接估计。而在其它模型中，要计算这一概率需估算很多概率参数。但是作为这一模型的基础，文献—需求关系是二值的，要么相关要么不相关，这与人们对事物判断的多值性有一定差距。

基于被引用与引用文献的标引方法充分利用了文献引用关系内含的信息相似性这一主要特征。正如科学引文索引（SCI）的创始人Garfield所指出：“利用作者所列参考文献编制引文索引，事实上等于雇佣了一批标引员做标引工作，因为作者每引用一篇参考文献，实际上是作者从自身的角度对该文献进行了一次标引。”但是这种方法目前只提出了理论模型，其实用性有待试验给予确认。

DIA方法是多种概率标引模型应用的基础，通过这一方法，可以估算其它一些模型所需要的概率标引权重，同时这种方法可以产生较好的排序结果。DIA 方法丰富细致的文献描述能力和无需非现实假设的明确概率加权体系使其具有广阔的发展空间。

RPI模型具有两个基础概念：“正确性”作为标引模型的基础，而“相关性”则作为检索参数，因此这种模型比二值独立性标引模型更具灵活性，它适用于多种不同的概率标引体系。

对于2—Poisson模型的有效性，Harter（1975）通过检验独立确认为好标引项的词的分布进行了试验。他对从650篇文摘选出的21 个词进行了x[2]检验。在这21个词中，有13个词的2—Poisson模型在0.05水平上被否决。超过一半的试验词不服从2—Poisson 分布，这说明2—Poisson模型的性能只能算中等水平。Srinivasan（1990 ）通过对三种不同泊松分布模型的自动标引试验结果的分析，发现能持续较好工作的是基本的1—Poisson模型，而不是2—Poisson模型和3—Poisson模型。

概率标引方法目前基本处于理论研究和模型构建阶段，还需要更多的试验加以检验和实用化。

3 句法分析标引法研究

基于深层结构的标引法将文献标题可能反映的主题内容归纳为有限的几种元素基本范畴，并使用简洁的句法规则，减小了句法分析的复杂性。数字化指示符和处理码标识的运用更方便了计算机的识别处理。但是这种方法在主题名称的范畴分析及主题标目的选择等方面需要较多的人工干预，影响了其自动标引效率。另外，这种方法仅以文献标题为标引对象，虽然主题内容容易突出，但标题句法形式的规范性一般较差，增加了句法分析的难度，同时过窄的分析范围容易漏标一些相关主题。

FASIT标引法在标引中已从语言的表层形式深入到了概念层次，它通过选择出的概念来描述句子，提高了句法分析的准确性；它通过概念归类有效解决了相同概念的多种不同形式短语的聚类问题，从而减小了单纯短语标引造成的高查准率但低查全率的影响。由于自然语言句子的错综复杂，解决单词和短语标引的歧义性是句法分析的难点所在， FASIT在这方面虽具有一定的能力，但是由于FASIT自身的灵活性和概念选择中标记的有限性，其性能并不是很理想。另外FASIT 在增大例外词典，完善概念选择和概念归类等方面还有很多工作要做。

COPSY标引法将名词短语的中心词一限定语结构，构造为名词短语的从属树结构，这种从属树具有结构严谨、表现能力强、容易组织等特点，既可描述文献主题，也可描述提问要求，更便于进行检索匹配。 COPSY在FSTA、INSPEC、US PTO等数据库上的试验表明，其错误率只有10%，而且这些错误主要是因为文献直观上的等级分类不当，而不能说明是句法分析的错误。评估试验还表明，COPSY的错误率可降至5%，但是要进一步降低错误率，仅靠句法分析方法是无能为力的。

总体而言，句法分析标引法所获得的一些有效结果通常是来自于一些特殊的小量样本，而在大量样本上的试验往往令人失望，最突出的问题是标引词词义的模糊性，而这一问题又是句法分析标引法本身难以解决的，因此，著名的自动标引研究专家Salton指出，所有的句法分析必须辅之以语义分析，才能保证自动标引的准确性。

4 语义分析标引法研究

潜在语义分析标引法通过单值分解将词、文献和提问依语义相关程度组织在同一空间结构中，在这一空间中，分散在不同文献和提问中的同义词相近放置，具有不同的词但主题语义接近的文献和提问相邻组织。因此在文献和提问检索词不匹配的情况下，这种方法仍可以给出合理的检索结果，这一点显然是基于关键词的检索系统所无法达到的。因为每个词在潜在语义空间中只有一个位置，所以这种标引法目前对多义词还难以应付。在简化的SVD描述中，文献集合中一个含义模糊的词将被置于多个独特含义的矩心，这无疑会对检索产生负面影响。尽管这种方法还存在缺陷，但是许多学者对其进行试验后认为，潜在语义分析标引法是一种很有希望的方法。

在相信函数模型中，每篇文献都用一个相信函数唯一地描述，而每个用户提问也用另一个相信函数描述，两个函数都基于相同的识别框架，因此我们可以计算二者的一致程度。对一给定的提问，一致性对文献中描述词所表达的语义内容非常敏感，这种语义敏感性可在确定检索的文献中提供更大的相关性。因此可根据一致性程度对输出文献进行排序。同标准的矢量空间模型相比，相信函数模型更具通用性和广泛性，因为它无需假定描述每篇文献或提问的叙词必须正交。全部有关叙词间相似性的信息均从标引叙词表中获得。在相信函数模型中，受控叙词表起着非常关键的作用，尽管在理论上它的构建可由计算机自动完成，但对于这种具有较复杂词间关系的大容量叙词表，实际构建必然需要较多的人工干预。

语义矢量空间模型在现有的矢量空间模型基础上，融入格式语义结构，通过标引词的语义矢量构造描述文献的语义矩阵，使文献的标引得以在语言的深层结构—语义层上实现。这种方法在语义处理方面并未采用语言处理专家系统庞大复杂的知识库结构，而是有选择地吸收既成熟又简单易行的自然语言处理技术，在保证理论先进性的同时又提高了方法的实用性。以此模型为理论基础的试验系统SMART[++]在ADI、 CISI 和CRAN三个实验数据库上进行了测试。当提问较短时，系统的平均查全率和查准率普遍低于SMART系统，这是因为较短的提问无法使系统发挥格式语义结构标引之统计效能，而当提问调整加长后，系统的检索效率明显改善。

相比于句法分析标引法，语义分析标引法无论在使用范围还是实际的使用效果都要明显优于前者。语义分析标引与人工智能标引的融合将是今后自动标引技术的主流。

5 人工智能标引法研究

人工智能应用在标引中的具体技术是专家系统，专家系统的知识表示方法主要有产生式表示法、语义网络表示法和框架表示法。基于产生式表示法的JAKS系统，其规则具有统一的条件—行为表示形式，各自具有自己的功能，这使知识容易定义，也容易理解。而且规则具有高度模块化性质，系统对规则的定义、修改、扩充等操作可各自独立进行而不互相干扰。但由于规则之间不存在明显的相互作用，所以难以对规则库整体把握，给规则库的一致性维护带来困难。另外基于规则的推理缺乏必要的灵活性，难以应付复杂内容标引的变动推理方式的需求。

基于语义网络表示法的WorldViews系统抓住了符号计算中符号和指针这两个本质的东西，而且具有记忆心理学中关于联想的特性，是目前智能化水平较高、处理速度较快的自动标引系统。但是试图用结点代表世界上的各种事物，用弧代表事物之间的任何联系，则形式过于简单。如果结点间的联系只局限于几种较典型的关系，则对其它联系则难以表达，从而使表达内容受到限制，而增加联系又会大大增加网络的复杂度，事实上，语义网络系统的管理和维护通常是十分复杂的。

在MedIndEx系统中，框架能提供比关键词更准确的描述，它更适合于表示典型的概念、事件和行为。而且框架之间可以形成层次的或更复杂的关系，组成一组框架网络，代表整块的知识结构，表示复杂的知识内容。但是框架本身尚未形成完整的理论体系，框架、槽和侧面等各知识表示单位缺乏清晰的语义。继承在知识表示一级支持概念抽象和信息共享等思想，在框架系统中具有极其重要的作用。但多重继承有可能产生多义性，如何解决继承过程中概念属性的歧义，目前还没有一种统一的方法。

尽管采用人工智能法进行自动标引比在相同专业领域中运用其他方法要复杂，但人工智能法是真正从标引员思维的角度模拟标引员的标引过程，这显然比以被标引文献为出发点的其它自动标引方法更有希望获得理想的标引效果。

收稿日期：1999—04—01

标签：语义分析论文; 相关性分析论文; 概率计算论文; 文献论文;

现代指数法研究_语义分析论文

猜你喜欢