基于文献衔接的无关文献知识发现排序方法研究_主题词论文

基于文献内聚度的非相关文献知识发现排序方法研究，本文主要内容关键词为：文献论文,发现论文,方法论文,知识论文,内聚度论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

[分类号]G353.1

修改稿日期：2009-05-26

1 研究背景

1986年美国芝加哥大学Swanson教授提出了基于非相关文献的知识发现，即从表面上没有任何联系的文献内容之间识别出有效的、新颖的、潜在有用的以及最终可理解的知识的情报研究方法[1]。虽然有研究者先后利用潜在语义索引、共词聚类分析、联合概念空间以及关联规则等方法对非相关文献知识发现进行了研究[2-5]，但ABC依然是其基本的发现模式，并在应用中进一步演化为开放和封闭两个发现过程。如图1所示，开放过程是由A开始，通过B来寻找与A具有潜在关联的C；闭合过程是由假定A和C存在关联开始，来寻找连接A和C的可能关联B。其中，A称为初始集，B称为中间集，C称为目标集，它们均可指代两种类型的实体，即概念或文献，本研究中的B主要指表征文献主题概念的词或短语。无论是开放过程还是封闭过程，中间集的构建均是非相关文献知识发现的关键环节，其质量高低直接影响到最终的发现效率。因此，很多研究者也对该环节从各个方面进行改进和发展。中间集中B的选取是关键，在大量的B中，最终只能选取其中一部分形成中间关联文献集合，进而作为发现目标C的基础。而这一部分的选取采用最多的方法是对B进行排序筛选。但按何种方法进行排序能更好地揭示出B的主题关联度至关重要。笔者以共现理论为基础，以主题关联度为着眼点，提出基于文献内聚度加权的B排序方法，并对其排序效果进行对比实验研究。

图1 Swanson的ABC发现模式

目前，在非相关文献知识发现中，对B进行排序主要采用共现高频统计的方法，包括单纯共现高频统计法和平均共现高频统计法。虽然后者较前者能更有效地去除那些高频出现但不具有区分文献主题能力的词，但是其根本缺点是不能客观地反映B的主题关联度。后续有研究者采用加权方法对B进行排序，目前主要采用的是逆文献频率加权法(Inverse Document Frequency，IDF)，其频率计算公式为[6]：

该加权方法只是考虑了词在整个文献集中的分布，因此，依然不能恰当客观地反映词的主题关联性。

2 基于文献内聚度的加权方法

2.1 基本原理

非相关文献知识发现中对于中间关联词以及目标词的确定，其着眼点应在于主题关联度。对于主题概念的表达和揭示，叙词具有特殊的重要作用。叙词也称为主题词，是情报检索语言的主要类型，是表示文献概念的规范性词语[7]。其主要特点是采用指定的词语——主题词，来专指或网罗相应的概念，也就是适当归并某个概念的同义词、近义词、拼法变异词及缩写等，以保证主题词与概念唯一对应[8]。据此，利用主题词对B赋予权值，根据权值的大小对B进行排序，能反映B的主题关联性，提高B的质量。

1987年，Harris在他的《Language and Information》一书中揭示了一种子语言(sublanguage)的现象，即检索特定主题所形成的文献似乎被局限于有限的术语中，或者说，形成了一个有限的术语集合，这个术语集合可称为子语言[9]。子语言现象可揭示文献之间的主题关联强度。一般来讲，随机选取的文献之间关联度弱，而特定主题的文献间关联度强。这是因为，一个随机选取的相同大小的文献集合，可能覆盖更广泛的主题。这并不意味着随机的文献不具有主题方向，而是它覆盖了更多的主题。所以，无法将其主题刻画成一个整体。如果将子语言现象进行量化描述，则可定量地揭示文献间的主题关联度。

因此，本研究所提出的B排序方法是基于主题词的概念表达及子语言可量化揭示的基本原理。

2.2 文献内聚度的概念

内聚度(Cohesion)是指一个模块内部各成分之间相关联程度的度量[10]。借鉴内聚度的概念，对子语言进行量化的指标可称为文献内聚度。文献内聚度是指文献之间相关程度的度量，可利用表征文献主题的术语的聚合程度进行表示。一般来说，不同主题的文献，它们各自的子语言也存在不同，因此，它们的词汇交叉比两个随机选择的文献的交叉可能更少。将文献内聚度引入非相关文献知识发现中，可能会有效缩小B的范围，同时更能聚焦在某些有意义的主题上。所以，与随机或主题中立的情况比较起来，这可能显示更一致和更有意义的连接模式。

本研究首先选择了三个特定主题(偏头痛、镁和肠梗阻)在PubMed中检索，形成三个文献集合；同时随机选择包含文献数量大致相当的非特定主题的文献集合。提取这三个文献集合的MeSH字段，删除副主题词，并经停用词表的过滤后，统计MeSH及其词频。按词频降序排列，提取每一文献集合中的Top50MeSH，分析其平均频率分布，结果如图2所示。

图2 特定主题与非特定主题文献集中Top50MeSH的平均频率分布

由图2可见，特定主题的三个文献集中的MeSH平均频率分布均形成了峰值，而且每一个的分布峰值与Top频率的范围几乎一致，均集中在Top10左右的MeSH。而无特定主题(随机)文献中Top50MeSH并没有形成峰值，分布均匀，且并没有频率显著的高频词，其MeSH的平均频率基本在1％以下。

分析该实例发现：即使峰值仅涉及用于文献标引的整个词数量的一小部分，但它们对应MEDLINE记录的大部分。例如，偏头痛的文献集合中，峰值中的Top10个词覆盖大约40％的记录。因此从这个角度证实该文献内聚度可被测量，并对非相关文献知识发现具有意义。

2.3 文献内聚度的计算方法

基于非相关文献的知识发现的关键取决于在文献中找到一致的互补关联模式，而不是独立的关联实例，因此，以相关文献为开始端是其发现过程的基础。例如，一篇关于镁的文献应该不仅仅是偶尔地提到镁，或者仅仅作为一种化合物的无活性成分，而是文章如果以“magnesium”作为主题词，则这篇文章是需要实质性地覆盖某一主题。基于这样的原因，本文定义了基于MeSH的文献内聚度的计算方法。

为了计算文献内聚度，首先将某一主题词所组配的所有副主题词去掉，计算主题词的纯数量。即如果同一个主题词在同一个记录中与5个副主题词组配，共出现5次，则这个记录中该主题词的频率计为5。然后应用MeSH停用词表，滤掉过于宽泛的MeSH。同时，由于检索词可能出现在结果集合中的每一条记录中，通常排在前几位，因此，要去掉与检索词对应的MeSH。但有价值的是这个检索词可能会伴随着一个或几个有实质性意义的其他词，即“核心”(Core)词，这些核心词能成为确定有限词汇的基础。

然而，“核心”范围的确定是其关键。对于一篇典型的PubMed文献记录，其平均的MeSH标引数量在10-20个。这样一条记录可看作文献内聚度的模型，或至少能表示本研究中最初对文献内聚度的解释。显然，包含1 000篇文章的集合通常不会达到一篇文章的内聚度，但确定包含大量文献集合中出现的最高频率的非停用MeSH作为其“核心”的体现是具有合理性的。

由此，定义文献内聚度的计算方法是：设L为某一特定主题的文献集合，M=L中主题词总数；则形成MeSH平均频率分布峰值的MeSH词数量N=int(ln(M))，这里，N只是个大致数值，对于1000篇的文献集合，基本能确定为10个TopMeSH，即1％的MeSH词。由上面的三个实例分析，利用SAS统计软件的NLIN模块进行函数拟合，某一个MeSH的平均频率符合对数函数，即：Freq=a+b×lg(id)。其中，id代表Top序号，a、b均为可求解参数。若被定义为在TopN个MeSH的频率总和，指L中所有MeSH的频率总数，则L的内聚度是：Cohesion(L)=

/。该计算方法能探测到L中的非停用MeSH词频率的最高点，即核心词。

3 实验

3.1 评价方法

实验以Swanson“偏头痛与镁”的发现为参照。理由是目前在Swanson的研究中，该发现对潜在关联关系阐述最为详细，并且该发现已经被后续实验所证实。本实验以该发现中得出的43个中间关联词和11个中间关联对作为标准[11]，定义如下评价指标：

3.2 实验步骤

(1)获得粗B集合。因为以Swanson关于偏头痛(A)和镁(C)的研究结果为标准，所以采用和Swanson一样的检索策略。另外为了和Swanson所得到的检索结果保持一致，对文献进行时间限制。具体检索策略为：

①以migraine[ti]AND migraine disorders[mh]为检索式，以1960.01.01至1987.12.31为时间限制，检出A文献集。

②以magnesium[ti]AND magnesium[mh]为检索式，以1960.01.01至1987.12.31为时间限制，检出C文献集。

③然后利用Arrowsmith[12]对A、C集合进行比对，经停用词过滤[13]得出B列表。

(2)对于每一个产生的B，计算其逆文献频率加权值，按值降序排列。

(3)对于每一个产生的B，计算其文献内聚度加权值，也按值降序排列。

(4)计算各项评价指标，并进行分析比较。

3.3 实验结果与分析

本研究计算前述发现(镁与偏头痛)的B列表中词的文献内聚度，采用的方法是编程将B列表中的每一个B词作为检索词在PubMed中检索，获得文献集合，根据前面的计算方法，计算其文献内聚度。然后根据Cohesion值对B进行排序，同时与逆文献频率加权的B排序方法进行比较，如表1、表2和图3所示。用前述的方法测量各自B列表长度、查全率、查准率，从而评价文献内聚度对中间B排序的效果。

由表1中的数据可见，当Cohesion≥0.05时，B列表的长度变化微弱，仅减少了3％，其词查全率、关联对查全率及综合查全率均无变化，查准率仅提高0.07％。当Cohesion≥0.1时，B列表的长度减少了近一半，而词查全率只下降了2.33％，关联对查全率保持在100％，查准率提高了1.89％。当Cohesion≥0.15时，B列表的长度减到了原B列表的1/3，词查全率仍保持在86.05％的一个较高水平，关联对查全率为81.82％，查准率提高了近3倍。当Cohesion≥0.2时，B列表的长度减少到原长度的11.26％，查准率也提高了3倍多，但词查全率、关联对查全率均下降明显，综合查全率下降到37.00％。当Cohesion的取值继续增加时，绝大部分B词都被过滤掉了，查全率不能得到保证。

由表2中的数据可见，当≥0.1时，B列表的长度减少了近20％，但其综合查全率仅为69.76％，词查准率下降0.11％；当≥0.3时，其综合查全率则降低近50％。

比照表1和表2的具体数据以及图3所示两种方法的综合查全率和词查准率可知，基于文献内聚度加权的B排序方法较逆文献频率加权的B排序方法，在相同的B范围内，其综合查全率均显著提高，并且随着B的减少，其词查准率也呈逐渐提高趋势。

4 结语

在非相关文献知识发现过程中，当B未经过排序筛选时，虽然查全率为100％，但是B列表所包含的词数量大，查准率也较低。用户要从这些词中进行知识发现，人工干预的工作量很大，知识发现的效率较低。采用基于文献内聚度的排序方法对B进行排序筛选，从结果来看，综合比较Cohesion取不同的值时所得到的查全率、查准率，可以看出：当Cohesion≥0.15时，B列表的长度不到原来的1/3，而查全率只降低了13.95％，保持在86.05％的较高水平。同时查准率提高了近2倍。很明显，通过Cohesion≥0.15过滤B集合，在保证的较高查全率的同时，大幅缩短了B列表的长度，相应的提高了查准率，减少了B集合中大量的噪音词，减轻了人工判断的工作量，提高了知识发现的效率。因此，0.05-0.15是Cohesion较有意义的取值。

标签：主题词论文; mesh论文; 查全率与查准率论文; 文献论文; 查准率论文; 查全率论文; 科普论文;

基于文献衔接的无关文献知识发现排序方法研究_主题词论文

猜你喜欢