一种基于知识的文献检索方法_文献检索论文

一种基于知识的文献检索方法,本文主要内容关键词为:文献论文,方法论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

本文介绍的是一种基于知识的文献检索方法,文中将对基于该方法的系统平台,包括 双重模型、存储体系和知识库进行一个大致的描述,并对该方法中基于知识的文献检索 的体系结构、基于谓词的文献检索语言、基于知识的搜索引擎和导航搜索工具作出具体 阐述。

1 系统平台

1.1 双重模型

本文提出的双重模型基于两个方面:文献的类型层次和文献的文件组织。

文献类型层次描述的是文献的类型与内容。在系统中,文献根据它们的公共属性被分 成若干不同的类别,而每一种文献类别都以相应的模板表示,模板定义了文献如何被摘 要和描述。基于文献类型层次,文献通常按其对应的模板被概括为一个模板的实例(相 当于该文献的摘要)。由于其格式特征和相对原始文献较小的特点,对实例的处理会比 处理与它们对应的原始文献效率更高。

作为文献类型层次的补充,文献的文件组织则被用于描述文献在现实的环境下如何被 管理与组织。每一个文件夹的建立都是基于用户的定义来控制文献归类的标准。

文献的类型层次和文献的文件组织是面向用户的和柔性的。借助面向用户的双重模型 ,系统可以按照用户期望的方式来解释和组织文献,这无疑鼓励了用户在检索过程中提 供更有用的信息来提高检索的有效性和效率。

1.2 三层文献仓库

建立三层的文献仓库体系是为了更好地存储与组织文献。仓库中第一层存储的是原始 的文献,它们被物理地存储在磁盘或其他媒体上。第二层存储的是模板实例,它们被存 储在“书架”单元上。这里的书架是基于文献的类型层次组织的。每一个模板(代表一 种文献类型)对应一个书架。每个书架又包含多个书龛,一个书龛包含的是某一谓词对 应的所有实例。每一个实例有一个指针指向与其对应的原始文献集。第三层对应的则是 文献的文件组织。每个文件夹是一系列实例的虚拟仓库,它存储的是指向第二层中实例 的指针。

既然文献的文件组织能够通过用户定义的谓词来表达,因而它是柔性的和面向用户的 。每一层间的联系能在谓词驱动的归类过程中自动形成。同时在对文献进行文件组织和 构造三层仓库的过程中,一个包含了用户如何组织文件和其中的相关对象知识的知识库 随之生成。

采用三层文献仓库体系的好处可以归结为以下的几点:

它支持基于实例和模板的文献检索;

它可以配合双重模型进行快速高效的文献检索;

它允许各层中的元素和联系信息被存储在知识库中来提高检索效率;

它支持基于谓词的查询语言。

1.3 知识库

知识库包含了关于文献如何自组织和被用户组织的有关知识。在文献归档过程中,机 器采集和学习到的知识被动态地存储到知识库中。

知识库在基于知识的文献检索中扮演了重要的角色。首先,它可以提供对检索需求文 献有用的信息,这将帮助用户构造更精确和高效的检索式。其次,知识库还有助于搜索 和定位包含有用户所需文献的文件夹。确定该文件夹可以缩小搜索空间,从而提高检索 效率。最后,知识库还支持对判断文献是否满足检索标准而进行的自动检查,这样就避 免了非需求文件的输出,提高了检索的有效性。

知识库由一个领域知识库和一个对象库构成。领域知识库包含了相关领域的知识。通 常一个领域会有诸多的子领域,而且子领域下还有子领域,因此某一应用领域不仅包括 了子领域中有序组织的知识,而且子领域间的联系也会包括在其中。由于实例是由用户 定义的文件组织方式来进行组织的,因而文献的文件组织形式也可以随用户的不同而得 以区分。不同的文件组织形式拥有它们自身的相关知识背景,因而通过文件组织形式, 我们可以从中提取有关不同用户领域背景的知识。

对象库是对用户定义的谓词中出现的对象的有关信息与事实的收集与组织。对象库依 赖相关的领域知识。在不同的应用领域,对象库面对的是不同的对象。对象库包含了一 系列的对象页,对象页与对应的对象是一对一的关系。一个对象对应的对象页包含了对 象的属性与值,通常对象库是由一个学习代理通过事先定义的学习主题和学习方法来控 制与掌握的。

2 基于知识的文献检索体系

随着人工智能的发展,基于知识技术开始在许多研究领域发挥了重要的作用,这里也 包括了信息与文献检索领域。

借助双重模型和三层存储结构体系,系统能支持复杂的检索查询而不降低检索的效率 。借助在文献归类过程中获取的知识,系统对查询的预处理能够缩小检索空间,将文献 检索控制在一个较小的文献范围内。结合传统的文本检索方法(包括索引),基于知识的 文献检索能够极大地提高检索的效率。而在双重模型、三层存储结构体系、知识库、系 统目录、谓赋值引擎的支持下,一个友好的用户智能界面的建立就使系统更易于使用。 图1就是基于知识的文献检索体系。

在此体系下,提出了一种基于谓词的查询语言来规定检索标准和描述文件组织中的相 关知识。关于基于谓词的文献查询语言的细节将在下一节中描述。由于谓词有较强的表 述力,并且这种基于谓词的查询语言允许文献搜索引擎利用在文献的文件组织过程中的 知识积累,因而用户能够通过规定搜索标准和利用所需文献的相关知识准确地检索到文 献。

这一体系提供了两种用户界面来分别适应无经验的和有经验的用户。有经验用户可以 通过系统提供的基于谓词的查询语言直接来构造检索式,然后将它们递交给查询处理器 和搜索引擎进行处理。而对于无经验用户,导航搜索智能用户界面为他们提供了一种快 速和方便的切入点,不需要用户构造检索式,导航搜索界面就会通过提出的一系列简单 的问题来收集用户信息,在用户完全回答完问题之后,系统将自动产生基于谓词的检索 式。当然它也允许经验用户通过使用导航搜索来构造检索式,然后人工地来进行修正。

导航搜索的组件包括一个问题库、一个规则库、一个智能提问器和一个推理引擎,除 此之外还有一个基于谓词的检索式构造器和导航搜索用户界面。它们统一协同工作。问 题库是基于用户定义的文献文件组织和知识库知识动态地生成的,它包含的问题答案可 以有助于提高检索的效率。而规则库定义的则是用于控制用户与界面对话的相关规则。 智能提问器和推理引擎在规则库中规则的指导下,根据用户的答案来动态地从问题库中 提取适当的提问。基于谓词的检索式构造器在这里则被用于借助基于谓词检索语言并根 据从用户那里收集到的信息来生成检索式,而用户也能够对检索式进行赋值与修改。查 询分析与优化器在系统中被用于确认检索式中的每个元素,并将非正规化的检索式分离 为正规的格式,然后将谓词排序。优化处理保证了搜索引擎能够优先处理最重要的谓词 并以此来提高文献的检索效率。基于知识的搜索引擎执行检索式并返回满足搜索标准的 相关文献。

3 文献查询语言

为了允许用户与系统进行交互并告之系统他们特定的检索目标,一种能够支持用户与 系统间进行互动和准确交流的查询语言就成了必需。这种查询语言应给搜索引擎提供它 所能理解和处理的方法来规范用户的查询请求。通常来讲,这种查询语言必须要有充分 的表述力来表达搜索引擎能支持的任何查询请求,同时这种语言还要容易被使用和理解 。特别应强调的是,在该系统中,查询语言应能够支持上述文献模型来描述文献,因而 它要允许用户能够检索已经被文献模型获取的任何内容的文献。换句话说,这种查询语 言应当足以表达和描述基于文献类型层次和文献文件组织的双重文献模型。除此之外, 该语言还应能表述文献归档中用到的文献的有关知识。文献的文件组织根据用户指定的 检索标准来组织文件,由于允许在某一特定的文件夹中对文献进行检索,因而检索的效 率会比较高。另外,该语言应给用户提供能对其进行扩展和修改的空间。

借助于文献查询语言,用户能够更准确地规定检索的标准和描述需求文献的有关知识 ,而这将比单纯的关键词检索会有效得多。在设计文献检索语言时,语言的简易性与其 表述力之间的平衡是考虑的重点。通常情况下,语言越复杂就越难于使用,并且在处理 过程中也缺乏效率。然而要支持更有效的文献检索,查询语言又必须比单纯的关键词检 索复杂。设计这种文献检索语言的目标是在不牺牲其表现力来规范准确查询的同时保证 语言的易用性。

本文中基于知识的文献检索方法采用的是一种基于谓词的查询语言。选择这种形式的 语言主要原因在于基于谓词的语言有足够的表达力,其简单的语法也易于被理解与使用 ;另外一个原因则是谓词容易被翻译成自然语言,因而也为开发出一个友好的用户界面 提供了可能。

4 基于知识的搜索引擎

有效性和效率是衡量和比较信息和文献检索中使用的不同方法的最重要指标。通常在 文献检索领域的研究更多地关注于搜索的效率。然而随着文献基数的增长,搜索的有效 性变得越来越重要。

在本文介绍的方法中,文献检索的目标是有效性和效率都能得到提高。文献检索的低 效往往是由于缺乏一种强大的查询语言来允许用户准确地描述其文献需求。前面介绍的 基于谓词的查询语言就允许用户从不同的方面和层次来确定其检索的标准。通常情况下 ,文献只要被认定与查询要求有所相关就被返回给用户,而且即使将文献按照与查询相 关性进行排序,用户仍然需要面对一个很大的文献集。一个较为直接的、提高检索有效 性的方法,就是对检索出的每一篇文献进行检查,并在文献被返回给用户前剔除不满足 真正查询需求的文献。而这样做会面临两个主要的挑战:一个是检索式的精确度要求, 只有在满足精确度要求下检索标准才能更有效地对检索空间中的每篇文献进行评估;另 一个挑战在于对每篇文献都进行检查会减缓搜索。为了解决这一问题,一个基于知识的 查询预处理可以将搜索空间约束到一个小序列的文献集中。基于双重模型,生成一个匹 配于搜索标准的小而全的相关文献集是完全可能的。

有两种途径来缩小搜索空间。一个是通过文献类型层次确定文献的类型,这样可以使 搜索只集中于该类型的文献。通过借助查询规定的信息查阅系统目录,可以确定文献类 型。文献类型层次中一个较深节点(可理想化为一个叶节点)代表的是一个较小的文献集 。由于用户只知道文献概要的类型,因而对搜索引擎来说,最重要的是根据用户在检索 式中规定的信息,确定最准确的文献类型。根据文献的存储结构,同类型的文献被存放 在一起,因而一旦文献的类型被确定后,定位文献的过程将是高效的。得益于文献存储 体系,如果书龛的基本特征与检索的规定相符,则搜索的空间甚至能够固定到某个特定 的书龛中,也就是某文献类型的子集中。

另外的一个途径是从文献的文件组织入手。在现实的世界里,文献被组织到各个文件 夹里,每个文件夹所包含的文献都与某个特定的目的有关,文献只要能确定其对应的文 件夹,就能够在该文件夹中方便快速地被找到。从用户角度来说,文献是根据预先定义 的归档标准来进行组织的,因此可以通过将检索范围缩小到某特定的文件夹内而使文献 的检索变得更加容易。这里关键的问题是,如何才能更有效地确定包含了相关文献的最 小文件夹或文件夹子集。这一过程需要知识库中良好组织的知识和谓词赋值引擎高效的 赋值处理。为了加速确定包含相关文献的最小文件夹或文件夹子集,搜索标准可以被置 入缓存来避免对同一标准的重复处理。

理论上讲,当文献的类型和其所在最小文件夹被最终确定后,搜索的空间就会大大地 缩小。当然,一个文件夹往往会包含几种文献类型,因此对于指定的文献类型,可以通 过取该文献类型的文献与最小文件夹中文献的交集来确定更小的指定文献类型的文献集 。假设T是通过指定文献类型得到的文献集(可以是整个的书架或一个书龛),F为通过文 献的文件组织确定的文件夹,搜索结果则会是T和F中的较小者或它们的交集。如果对交 集的运算能高效地处理,那么这种方法将是不错的选择。幸运的是在三层文献存储体系 和双重模型的配合下,这种交集的运算是可以高效进行的。根据文献的存储体系,实例 会按照文献的类型层次物理地存储在第二层。文件组织层,作为逻辑存储层,则包含了 指向存储在第二层的实例的物理地址的指针。通过浏览指针,人们就可以知道实例属于 哪种文献类型,或在哪个书龛。因此一次对指针的扫描就可以产生T和F的交集,这比单 纯搜索T和F的较小者要高效得多。因为浏览指针比浏览文献要快得多。

当搜索空间被缩小到一个较小的文献集后,文献就会基本上与查询相匹配了。这时只 有满足检索标准的文献才会被返回给用户。这一匹配过程是需要的,因为最先的预处理 只保证了在候选文献中包含了所有相关的文献,但并不一定所有文献完全满足于查询的 要求。这一处理过程可以是基于知识或基于内容的,并要遵从查询标准。关键词标准要 求的是文献某一部分(属性)要与关键词匹配。对一个单独的词的匹配,索引技术能够避 免耗时的词项匹配。因为实例实际是对原文献的基于文本的摘要,对词项的匹配在未被 索引的部分也是需要的。如果查询中规定了高级别的标准,那么在判断与评估某个文献 是否满足标准就需要基于知识的匹配。

对一个高效的检索来说,必定包括了用以缩小检索空间的有用的信息以及上述的可以 提高检索有效性与效率的检索策略。一个缺乏效率的检索,例如一个只包含关键词标准 的检索,将不得不迫使搜索引擎既返回大量低准确性的相关文献,又耗时耗力地在检查 大量文献上下功夫。因此一个高效的检索应当不仅包括可以确定需求文献的标准,而且 还要有相关的信息来帮助搜索引擎快速地将检索范围缩小到一个小的文献集中。用户如 果能定义文献的文件组织和类型层次,那么可以假设用户能够提供信息或线索来确定哪 个文件夹包含了相关的文献,在哪种文献类型中可以找到所需文献。问题是该如何帮助 用户来描述与规范这种信息。在下一节中就介绍了一种导航搜索工具来帮助用户描述与 规范关于需求文献的必需和有用的信息。

5 智能搜索工具——导航搜索

导航搜索实际上是一个文献检索的智能用户界面,它通过与用户进行简单的对话来构 造和生成检索式。导航搜索的主要目的是为了帮助对查询语言不熟悉或对系统知之甚少 的新用户进行文献的检索。而经验用户也可借助导航搜索工具来产生一个初始的检索式 ,然后再以此为基础来构建最终的检索式。在导航搜索的帮助下,经验用户可以更容易 地明确他们的检索目标并尽可能地减少拼写之类的错误发生。

使用导航搜索的另外一个原因是它可以提高检索的有效性与效率。在数据库中,一种

SQL语言能多快地被响应,不仅与数据库有关,而且与检索式本身有关系。高效的检索 能利用数据库本身的调谐来获得一个更快的响应。基于知识的文献检索效率取决于从用 户那里收集到的信息。利用在文献归档过程中形成的知识库,导航搜索能告诉用户什么 信息对快速地找到文献是最重要的。

导航搜索通过提出一系列简单的问题来从用户那里收集信息。一般最重要的问题会首 先被提出,随后的问题都是基于用户对前面问题的答案提出来的,这样就避免了不相关 信息的收集。越多的信息被收集,则生成的检索式越精确。用户可以决定何时结束问题 的回答,系统也能判定收集的信息是否已经足够。

导航搜索组件包括了一个智能提问器,一个推理引擎,一个问题库,一个规则库和一 个基于谓词的检索式构造器。

5.1 问题库

导航搜索通过简单的问题来收集与需求文献有关的信息和知识。问题库包括了能够提 供给用户的所有问题,而所有的问题又是基于双重模型的。正如在基于知识的搜索引擎 中讨论的,通过这些问题收集到的信息是搜索引擎可以快速地根据文献类型层次与文件 组织确定搜索范围和高效地检索到相关文献的关键。问题库可以被分成两部分:一部分 是与文献类型相关的问题,一部分是与文献的文件组织有关的问题。其中的每一个问题 都对应一个谓词模板,它主要是用来对基于问题的答案产生一个谓词。问题与谓词模板 间的联系决定了一个问题和一个谓词如何从前者转为后者。

5.1.1 子库1

问题子库1关注于与文献类型层次有关的问题。它包含了两个方面:一个是对文献类型 的提问,一个是对其内容的提问。

Question 1:What is the document type?

Predicate template:Type(FI,“Value”)。

这一问题总是提问给用户的第一个问题,其答案将是借助模板来产生的一个谓词。一 个层次下拉菜单将被提供给用户来选择文献的类型。

Question 2:What is the content of the document?

Predicate template:Attribute(FI,“Value”)。

紧随第一个问题,系统将要求用户描述文献的内容是什么。这一问题同一个模板一并 提出让用户来填写该模板中每一个属性的值。该模板可以随时根据用户对第一个问题答 案的变更而做出相应的改变。通过使用谓词模板,每一个属性的值都将产生一个谓词。

5.1.2 子库2

问题子库2关注于文献的文件组织的有关问题。这组问题是动态的,问题根据文件组织 的变化被动态地添加、移除或改变。根据对话内容,该组问题中只有部分会被提出。每 一个问题所问及的是与文献相联系的一个对象的相关知识,一个问题是否会被提出取决 于它是否有助于缩小文件夹范围。这些问题被组织为问题树。每一个问题树包含了与某 一对象相关的问题,而在问题树上的每一个节点都代表了一个问题。一个从父节点到子 节点的链接表示父节点对应的问题应先于子节点问题被提出。

问题子库2是基于知识库而生成的。如前所述,知识库中包含了一系列领域的知识,每 一类对象就对应一个领域,而一个对象对应的领域知识片段则会被运用到文献归档中。 因此,当问及有关在领域知识中描述某个对象对应的知识片段的问题时,其答案能够帮 助搜索引擎在文件组织中快速地缩小范围。该系列问题的模板如下,其中的特性(

Property)、对象(Object)、领域(Domain)和值(Value)都是变量。

Question:What is the property of the object[in domain]?

Predicate template:property(object,value[domain])。

Selection List:a list of values。

在问题子库2的每一个问题都有一个选择列表提供可能答案的序列。每一个问题的产生 都是通过将特性property和对象object用真实值的取代来完成的。当问题被提出时,

domain变量将根据用户与导航搜索界面的对话来赋予真实的值,而变量value则通过问 题的答案来赋值而产生谓词。

5.2 规则库

规则库是用来规定和控制用户与导航搜索界面对话的规则集合。通过这些规则,系统 就可以判定在特定方案下哪些问题对于提高检索效率最重要,同时这些规则还判定在什 么样的情况下收集的信息足够提高检索效率,然后结束对话。规则库还定义了诸如问题 的提出顺序以及判断问题在问题树中的位置等相关规则。导航搜索界面包括两个部分: 固定的部分是针对问题子库1的,在问题子库1中的两个问题是始终会出现在界面中的; 而动态的部分则是针对问题子库2的,问题子库2中的问题由推理引擎选择出来并逐个提 问给用户。

5.3 推理引擎

推理引擎是用于确定问题的提出顺序的。为了做出选择,推理引擎需要利用在系统中 的各种资源,包括问题库、规则库和文献的文件组织。在最开始,作为界面固定部分的 两个问题在按要求被回答后,推理引擎将被智能提问器调用。推理引擎根据对话内容运 用规则来决定哪一问题紧接上一问题提出。如果上一问题是问题树上的叶节点,推理引 擎将会检查文件的组织来判断其是否为一个转换节点。如果该节点是一个转换节点,则 规则将使搜索离开当前的问题树而移到另一棵问题树的根节点,否则推理引擎将告之智 能提问器已经没有问题要问了。

5.4 智能提问器

智能提问器在整个导航搜索中占有中心地位。它通过向用户提问并记录答案来与用户 进行交流。它调用推理引擎来获得下一个问题,并且以友好的方式向用户提出问题。它 核对答案是否符合要求,然后再根据谓词模板和合法答案来调用检索式构造器。

5.5 检索式构造器

检索式构造器根据智能提问器通过的问题与解答的谓词模板来构造一个基于谓词的检 索式,如果某个问题只有一个答案被通过,则检索式构造器则生成一个谓词来代替对应 问题的谓词模板的值;如果一个问题有多个答案通过,则会有多个谓词产生并用操作符 “或”来连接。每个谓词都与谓词模板格式相同,并被代替相应答案上的值。当智能提 问器的问题提完或用户决定终止答题时,检索式构造器则会最终将每个问题对应的谓词 用操作符“和”连接起来构造出检索式,并将它提供给用户并根据需要进行修正。完成 上述步骤后,检索式将会被提交给基于知识文献搜索引擎处理。

6 结论

本文介绍了一种基于知识的文献检索方法,该方法采用了两种不同的用户界面。利用 基于谓词的查询语言,经验用户可以直接精确地运用检索的标准和用户需求文献的有关 知识来构造检索式,而该方法中的检索导航则为辅助无经验用户规范检索式提供了一个 智能的用户界面。借助导航搜索提问,收集并获得用户所需文献的相关信息,智能提问 器和推理引擎可以遵照规则库中的相关规则从问题库中产生系列的问题,然后再通过基 于谓词的检索式构造器产生基于谓词的检索式。

基于知识的文献搜索引擎可以快速地验证文献与查询的相关性,得益于双重模型和多 层的存储体系。该搜索引擎还可以有效地处理用户的查询。

基于谓词的文献检索语言可以使用户准确规定检索标准和表述需求文献,因而它比关 键词检索有着更高的可靠性。

该方法的提出是基于知识的文献检索的方法论,该方法在不牺牲检索效率与检索系统 的易用性的情况下方可以进行更为精确的检索。在该双重模型中,文献如何被组织与文 献的内容结构一起作为知识被用于对文献的检索之中。基于谓词的查询语言有益于用户 更精确地描述所需文献。而这正是提高文献检索效率所需要的。因此,该搜索引擎能更 明确用户的搜索目标。为了更易于使用,系统还开发了导航搜索来帮助用户构造检索式 。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

一种基于知识的文献检索方法_文献检索论文
下载Doc文档

猜你喜欢