语义检索技术研究_聚类论文

语义检索技术研究,本文主要内容关键词为:语义论文,技术研究论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 语义检索概念

语义检索又称概念匹配,即自动抽取能够描述文献内容的概念,用文中的关键词或与之相 应 的主题词加以标引;用户在系统的辅助下选用合适的词语表示自己的信息需求;在此基础上 两者之间执行概念匹配,匹配在语义上相同、相近、相包含的词语。例如,用户要查询的是 “操作系统”,“UNIX”也是与之相匹配的词语[1]。

语义检索不仅是信息检索的一门技术,它只有在相应的信息基础结构上才能实现。特别是 在一个由分布的、异构的信息仓储构成的网络信息环境中,语义检索的实现基础是仓储间语 义联邦的概念匹配——语义互操作。在信息集成环境下,人们需要实现跨主题资源的互操作 ,实现用户与系统的一种交互式的导航,实现专指度很高的概念检索,这就用到了词表技术 。当今,词表技术研究的一个重要发展趋势就是与网络检索这类应用系统的结合[2]。

目前美国伊利诺大学与亚力桑那大学正在研究被称为“信息交互空间”(Interspace)的项 目,目的是建立的一种多媒体信息的语义索引。这种语义索引是建立在一种概念空间(Conce ptspace)基础上的,它是基于概念与分类的聚类统计这样一种思路,首先需要从某一网络上 的各资源单元中逐步抽取出某一主题领域的相关概念,形成某一主题领域的概念空间词表, 然后利用“自组织图像”方法(SelfOrganizingMapSOM)形成概念图,由此形成概念空间[3] 。

2 信息交互空间

信息交互空间(Interspace)是UIUC的DLIB项目提出的一个信息基础组织结构。Interspace 的 体系结构将互异的分布的信息资源统一在一个一致的模型里,它是一个互连的信息空间的集 合,每个成员信息空间是一个互连的对象的集合,其中包含了某社区或某主题域的知识。网 络上的每一份电子文献,在信息空间中都表示为一个对象。

交互空间研究项目是对大量真实的收集的信息建立多媒体信息语义索引的模型环境,语义 索引依赖于概念和分类的统计聚类,基于语义索引的交互式的导航可以对更大、更多的信息 量进行更深层次的信息检索。正在研究的方面是:自动抽取概念和用计算机确定概念空间、 分类图和实现概念分配。主要收集的内容是:工程学文献、地理图画和医学文献。交互式的 模型能够在不同对象领域、媒体类型和收集范围实现可升级的交互式的语义互操作。

该模型的基本抽象是一个特殊的对象:信息单元(IU)。它是系统中的基本组织单元。通过I U的拼合和协作,支持复杂的互操作应用。标准的服务包括:对象间互联,远程执行,对象 缓存,支持复杂对象等。Interspace力图在一个灵活的、一致的、可伸缩的系统中表示所有 的数据或对象类型。

Interspace系统由三层组成:应用层,提供与用户的接口;应用编程环境(APE)层,包括编 写各类高层应用所需的通用服务,APE为在Interspace中编写程序提供了一组简单的通用对 象 (如文献和数据库)和一组通用高级服务(如出版控制和收藏分析);系统编程(SPE)层,包括 信息空间和IUs基本功能,这是Interspace的核心。如图1所示。

IUs是Interspace系统的基本抽象,它们把所有的数据类型封装起来。类型强制器用于位置 类型间执行类型转换,它引入了一个包装系统,用于封装外来对象,使它们表现得象内部对 象一样。查找和索引是Interspace的一个基本功能,大多数复杂的IU产生一个可索引的版本 ,使其可在Interspace中被查找。显示和交互IU提供一种或多种方式与用户交互。这些交互 单元称为视图(views),视图可以相互嵌入。通信是由一组独立且互操作的成员控制和完成 的。结构类型系统负责管理Interspace中的对象类型,它包括一个完全的对象描述语言。永 久对象存储保存系统中的所有对象,并负责其他Interspace结点和其自身的交互。外部服务 将Internet的服务和标准的网络通信映射到Interspace中,以允许Interspace对象和Intern et空间直接通信。

在概念空间互连和语义匹配的支持下,Interspace提供对知识跨网的透明操作,其基本功 能 是互连信息空间,以完成跨仓储的信息关联。用户在Interspace中选取相关的导航路径,系 统自动记录下来,然后以此路径去匹配其他仓储的相关路径,实现全网的无缝语义检索。 3 概念空间

3.1 概念空间

所谓概念空间是指一种基于个别文献中的以及所有馆藏中的共生词而自动产生的词表。通 过概念空间界面,用户可以直接使用关键词搜索文献或利用词汇提示进行搜索。用户可以通 过界面输入单个字,词组或多种检索词。这时搜索界面会在一个显示框中显示按与用户检索 词相关程度排序的概念空间词汇,用户可以从中选择合意的词添加到搜索框中,以提高检索 的精确度。

词表的自动生成在计算机科学中越来越重要,在NII数字图书馆项目的资助下伊利诺斯大学 和 亚里桑那大学得到了发展。概念空间词表是基于混合的符号/数字的计算,这些混合的符号/ 数字决定了信息收集源中的各概念的相互关系。概念关系的结果图构成了一个概念空间 ,可以精确的表示查询。例如,概念空间使用在交互式的查询方面是伊利诺斯大学图书馆试 验的一部分,这种运算方法用于反复的查询精练,以整合概念空间的运算。

在概念空间的生成过程中,每个ConceptInDomain对象经过域阀值的函数生成一个ConceptI nCS对象。在这步里两个阀值函数被使用,源阀值函数和聚集阀值函数。生成过程使用类似 的函数,只是修改了ConceptInCS对象。阀值函数是用来排除在概念空间计算机中相关的不 重要的ConceptInCS对象。这是因为一次无法同时计算每个ConceptInCS对象。但是,当计算 机硬件设施进一步提供时可能会有所改变。当旧的ConceptInCS对象被保存或重新生成Conce ptInCS对象,ConceptInCS对象列表会被修改。由于当前的列表占据了很大的空间,计算进 行 时,会出现选择项:是保存还是删除。当前的对象计算后,就由它产生类似的列表。列表表 示每个ConceptInCS对象的相似矩阵。这些矩阵构成了概念空间。

通过概念空间词表界面,用户可以随意输入任何一个单词、词组或多种检索词。这时搜索 界面会在一个显示框中显示按与用户检索词相关程度排序的概念空间词汇,用户可以从中选 择合意的词添加到搜索框中,以提高检索的精确度。目前美国伊利诺大学与亚力桑那大学具 体已开发出了基于为美国国防高级研究署信息技术办公室(ITO)国防科技项目研究报告摘要 信息的主题概念空间(ITOSPACE)及其概念图(ITOMAP),开发出了基于美国癌症医学数据库的 癌症概念空间(CAMCER SPACE)和癌症概念图(CANCER MAP)[4~13]

概念分配者(Concept Assigner)以各种Hopfield网络为基础进行自动主题索引。概念分配 者首先生成一个概念空间,概念空间表示在一个整体内概念(节点)和它们的关系(权重)的Ho pfield网络。

为了自动索引单篇文献,MCE从文献中提取概念进行探索,这些概念成为网络中的输入模式 。经过Hopfield网平行分布激活过程,网络输出产生了一系列与输入概念关联性很强的其他 概念。由于最初的概念空间包括所有收集到的知识,系统可以找到一系列从收集的内容提取 的综合的概念,而不是被限制在给定的文献所表达的概念。这些概念类似于文献的概念描述 。

3.2 分类图

CMap是SOM的特殊中心网络的一种方法。CMap用于在不知道内部结构的情况下对文本文献和 图像进行聚类或分类。见右图。

由cMap产生的分类图以三维图的形式显示,用户可以深入探索或浏览数据站点。信息空间 飞行可以使用户浏览大量的未知数据站点。用户可以很快的放大感兴趣的区域,然后采用传 统 的方法进行查询。这里采用的是被称为cMap的一种SOM算法的特定的方法,对文档的大量信 息进行聚类和分类。这种特定方法比基础的SOM算法有更多的优点,大大提高了运算方法的 数量级。cMap可以将文档的最初的多维的数据形式,生成一个二维的文档聚类的数据空间或 图。通过对这张图的文献分布进行考察,可以生成一个可视化的三维地形图,能够很容易的 表示文档聚类之间的关系和相似性的程度。目前的交互空间的原型包括:几个学科领域和一 个可以在这些学科领域之内或之间进行概念导航的分析环境。

概念图利用自组织图形方法(SOM)将信息集成分成不同的概念上的类。SOM是一种类似于神 经系统的网络,可以通过向量转换,将多维特性向量图转换为二维的图形。多层概念图用于 形成大的信息集的多等级分类。

有几种方法已经被使用在帮助用户查看多等级的分类。这种方法将二维输出图转化为三维 地 形图,用户经信息飞行(information spaceflight)的导航可以研究语义位置的聚类。

3.3 概念空间的信息聚类:NIST可视化信息检索方法

NIST信息检索方法是一个三维界面,通过很好的导航和操作使用户对文本文献的浏览和对 个别文献的详细内容的了解提高信息检索的能力。用户可以通过添加相关的查询词到概念列 表以重新定义显示空间,或简要说明这些概念的相对重要性。文献聚类就是以用户的输入为 基础的。我们假设这种3D制图法和精确的方法的结合是通过为用户提供比其它系统更有效的 界面来实现的。

对于用户已经通过有效的查询和检索方法获得大量的文献。但是用户通过搜索引擎的提问 经常导致大量相关的文献。我们认为,正确的使用交互式的3D可视化技术,可使大量信息较 容易理解的。随着NIST可视化信息检索方法(NIRVE)的推行,我们正在尽量减少容易损坏3D 显示的混乱和缺陷。目的是给用户:①在一般和详细两个层次都给用户一个无差别的文本信 息查询结果集。②给用户提供有效的操作,使用户能组织、筛选和考察文献集。

NIST可视化信息检索方法允许用户添加更能表达概念意思的相关的关键词;文献是以这些 概念为基础进行聚类组织的。用户可以控制聚类的密度,查看文献的篇名和全文,设定文献 和聚类的适当状态,然后再查看在这样状态下的子集。最后用户将个人的聚类或整个显示的 文献子集生成一个HTML摘要。

这里有一个研究模型试图利用聚类和3D可视化帮助用户处理查询结果。其它使用2D图直接 操作交互界面提供文献集的筛选并可使用文献内容。

目前的交互空间的原型包括:几个学科领域和一个可以在这些学科领域之内或之间进行概 念导航的分析环境。服务器端使用Versant对象导向数据库存储索引,用户端使用Parc-Plac eSmalltalk用户配置支持导航。Web页使用ClassicBlend软件将Smalltalk屏幕显示转换成Ja v a屏幕显示,以使所有的功能能在一个Web浏览器内激活。

现在的主要领域:结肠癌和骨关节炎(分别从美联机医学文献分析和检索系统的临床医学中 找到30K和10K的摘要)、人工智能(从COMPENDEX的计算机科学中找到20K的文摘)、亚洲经济( 从ABI/Inform的商业制造业中找到15K的文摘)。

为了通过Web浏览器进行交互空间远程访问,用户需要使用能浏览JAVA的浏览器,如IE4.0 和Netscape4.5。点击TRYDEMO按钮启动客户机程序。经授权允许,窗口会打开,一个独立的 程序会被打开,就可以和交互空间模型的多个窗口进行交互操作。

通过使用概念图和概念空间,可以对信息交互空间进行导航。

使用概念图进行导航,获得收集文献的区域,选择一个科目和问题子域,在子域中使用相 关词进行查找。浏览概念,然后阅读相关文献。选择合适的文献,进行显示。在文献中,相 关的概念被重点显示,导航可以由此继续。

使用概念空间查找相关条目和文献,当概念显示后,列表中不合适的条目前会有!注释。相 关的条目会被显示,导航由此继续进行。

标签:;  ;  ;  

语义检索技术研究_聚类论文
下载Doc文档

猜你喜欢