基于本体的网络科技信息资源定位导航方法_科技论文

基于本体的网络科技信息资源定位和导航方法,本文主要内容关键词为:本体论文,网络科技论文,信息资源论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

收修改稿日期:2007-03-28

【分类号】TP182

1 引言

目前,因特网上科技信息资源的定位由统一资源标识符(Uniform Resources Identifier,URI)相关技术实现。其定位的基本过程是,从用户端浏览器发出的URI被IP协议及其下一层协议技术封装为数据报,数据报首段的IP地址被解析后被路由到目的IP地址的服务器,再由IP目的地址的服务器应用层协议软件解析URI中的目录(主机端口和文件)。导航的过程类似于搜索过程,即在逻辑上由定位和导航服务器建立用户输入的字符与IP地址的映射。该定位技术的局限性如下:

(1)定位的目标是通信节点的物理设备,即服务器或通信设备,而科技信息资源基本没有设置定位符,这样用户不能直接定位科技信息资源而只能定位到科技信息资源所在的硬件设备。

(2)资源定位符含有的语义信息较少,不能充分反映科技信息资源内容,基本上是简单的映射而缺少复杂语义和逻辑表达。

(3)定位符由互联网管理机构命名(分配)而非资源拥有者或申请者自己命名,命名效率较低、交互性差。

因此,科技信息资源的定位和导航技术需要考虑解决上述3点不足,特别应充分考虑体现科技信息资源的本质特点。

2 相关的改进技术

针对上述不足,近几年产生了一些改进技术[1],如:AAP(美国出版协会)的DOI(Digital Object Identifier)技术(1998年)[2],主要针对出版物。它产生的定位符由前后两段组成,前者是独立于网络的唯一数字标识编码,如ISBN号,后者是DOI组织分配的注册码。通过OpenURI建立DOI与URI的映射,实现DOI标志物在因特网上被定位。

美国科技信息出版集团的PII(Publisher Item Identifier)技术(1995年)[3],主要也针对出版物,但是不能实现网络定位。它产生的定位符由4段组成,1段是出版物类型,2段是ISSN或ISBN号,3段是出版年代,4段是校验位。

美国OCLC(Online Computer Library Center)的PURL(Persistent Universal Resource Locator)技术(2000年前后)[4],主要用于标志计算机存储的文件。命名规则是:协议://解析地址/名字。解析地址是PURL的IP地址,名字部分由用户自己命名。其作用是使唯一编码的网络资源获得永久的资源定位器(URL),该标识符不随物理地址的变更而变更。

美国Library and Publishing Communities的Info URI技术(2003年)[5-6],该技术广泛用于标识网络资源。命名规则是:Info:命名空间/特定的命名空间。其作用是使唯一编码的网络资源获得永久的URL,该标识符不随物理地址的变更而变更。

Van De Somepel创立的OpenURL技术(1998年)[7-8],命名规则是:OpenURL服务组件的IP地址/对象数据和元数据的描述性信息编码。元数据中可包含DOI等命名空间。定位对象是通用网络资源,其功能是通过用户给定的元数据中的URI属性数据将OpenURL对象映射到URI地址。

美国CNRI(Corporation for National Research Initiatives)的Handle System技术(1997年)[9]。该技术广泛用于标识网络资源。命名格式规则是:Handle Naming Authority/Handle Local Name,它由前后两段组成,前者是Handle System分配的全球唯一的编码(Handle命名权),后者是用户自己定义的在本地唯一的标识码。基本作用是通过用户给定的元数据中的URI属性数据,由Handle System将Handle映射到URI地址。

中国互联网络信息中心关键词网络资源标识符技术(2003)[10]。主要用于标志网络资源。命名规则是:前部分是中国互联网络信息中心的关键词解析服务器地址,后部分由关键词、网络资源URI、属性、类型四部分构成,其中类型包括语言、地理位置、产业类型3项。通过用户给定的关键词由解析服务器映射到确定的URI地址,否则交给搜索引擎进行关键词和URI地址的模糊匹配。

以上各种改进技术生成的网络科技信息资源的URI的结构是多样的。不同于改进前的定位方法,上述改进技术都没有要求用户直接输入科技信息资源的IP地址(因为有时用户可能不知道资源所在的IP地址,或者该资源所在的IP地址可是能变化的),而是输入如下两种符号中的一种(对应两种方法):

(1)A种(DOI、InfoURI、Handle System技术所使用的标识符):用户输入的URI是科技信息资源的唯一性编码,它们不包含解析服务机构的IP地址;

(2)B种(PURL、OpenURL、关键词网络资源标识符技术所使用的标识符):用户输入的URI的前一部分包含定位解析服务机构的IP地址。

两种方法都是将URI数据报传输给定位和导航机构(技术提供者)设置的服务器,再由相应服务器对全部URI进行解析(解释语义),解析后根据该机构自己建立的映射表和用户确定的参数将用户的请求链接到用户需要的科技信息资源的IP地址(定位),或直接提供这个(些)IP地址(导航)。这样,科技信息数字对象(期刊、书、论文等)就可以实现在网络上的直接定位,从而解决局限性(1),并在一定程度上解决局限性(3)。但是,除关键词网络资源标识符技术外,其它技术对局限性(2)基本没有改进。因为定位符基本不含语义信息,在本质上定位仍然是通过数据库中标识符对确定的因特网地址进行匹配,这种匹配与标识符语义的相关性仍然是比较低的。

关键词网络定位技术对解决局限性(2)提出了解决方案。它的特点是允许用户输入关键词,由关键词网络定位解析服务器先进行关键词与URI的精确匹配,在精确匹配失败后进行模糊匹配。该方案引入了包含自然语言字符的语义进行定位,是一个重要的方法和技术突破,但它仍有待改进之处:

(1)关键词由用户随机选择,命名空间无限制,使得关键词网络定位解析服务器对URI的精确匹配不可能完全实现;

(2)由于缺少定位服务机构与资源供应者的双方约定,使输入的关键词匹配URI资源如何符合用户的需求方面缺少约定;

(3)缺少更丰富的语言手段以描述用户的需求,即在定位符中虽然有语言属性类型、地理位置属性类型、产业范畴属性类型的描述,但仍需要继续扩展语义描述和相应的解释功能,特别是对于拟定位和导航的资源对象进行知识描述及相应定位的功能。

3 基于学科本体的资源定位和导航方案

基于学科本体的资源定位和导航方案的基本流程是,在URI中加入资源定位和导航服务者的IP地址(上述B种定位符方案),URI所在的数据报被发送至资源定位和导航服务者的IP地址所在的服务器,再由该服务器对URI中该机构的IP地址字段之后的部分进行解析,并提供相应的定位或导航服务。本方案将关键词网络资源标识符技术规定的用户在URI中输入的关键词、网络资源URI、属性、类型(4元组)改为角色、资源描述空间层次号、资源对象唯一标识码、本体关系运算的限定范围、学科本体5个参数,加上定位和导航机构的IP地址,形成URI的6元组,即:

基于本体的定位标志符=〈资源定位和导航服务者的IP地址,角色,资源描述空间层次号,资源对象唯一标识码,本体关系运算的限定范围,学科本体〉

以上方案即可实现服务器端程序对用户角色、网络科技信息资源体系结构层次、用户提供的参数(本体及其关系)的认知,并按照这种认知结果实现资源定位和导航。其中,角色、资源层次将直接在定位和导航机构映射为服务器认知的或用户指定的科技信息资源,而用户输入的本体及其关系将被服务器产生相应知识,并按照知识与科技信息资源的拟合度提供所匹配的科技信息资源。流程和框架结构如图1所示。

图1 基于本体的网络科技信息资源定位和导航方法流程和框架结构

本方案主要采用4种关键技术:

(1)按照角色和资源层次对科技资源进行分类及映射

基本方法是:由资源提供者和资源定位和导航服务机构共同约定分类方法,由资源定位和导航服务机构进行资源分类。约定的方法是由资源定位和导航服务机构提供知识描述语言,由定位和导航服务的用户确定需求参数(属性)。参数定义应包括资源空间层次号和角色。

①资源空间层次号:资源层次的编码,资源层次是对因特网资源的初步分类。其中,第3层(资源层次编码为3)指语义层,即概念及其关系组成的语义网。第2层(资源层次编码为2)指抽象层,即概念相关的文件。第1层(资源层次编码为1)指物理层,即连接在因特网上的物理实体,如传感器、机器人、设备等,特别是在IPv6环境下,物理实体数量将明显增长。每层编号可以分成不同级别,如第2层的编号可以按照科技信息资源文档种类进行多级、多类编号。

②角色:指用户对自己的定位需求的一种类别定义。例如,可以定义4种角色:浏览者、操纵者、买者、卖者。浏览者仅是文献信息获取者;操纵者是通过网络直接操纵链接于因特网的物理实体的用户;买者是希望浏览产品和服务销售信息的用户;卖者是希望浏览购买产品和服务销售信息的用户。设置角色的意义是根据用户的需求进行资源定位的导航。对于每一种角色,资源定位服务将使用户连接到不同类别的资源。

可见,对于科技信息资源的浏览者,其“角色”是执行定位操作的一个编码,该定位操作定位到网络科技资源的某一层次,或者定位到第2层资源集合的某一子集,即有:

这样,就实现了机器对角色和资源层次的理解,建立了角色和资源层次号代码与资源的映射关系,使得用户被定位或导航至相应的角色和层次分类下。

(2)基于本体节点及其关系的知识生成方法以及本体和资源的映射

根据用户给出本体的(原)概念节点及其关系,由系统给出在该关系上对应的目标概念节点,从而由(原)概念节点、关系和目标概念节点构成一条知识。例如:用户输入“水”节点和“加热”关系,系统生成“水蒸气”目标节点,它们表示“水加热可以产生水蒸气”这一条知识。

本方法将学科本体定义为4元组,即学科本体由学科术语概念、概念的属性和属性值、概念间的关系以及由若干关系确定的函数构成。这些元组的数值(参数值)构成词典样本空间,它以插件的方式提供给浏览者。

①学科分类术语概念(简称概念)或学科关键词,即关键词名录。

②概念的属性即构成概念本质特征的属性,属性值是属性的定量或解释性的描述。

③本体中概念间的关系已经开发出多种。一般而言,名词性概念基本的语义关系包括:类属关系(A_kind_of)、包含关系(A_part_of)、属性关系(Have)、时间关系(At)、位置关系(Located_on)、临近关系(Near_to)、组成关系(Composed_of)、推论关系(Infer)等。动词关系需要考虑与名词的结构特点单独设计。

这个过程包含本体关系运算,即求关系的(目标对象)值域。其方法是对具有映射关系的数据空间进行列举或排序。映射由领域专家给定,由此生成本体的(原)概念节点、关系及关系对象,三者构成一条知识,描述了用户对其目标资源所陈述的对象(主体),以及这些对象可能与其它对象之间的关系(量纲或框架)。

(3)知识与科技资源内容拟合度计算

从知识到资源的映射方法可以借鉴从本体到资源的索引方法,这种方法目前仍然是词组向量与被分析文本的相似度方法[11],即依据本体节点向量与文本向量的距离进行排序,超过阀值即被映射。笔者提出改进对被分析文本进行语法分析的方法:不仅分析知识表述中的词汇(作为词汇特征矩阵)与文本的距离,而且还分析在同一特定语法结构下的知识表述中的词汇和文本中的词汇的距离,使得机器对内容的理解不只基于词汇概率分析,而且还建立在语法分析基础上。定义知识与科技资源内容拟合度计算方法如下:

(4)基于本体的统一资源定位符的编码和解析

在基于本体的定位标志符6元组中,本体关系运算的限定范围指下列3种限制:定义域限制、关系限制、值域限制。

①定义域限制指限制关系定义域的元素数量,只选定其中部分元素作为求解关系运算的起点元素。设R∈X→Y,AX,则AR表示将R的定义域限制到A上。例如,求某一概念的关系运算即将A设定为该概念。

②关系限制指确定关系中映射的次数,即对笛卡儿积中的n进行确定,如设n=2即对关系限定为2元关系。

③值域限制指选择关系的映射目标集合的子集。它们的作用是防止关系运算结果过多而限制结果的数量。

资源对象唯一标识码类似于DOI编码技术,它是用户在加入因特网之前获得的唯一标识。这个编码可以是空缺的,其目的是使用户在不知道资源对象唯一标识码的情况下获得相关资源,如果用户知道资源对象唯一标识码,则可直接获得该资源。

在基于本体的定位标志符6元参数由用户确定后,前一段代码完全遵守IP协议,使该标识符标志的数据报被传输至定位导航服务机构,并进行标识符后段的解析。由于用户输入的标志符后段经过应用层协议,客户端与服务器端完全可以由共有的软件进行编码和编译,即执行C/S结构的标识符字符串的编码和编译。此外,如果需要用二进制编码方法对基于本体的定位标志符6元参数进行编码,也可以实现。其中,角色、资源描述空间层次号和本体关系运算的限定范围比较容易编码(编码量较小)。而用户输入的学科本体节点编码将比较困难。本文提出的方法是用二进制对不同节点编以唯一码。对于本体树,不同层次节点可用若干位“0”分割(从根节点算起每增加一层就增加一次若干位“0”),同一层次的不同节点可以依次增加“1”的数量。这样,确定的角色、资源空间层和学科本体就可以确定编码。

在这一体系结构下的资源编码可能不是唯一的。为此需要进行资源的唯一性编码。如果用户在因特网资源注册前已经有类似于DOI编码,则可以由科技信息资源定位服务中心分配需要映射的IP地址,方法如OpenURL技术,如果用户在因特网资源注册前没有类似于DOI唯一编码,则需要由科技信息资源定位服务中心分配唯一的因特网资源标识编码,如按照注册时间顺序依次编码。

定位和导航服务机构可以将定位标志符中本机构IP地址字段后部分的角色、资源层次映射至对应类别,对本体及关系进行运算,产生知识,并查询该知识与资源的映射,由于资源所在IP地址由资源注册者向资源定位和导航服务机构在注册时提供,或由资源定位和导航服务机构建立了本资源编码和IP地址的映射,这样系统最终获得了标识符与资源的映射,即定位和导航服务机构提交定位和导航资源的IP地址给用户,得以在TCP/IP协议下链接。

4 应用实例

用户输入如下定位符:

〈资源定位和导航服务机构的IP地址/浏览者/文献/专利/资源对象唯一标识码(空)/2元本体关系运算/水/加热〉

它表示用户选定本定位符所在的数据报首先路由至资源定位和导航服务机构的IP地址,用户的角色是浏览者,用户需要的导航到的范围(资源层次)是文献中的专利,用户不提供定位对象的唯一标志码,用户需要进行2元本体关系运算,在本体词典中选定的本体的节点是水,选定的本体的关系是加热。

按照IP协议,该定位符将首先被路由至资源定位服务者的IP地址的服务器,该服务器将在选定文献中的专利的文献类别作为目的IP地址范围(子集)。然后进行生成知识的本体关系运算。由水的本体节点和关系进行运算从而得出水加热的结果的节点词汇,例如生成“水加热生成水蒸气”的知识,然后在导航范围内的文本中,进行该知识和文本的映射。在给定的文本中,主语“水”和“水加热”的频率被计算,在本体中,“水加热”后的关系节点“水蒸气”“热水”“开水”被检索出,则这3个词汇生成为向量O,而在选定的文本中,“加热导致”和“加热生成”这两个字符串后面的词汇(或由词法分析器分析的“加热”动词产生的宾语)成为向量V,计算O和V的重合度。“水”和“水加热”的频率以及O和V的重合度被加权后产生一维数值,即水产生的知识与该文本的拟合度。由拟合度进行文本排序,该文本的IP地址,即是用户输入的字符串与目的IP地址的映射。

5 结语

上述设计进一步解决了局限性(2)的问题,即加强了对资源构建和发现的语义解释和理解,在很大程度上也解决了局限性(3)的问题,即由原来的定位服务机构命名改为定位服务机构和用户双方命名,从而可以初步实现基于语义理解的网络科技资源的定位和导航,即网络科技资源的认知。

语义网的定义和倡导者Berners-Lee将本体设想为URI层之上的应用,没有设想在URI的解析和编码层应用本体技术[12]。在本质上,本文提出的在URI中加入本体及其运算以及其它语义描述的技术改进了语义网的这一体系结构,它使本体的层次扩大到URI层,为语义网的应用开辟了新的思路。

(本文得到中国国家图书馆数字图书馆工程总工程师孙卫先生的指导,特此致谢!)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于本体的网络科技信息资源定位导航方法_科技论文
下载Doc文档

猜你喜欢