基于政府主题词表的本体构建研究_电子政务论文

基于政务主题词表的本体构建研究,本文主要内容关键词为:词表论文,本体论文,政务论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G353

对知识本体构建方法、表示语言、开发软件的研究,在国内外已经经历了几十年的历史。本文参考国内外本体开发利用的现状,结合国家自然科学基金资助项目“基于政务本体的信息资源类目自动映射方法研究”的成果,提出基于电子政务主题词表的我国政务本体开发方法。

1 国外一个本体应用的实例

E-culture是荷兰国家文化传承工程(The Dutch Cultural Heritage)中的一个项目,曾获得2006国际语义网技术挑战赛冠军。该项目尽可能集成大量的数据,包括OWL、RDF、HTML、网络标准和SVG等,将荷兰多家博物馆资料进行整理,用户可以通过互联网进行语义查询[1]。通过这个实例可以看到本体在具体案例中发挥的作用,基于本体的查询打破了各个博物馆之间的信息壁垒,通过简单的链接,可以由作品信息找到作者信息或者地址信息、时间轴表示的信息。这些联系用到几个本体库中的数据,其中AAT是艺术作品的信息库,ULAN是艺术家的本体库,TGN是地理本体库,SVCN是历史时期本体库。同时,还可以看到本体开发、存储对于本体重用是非常重要的。不同的本体分别存储有利于开发维护,也有利于映射和重用。

2 国内一个本体开发的实例

“国共合作”历史领域本体构建是“基于本体的数字图书馆检索模型研究”自然科学基金项目的一部分。由武汉大学信息管理学院教授、博士生导师董慧等人开发。该本体描述了从五四运动开始一直到前不久连战到访大陆的这段历史时期涉及的概念、术语、关系、个体。其开发过程主要包括:首先确定“时间”、“地点”、“人物”、“组织”、“资源”和“事件”6个核心概念;对核心概念进行扩展,自顶向下逐步细化其下一级子类;定义概念、术语和属性;本体编码;实例化;逻辑检测和评价;文档化。出于可重用性的考虑,将6个本体分别定义[2]。从这个实例可以看到,核心概念的提取是关键,另外,本体构建需要大量的实例输入,才可以达到语义的查询效果。

3 电子政务领域本体构建方法研究

我国的电子政务是一个大政务的概念,政务领域资源的特色是范围广,这一点可以从《综合电子政务主题词表》(试用本)看出。在其范畴表中将全部主题词按学科、知识领域以及部门职能划分若干范畴。其一级范畴21个,分别包括:01综合政务,02经济管理,03国土资源、能源,04工业、交通,05信息产业,06城乡建设、环境保护,07农林、水利,08财政、金融,09商业、贸易,10旅游、服务业,11气象、水文、测绘、地震,12对外事务,13政法、监察,14科技、教育,15文化、卫生、体育,16军事、国防,17劳动、人事,18民政、社区,19文秘、行政,20综合党团,21综合用语[3]。这些分类中农林牧渔都有涉及,大到国家小到地方,无论个人还是企业,只要与政府服务相关,都是电子政务的范围。再看其字顺表中:第一个词是阿昌族,其上位词依次是少数民族、中华民族、民族;第二个词是阿富汗问题,其上位词是依次是亚洲问题、地区性问题、国际问题、问题;第三个词阿訇,其上位词依次是宗教教职人员、宗教人员、人员;第四个是词阿拉伯联盟,其上位词依次是区域性组织、国际组织、组织;第五个词是阿拉伯语,其上位词依次是外语、语言[4],这些主题词分别属于民族、问题、人员、组织、语言,不同的方面代表不同的领域概念,完全可以分别建立不同的本体库文件去存储。由此可见,构建电子政务领域知识本体非常必要,但是本体的构建不是一朝一夕的事情,构建过程必须考虑应用范围问题。确切地说不可能凭借一个人或一个部门的力量,建成一个大而全的电子政务领域本体,让它涵盖全部内容,而且本体的构建要尽可能整合已有的业务应用系统,不但要整合网页上的资料信息,也要整合数据库中的资料信息。

参考上述两个国内外本体应用与构建实例,笔者认为,我国政务领域本体的构建需要模拟政务信息资源的产生、组织和服务过程,建立政务业务模型。在模型的基础上抽取核心概念,结合《综合电子政务主题词表》建立概念之间的关系,选择合适的软件实现本体的建立和存储,为进一步利用本体,实现类目映射或查询奠定基础。具体步骤如图1所示:

图1本体开发过程图

4 具体实施过程

4.1 确定范围

首先确定构建本体的范围是我国电子政务领域,本体的使用者是信息资源的组织者或者电子政务信息资源语义检索系统的开发者。目的是为我国电子政务领域信息资源类目映射、资源的语义标注和语义检索做准备。

4.2 建立政务领域本体业务模型

从政务信息资源产生、组织和使用等多方面考虑,笔者认为政务领域业务模型如图2所示。社会公众用户、管理部门、资源产生加工部门及管理监督部门分别通过不同的方式利用和影响政务信息资源。

图2政务领域业务模型

4.3 抽取政务领域核心概念

通过模型图可以发现,无论是法律法规的颁布实施,还是具体业务的办理,都涉及到组织机构、人员、信息资源这几个核心概念,基于现实世界事件发生必然涉及时间、地点,所以笔者将政务领域核心概念抽象化为时间、地点、人员、组织机构、信息资源,如图3所示。

图3政务领域核心概念图

领域业务模型的建立和核心概念的抽取是需要重复的过程,要求征求领域专家的意见,如果有需要则修改,甚至重建。

基于本体可重用性的考虑,笔者将不同的概念分别进行细化,建立和存储为不同的本体库文件,以便调用。

4.4 细化概念并建立关系

考虑到能力所限,暂时选择人员本体库,使用Protégé软件进行实现。基于政务领域本体的特点,将人员概念细化为政府工作人员、企业职员、个人公众3个子类。参考《综合电子政务主题词表》(试用本)字顺表的人员分类,为人员概念添加子类和属性。

(1)在《综合电子政务主题词表》(试用本)字顺表中,人员的下位词有547个,要建立政务信息资源人员本体,首先需要整理这些下位词,将其中表示相同属性的进行归类。例如:人员的下位词中学生、教师、军人、工人等表示人员身份的词,可以在建立的人员类中加入身份的属性来表示。对于党员这样的下位词,可以为人员类添加对象属性所属党派表示。同理添加所属民族、所属宗教。

(2)属性的定义要充分考虑本体构建的目的和重用性,利用现有的词表,结合实际需要去生成。举个简单的例子:人员的对象属性所属民族,需要建立相应的民族类。在《综合电子政务主题词表》(试用本)字顺表中,民族的下位词是中华民族,那么在本体构建时,考虑民族类的子类能否可以是中华民族及中华民族的兄弟类有哪些。这就需要查找关于民族分类的资料,或者请教民族学专家。通过查询资料可以知道,全世界存在大约3 000个民族,其中人口上亿的民族有7个,分别是:汉族、印度斯坦人、美利坚人、俄罗斯人、孟加拉人、日本人和巴西人。由此发现其实民族下划分的子类可以没有中华民族和少数民族这样的类,于是直接将我国的56个民族添加为实例。这样既没有违反《综合电子政务主题词表》(试用本)字顺表的上下位关系,也使得民族的分类与世界民族的分类接轨,便于以后的重用。但是在现实处理的政务信息资源中常常会看到中华民族和少数民族这样的字眼,所以必须特殊定义这两个类来描述这个问题,将中华民族定义为我国的56个民族的集合,将少数民族作为中华民族的子类定义为汉族之外的其他55个民族的集合。这种体现我国电子政务特色的分类还有许多,例如:政党分类的共产党和民主党派,其实在建立类时,中国共产党与各个民主党派是兄弟关系,所以直接将这些党派的名称添加为实例就可以了,但是还需要考虑无党派人士的定义,添加既不属于中国共产党又不属于民主党派的无党派子类。在《综合电子政务主题词表》(试用本)字顺表中,政党的分类还有保守党、参政党、执政党、在野党这样的分类,这些反映的是一个政党的性质,所以需要给政党设置一个“参政状态”的属性去表示这些下位词。还有工人阶级政党、小资产阶级政党、资产阶级政党这样的分类,这些也是关于政党性质的一个分法,不能设置为子类,同样应该设置其为政党的一个属性,即“阶级属性”。对于《综合电子政务主题词表》的利用,具体定义为子类、实例还是属性,需要充分考虑实际需要。这些属性的设置也是政务领域不同于其他领域的特色之一。

(3)人员本体库与其他本体库的关系主要体现在属性的定义上,为人员添加对象属性工作单位,其Domain为人员,Range为组织机构,这样就建立了人员与组织之间的联系。同理为人员添加出生地的属性,则可以与地理本体库相联系。另外还可以为人员定义数据类型属性,例如:定义姓名为字符串型、出生日期为日期型等。

综上所述,本体概念之间关系的确立(也就是类之间属性的添加)需要在查询现有综合电子政务主题词表的基础上,结合专家意见,充分考虑类目映射和语义查询的需要,逐步添加。

4.5 本体实例化

本体实例化是本体构建的一个重点,需要充分的电子政务信息资源作为支撑,从资源中抽取实例。鉴于中文自动抽取技术的限制,考虑运用手动的方法添加实例。比如添加实例政府工作人员“张三”,为了添加人员的其他信息,需要查找资料,可以根据资料来添。如果信息不够,则需要继续查找,直到满足本体库建立的需要。

本体库文件中类关系的推理校验需要用推理机软件,笔者选择RacerPro软件实现。

图4运行RacerPro推理结果图

图4左边是校验之前的类关系,右边是校验之后的类关系。约束条件是非常重要的,没有充分必要条件,逻辑校验就无效,也就没有输出结果。当前的类关系在推理完成后显示,由于没有需要改变的逻辑关系,因此输入与输出一致,不需要改动。

添加的实例也可以通过推理机进行校验,还可以通过Protégé软件查询页面实现查询校验,通过与原始资料比对,检查输入实例是否有误。

查询页面如图5所示:

图5 Protégé软件查询界面图

如果校验结果需要修改,则返回到类、关系及实例输入部分进行修改。该过程重复进行,直到没有逻辑错误或不一致错误为止。

4.6 本体存储

关于本体存储目前比较多的方法是直接存为OWL文件。为了便于本体的利用,也可以存储为数据库文件,尤其是当本体中的实例比较多时,可以使用MySQL之类的关系数据库存储。还可以利用软件管理本体,例如:在E-culture项目中研究人员通过编写Prolog程序,将博物馆的电子信息结合本体库文件转换为1000万三元组存储。笔者认为,在实际应用中,可以根据项目需要选择合适的存储方式。无论什么格式,都可以通过Protégé与其他软件配合得到。本项目中笔者直接存储为OWL文件。

部分代码定义类及属性如下:

5 结语

本文在参考国内外本体应用与开发实例的基础上,基于政务领域的特色,建立政务信息资源模型,提出基于《综合电子政务主题词表》的政务领域本体构建方法。另外基于重用性及维护性考虑,提出即使是同一个领域的本体也应该有选择地分开存储生成的本体库文件。由于时间仓促,实例添加比较少,需要根据实际政务信息资源库文件,不断加入新的实例,才能真正适应实际需要,实现政务信息资源的语义标注或语义查询(例如,可以考虑通过程序将现有的机关事业单位人事信息库资源转换为实例)。另外,每个领域都有不同与其他领域的特色,例如艺术家本体库有艺术家所属流派的记录,而政务领域人员本体有所属党派的属性,所以本文中人员本体库的构建希望能满足政务领域信息资源语义标注的需要,而对其他领域本体的构建有参考价值,并不通用。

(致谢:在本文的写作过程中,得到了钱起霖老师、王剑雄老师、朱礼军博士和课题组的其他人员的大力帮助,在此表示衷心的感谢!)

标签:;  ;  

基于政府主题词表的本体构建研究_电子政务论文
下载Doc文档

猜你喜欢