基于SIOC构建科学博客本体实践探究*,本文主要内容关键词为:本体论文,科学论文,博客论文,SIOC论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在线社区网站(如博客、维基等)在保持人们通信和促进在线交流中发挥着重要的作用,它允许用户聚集在一起上网、创建发布信息以及对感兴趣的话题进行讨论,但是大多数现有在线社区属于信息孤岛,互相之间没有联系。随着互联网的普及,越来越多的人选择通过网络来寻求科学知识信息,博客便是重要载体之一。现在的问题在于科学博客站点托管于各个独立的系统,致使主题相互关联的信息不能共享,在造成信息冗余的同时也不利于正确、科学信息的呈现。因此,构建科学博客本体来互联、发现此类资源势在必行。
1 背景知识介绍
1.1 研究背景介绍
目前,语义化博客的国内外相关研究已日渐丰硕。从国外来看,主要集中于对博客本体构建及可视化博客系统的设计[1]、语义化技术在博客平台使用过程中的应用[2]、语义化检索博客系统的构建[3]等。而针对最有科学价值的科学博客的相关研究,主要集中在其科学价值、博主建博意图、博客对科学的影响三方面。目前国外已有通过SIOC模型对博客进行语义化标注的案例,这将会促进语义博客发展。
国内的相关研究有:通过语义扩展来构建具备语义检索功能的语义博客系统[4];结合语义Web技术和搜索引擎技术设计基于语义Web的Blog智能检索系统[5];基于本体的理念结合Blog文档的角度,来研究和实现自动语义标注的关键技术[6]等。针对科学博客的研究,国内仅集中于传播学角度。综上可见,国内外缺乏针对最有价值的科学博客本体模型构建、语义化发现的相关研究。
国外目前使用SIOC框架描述在线社区,是一种比较通用和先进的方式,本文将基于SIOC构建科学博客本体模型,为后期的应用实现、语义化发现提供基础。
1.2 SIOC介绍
(1)SIOC简介。SIOC[7](Semantically-Interlinked Online Communities)提供一个在线社区(如博客)自身或与其他在线社区互连的方法,其核心本体提供描述语义网中在线社区主要概念和属性的信息。用户可通过存储、浏览/搜索系统来利用SIOC数据,并且允许以一种含有丰富语义和关联关系的方式输出,输出的数据可以导入其他系统之中。
(2)SIOC作用。①SIOC可以实现网上社区的互连,改善在线交流社区信息分散的现状,促进相连或相关信息的发现。②使用SIOC本体可以用来设计、描述包括博客在内的多种在线交流平台。③SIOC的RDF数据结构类型可以很容易地分析和提取社区成员的隐性信息。④基于SIOC构建的本体具备自动发现机制,可及时获取实时更新的信息[8]。
(3)SIOC本体架构。SIOC本体共定义了11个类、66个属性,并且详细定义了各个概念的定义域、值域和类型等。为便于利用,SIOC文档还详尽描述了可能将用到的其他相关本体的部分属性,如:Class:foaf:Person、Class:sk-os:Concept、Property:dcte-rms:subject等。以SIOC本体中的类以博客为例,其包括:博客、博文、站点、用户角色、用户和用户组,主要的关系属性如图1所示。
2 科学博客本体模型的构建
2.1 科学博客概念界定
在构建本体模型前,首先应界定科学博客的概念:本文所研究的科学博客指科研人员或科普工作者为了与公众进行科学知识交流而撰写的内容与科学知识相关的个人网络日志。其中科学博客的作者涵盖科学家、科研人员、科普作家、专栏记者、科学编辑、科学记者等。此外,创建科学博客的作者也扩展到研究机构、研究团队、研究项目、科技期刊等,也都利用博客这个信息发布平台发布和交流其研究进展、专家论点及科普宣传等。
2.2 科学博客本体预期目标
SIOC提供了一个构建博客本体统一的内容和互动过程描述的词汇和框架,可以与现有交流平台共存。因此,本文构建的科学博客本体预期达到的目标是:
(1)发现科学博客。科学博客作为重要的科学信息交互资源,通过对本体的特殊属性进行定义,来实现机器自动发现、识别科学博客的目标。基于语义关系的搜索有利于高效、准确地发现和遴选科学博客。
(2)科学博客的虚拟博客圈。这可以是博客的聚集地,也可以是以某关键词通过本体联系起来的分布式博客的博客群。例如:用户可以便捷地发现与某一领域相关的、感兴趣的博客;机器自动发现博客,并按时间相关性聚集在一起。
(3)科学主题的关联共现。SIOC允许标签的定义(使用主题属性),而且当主题表述宽泛、有必要进一步限定时,还可使用SIOC:topic来补充博文的主题。
(4)解决一人拥有多账户的问题。SIOC可以通过规定用户的账户属于某个特定的身份(使用FOAF:holdsOnlineAccount或SIOC:account-of),即便是跨平台的不同账户也可以确认是否为同一用户。
2.3 本体模型构建
2.3.1 本体的目的和研究范围
本文构建科学博客本体模型的目的在于以语义的方式来发现、识别科学博客。因此,在此处构建本体时侧重于博客间的关系描述,博文间的关系在此处不做重点描述。由于SIOC是RDF的一种应用,因此,此处使用资源描述框架(Resource Description Framework,RDF)来描述科学博客,通过使用RDF框架,结构和内容相关的元数据可能来自不同的本体模型,最后进行整合,以形成完整的科学博客本体模型图。
2.3.2 概念采集
有关博客和博文的元数据可以分为:结构元数据、内容元数据。结构一般是指博客的形式。结构元数据标识和描述博客中的各个部分,如:博文、评论等和博客间的关系,以及博客或博文与其他博客间的关系。内容元数据主要用于描述博文的主题,如:这篇博文关于什么?内容元数据的具体形式取决于主题的性质描述,如:博文的主题是谈论一个人,那么描述主题的元数据就是人的姓名、联系方式等;如果是一个即将举行的会议,那么元数据应该是开始和结束时间、地点等[2]。
本文基于SIOC的本体模型是结合已有成熟本体FOAF、SKOS等来构建科学博客本体。利用SIOC描述站点信息、站点—站点之间、站点—博客资源等之间的关系,利用FOAF的类表示参与博客活动的用户信息,利用SKOS的类和属性描述博文内容间的语义关系。FOAF[9](The Friend Of A Friend)是一个RDF词汇表,为在线社区成员提供一种基本的表达:描述人及其基本特性,如姓名、电子邮件地址等;SKOS[10](Simple Knowledge Organization System)核心词汇表也是一个RDF应用,用来表示知识组织系统的一个模型,提供了表达概念模式的基本结构和内容,包括叙词表、分类系统和其他类型的受控词表。
本文研究前期在参考SIOC本体模型的基础上,通过借鉴已有研究中的博客交流活动框架,并结合对国内外成熟的科学博客平台中用户实际交流活动的分析,获取博客的特征概念,如图2所示。从图示中实线部分可以看出,博文层面博客博文间的关联关系:博客间可通过互引(不同博客的博文)或自引(同一博客的博文)博文内容来讨论同一主题或相关主题的话题。从虚线可看出,用户在博客中活动时角色的变化情况:用户在自己博客中活动时为博主;当用户去阅读他人博文时,角色为阅读者;当用户去评论他人博文时,角色为评论者;当用户对某一博主感兴趣时选择关注功能,则此时角色为关注者。
从图2分析中可获得博客的相关概念,有博客、博文、用户角色、博主、阅读者、评论者、关注者、博文主题、has-reply、reply-of、has-sibling、related-to等。
此外针对科学博客的特定概念及应用情况,在构建本体前期,笔者根据科学博客概念的内涵来合理构想科学博客的实际应用案例,进一步收集数据:
案例(一),科研工作者或科研机构、科学期刊等注册博客平台,在博客中发表与其研究专业领域相关的博文或者科研机构、期刊在此发表与己相关的及时信息;
案例(二),用户通过搜索引擎搜索学科领域关键词进入科学博客,查看相关科学信息,可选是否关注该博主;
案例(三),科学家A在其博文中引用或者转发科学家B发表的博文中的内容;
案例(四),科学博客博主A参与到博客平台某一用户组,与博主B同为该领域用户组成员;
通过充分地激发一定数量又具有代表性的应用案例,笔者能够掌握比较全面的关于科学博客的原始数据。
2.3.3 分析、提炼类及属性,构建模型
这些应用案例获取的信息以文档的形式存储,接下来的重要工作即从这些文档中分析和抽取出有用的数据。从上述的部分案例中提取出一些重要概念:用户组、博客站点、博客名、博客创建日期、博客描述、博客学科分类、博主名称、博主电子邮件、博主工作单位、博主研究领域、博文创建日期、博文更新日期、创建者、博文数量、工作于等。图3为整合后析出的科学博客本体主要类之间的关系,其中加粗箭头为部分类层次关系,单线箭头为类之间的逻辑关系,虚线指示模型中除SIOC外的复用本体。
笔者列出科学博客本体中部分主要的类和属性,结合SIOC本体对概念的定义,进一步说明在该模型中其具体含义。
SIOC框架中的Forum(论坛)指在线信息交流平台,在“博客”背景下,指单一的Blog(博客)频道,链接到一个承载它的博客站点,为博主发布博文提供平台。
SIOC框架中Site(站点)指一个在线社区或社区组的网址。在“博客”背景下,站点将容纳一个或多个博客。这个概念非常有用,因为我们可以指定一个用户作为站点管理员,管理控制所有托管在该网站上的博客。
SIOC框架中的Post(博文)在此表示由博主发布的博客文章或消息。一系列的博文可以相关联(讨论某个主题或相关主题的博文),也可以通过回复关系进行关联(在同个站点内)或者通过链接进行关联(在不同站点间)。文章有内容,也可以添加附件、链接。
SIOC框架中的User(用户)指一个在线账户,属于一个交互网站的成员,如博主。通过账户可以链接到博主创建或编辑的博客文章,他们可以管理博客,可以通过订阅博客功能来关注感兴趣的其他博客。用户可以通过权限设置进入某个讨论组,成为用户组成员。SIOC中Usergroup(用户组)便于读者对博客内容的选择性浏览,也有利于同一领域话题中的博主进行交流。SIOC框架中Role(用户类型)是指用户在进行博客交流活动中扮演的不同角色,如博主、读者、评论者、关注者。
在接下来的段落中,我们描述科学博客本体中一些重要的属性概念,图4为部分底层概念模型示意图。
(1)主题。作为重要属性与上述大部分类均有关联,尤其是领域分类,可以作为一个有用的方式来进行用户和博文间的相互匹配。用户或用户组创建或者修改他们的资料时,可以自定义感兴趣的主题。至于博文内容,要求用户在创建时指定一个确切的主题可能存在困难,因此博客平台提供可能相关的学科主题词汇,用户根据需求选择即可。主题也可以通过预定义博文的分类继承和自由文本关键字(dc:subject)来设定或使用“大众分类法”标记。为了便于确认跨站点的相关信息的位置,SKOS框架可用来定义内容概念来代表主题或标签。
(2)has-creator。该关系属性连接博文到其作者的用户个人资料。因此,我们可以按照从博文到创作者的链接来找到由同一个人创作的所有博文。
(3)博客名称。指博客的注册用户名,在此不用姓名的原因在于,科学博客不仅仅可由科学家等个人创建,也可以由科研机构、科学期刊等为博主,所以在此使用名称更为恰当。
3 本体构建,进行有效性分析
本体编辑工具方面,本文选取较为常用的Protégé4.1。在本体构建过程中,通过对本体模型中类及属性的详细定义,来丰富本体概念间的语义关系。在具体应用过程中,可以选择通过学科领域类来与选用的某特定相关学科的领域本体进行映射,构造专业学科的科学博客本体,便可以达到识别、发现特定学科科学博客的目的,甚至发现学科间交叉发展的状况。
本体模型构建所选用类及属性是通过对现有博客平台的充分分析而得来,因此,该本体模型可有效表达出科学博客覆盖的主要概念及关系。以生命科学领域为例,通过博客主题、领域分类或者博主的研究领域、博文的主题分类来确定该博客为生命科学领域的博客;通过博主的学历、工作情况、博文评论等来判定该科学博客发布博文的质量;通过博文发布和博主登录的时间属性来判断博客的更新率、内容的新颖性;通过博主与同一用户组成员的关系来扩展发现科学博客的范围等,目的是达到以语义的方式从海量博客群中遴选出高质量的科学博客。
4 研究难点及后续研究
4.1 研究难点
目前国内外对在线科学博客平台的结构、表达方式不尽相同,造成构建本体时统一处理的困难;类、概念、关系的提取过程中,要求达到既能突出科学博客的特性,而又不会造成数据冗余的目标;研究中,怎样较好的充分复用已有本体的元素也是重点之一。通过复用公认的本体,可以使得所建科学博客本体在之后利用中具有更强的互操作性,也减少自建概念、关系的复杂性。
4.2 后续研究
通过对国内外科学博客现有平台的详细分析,进一步丰富、完善科学博客本体模型;选用常用本体构建软件protégé4.1,在对科学博客本体实现的基础上,选择资源进行实例填充,最后使用jena推理机进行已建本体的关系推理分析;对上述完成的推理,进行人工判定、进一步完善;采用机器与人工结合的方式,来制定切实可行的科学博客资源发现规则,期望达到语义化发现、规模化采集和知识化组织的目标;完成插件设计,将构建的科学博客本体嵌入到综合科技资源系统中,为后期科学博客资源语义化发现和规模化采集提供基础。
标签:科学论文; 博客论文; 语义分析论文; 用户研究论文; 关系模型论文; 主题模型论文; 社区功能论文; 元数据论文;