基于本体领域的智能突发舆情事件检索系统研究论文

基于本体领域的智能突发舆情事件检索系统研究

李晓红

(邵阳学院信息工程学院,湖南 邵阳 422000)

摘 要: 近年来,我国频繁发生各种突发事件,这些突发事件受到广大民众的关注,这也使网络中与突发事件有关的各种舆情信息海量增长,在互联网中对突发舆情事件的检索要求也得以不断提高。鉴于此,本文在信息检索系统中引入了本体领域,对基于本体领域的智能突发舆情事件检索系统进行了深入的研究,以此满足民众对突发舆情事件的信息检索需求。

关键词: 本体领域;突发舆情事件;检索系统

现阶段,我国尚未有文献对突发舆情事件的本体领域知识模型构建进行相应的研究,更没有相应的组织与表示方法来描述突发舆情事件的本体领域知识。随着社会中各种突发事件的不断增多,人们对突发事件的愈发关注,使我国迫切需要建立智能突发舆情事件检索系统,以此满足民众对突发舆情事件相关信息的检索要求。而就目前来看,我国所采用的信息检索工具,已经越来越难以适用于突发事件的舆情检索工作,这是因为以往的信息检索工具难以充分理解用户的需求,从而在扩展检索上存在很大困难,难以避免地会出现语义丢失等问题,而且检索智能化程度低下。因此,对基于本体领域的智能突发舆情事件检索系统进行深入的研究是具有重要意义的。

一、基于本体领域的智能突发舆情事件模型构建

本体领域这一概念是由Gruber进行定义的,其能够明确突发事件领域中概念与概念所具有的关系,并使这种关系得到形式化的说明。在本体领域中,突发事件概念作为其基本元素,其个体是相应的,也就是说,通过对抽象概念进行具体化处理,使其能够以实例的形式出现,从而使其成为本体领域中的最小对象。在基于本体领域的智能突发舆情事件模型构建中,需要遵循明确性、一致性、可扩展性、最小承诺以及最小编码偏好程度这五条原则。依据上述原则,可对突发舆情事件中的演变过程、类别名称、智能决策等相关概念进行体现,然后既可明确概念间的关系与属性,通过语义来分析突发舆情事件的属性,可将其按照地点、时间、概念id、破坏性等属性进行细分。在本体领域中,突发舆情事件中还存在某些值是真的事实,在对这些实事进行描述时可通过公理来实现。由此便可对基于本体领域的智能突发舆情事件知识模型进行以下描述:在该模型可看作是五元组,其主要包括实例、属性、概念、公理及关系这五个构成部分,分别用I、P、C、A与R来进行表示,可将其记为EO ≤ C ,P ,R,A,I>。在突发舆情事件的概念集合中,可将其表示为 C =< C SC,CCC,CEC ,P,R>,在该概念集合中,概念C中的父概念、子概念、等价概念以及属性与关系可分别由CSC、CCC、CEC、P、R来表示。而在其属性集合中,可将其表示为P=〈C,Dt,PSP,PCP,Pep〉,在该属性集合中,其概念、数据类型、父属性、子属性以及等价属性可分别由C、Dt、PSP、PCP、Pep来表示。在突发舆情事件模型中,各个概念所具有的语义关系可通过R={r r⊆CS×CO}这一集合来描述,在该集合中,关联语义关系R的目标概念与源概念分别由CO与CS来表示。在突发舆情事件模型中,各个概念所具有的实例可通过I = < CI , P C,RC>这一集合来描述,在该实例集合中,以实例I为例,其自身概念及继承属性与关系分别由 C I来表示, C I为被继承概念。

二、基于本体领域的智能突发舆情事件检索系统研究

1.系统架构

在基于本体领域的智能突发舆情事件检索系统中,主要是采用EIIRS架构,其架构是在JDK 1.6的开发环境下进行的,并分别采用了Jena2.5、MyEclipse7.5、ICTCLAS5、Protege3.1作为开发工具。该系统在设计过程中是以本体领域为主来对初始突发舆情事件模型进行建立的,然后对突发舆情事件中的本体领域文档进行采集与预处理,以此获得文本文档,通过中文分词的方式,应用关系自动抽取算法来提炼出突发舆情事件中各个概念所具有的关系,然后以此来扩展突发舆情事件的本体领域。在构建完突发舆情事件的本体领域后,便可结合突发舆情事件中所具有的本体语义关系来对相应的推理规则进行设计,可通过Jena2.5开发工具来对突发舆情事件实施本体推理,并根据推理获得的语义相似度计算模型,结合用户所输入的查询词,即可实现查询扩展,从而获得与语义有关的扩展查询词集合,并通过Lucene来对智能突发舆情事件的相关信息实现语义检索。该系统的EIIRS架构主要包括表示层、逻辑层与数据层这三个层次,其中表示层可帮助用户对突发舆情事件的本体领域文档进行采集,并可实现对突发舆情事件的信息接口检索及管理。而逻辑层则能够构建突发舆情事件的本体领域模型,自动抽取突发舆情事件中相关概念所具有的关系,然后通过语义相似度计算,采用Jena来进行语义推理与查询扩展。在数据层中则包含有索引库、突发舆情事件本体领域的相关文档集、本体库以及根据本体语义关系所获得的大量推理规则。

2.信息采集

在对突发舆情事件的知识与信息进行检索时,可从突发舆情事件的文本信息中获取,在对主题中的URL进行选择与预测时,可通过内容评价采集程序来完成,结合主题中含有的文档信息或关键词等,计算其和链接文本的相似值,然后评价链接价值,从而确定文本信息的采集方向。以此为基础,通过内容评价检索策略以及Web链接结构检索策略的有机结合,确定URL在信息采集队列中所具有的优先级别。互联网的快速发展,使人们能够通过回复、新闻、发贴等方式来了解突发事件的舆情信息,本文在信息采集中,同样将突发舆情事件按照新闻、专题报道、论坛以及博客这四个类别来明确信息的采集来源,用户在检索过程中,可对信息采集来源进行自主的选择,并根据系统格式,对所需的信息网站来源进行自主添加。

3.本体扩展及管理

突发舆情事件的本体知识库是实现信息智能检索的核心所在,在对突发舆情事件进行本体推理以及语义检索时,都是将本体作为基础的,目前本体构建是通过手工方式来完成的,而且对领域专家过于依赖,在成本投入上非常巨大,并且有着较长的建设周期,难以保障其应用质量,更难以实现大规模扩展,这也使本体应用受到了很大制约。而在基于本体领域的智能突发舆情事件检索系统中,通过对本体扩展框架进行构建,可自动扩展突发舆情事件的本体,进而使检索效率大幅提高。该框架主要由四个部分组成,分别是自动抽取突发舆情事件的概念、提炼各个概念的语义关系、语义关系形式化表示以及复用突发事件知识。

综上,从地区上看,各地区基层农技人员“职业倦怠值”存在差异,部分地区离散程度较大,个体之间倦怠值差别较大;从性别上看,基层农技队伍中男性偏多,职业倦怠感也更显著;从从事专业看,各专业存在一定差异;从年龄及从业年限看,基层农技队伍呈现“老龄化”趋势,年长、从业年限久的人员占比较高,处于36-40岁间(大致对应从业年限11-15年)人员群体职业倦怠均值相对较大,个体差异也最大,是值得引起关注的人群;从学历上看,大学本科学历占比最大,职业倦怠值相比也最大,而“硕博士研究生”学历的人员占比小,倦怠值也相对较低;从职称上看,职称与“职业倦怠值”间,存在一定正相关,“初级”职称人员,职业倦怠值最高。

三、结语

总而言之,本文通过对基于本体领域的智能突发舆情事件检索系统进行研究,从而明确了本体领域在智能突发舆情事件中的具体应用,满足了民众对突发舆情事件的信息检索要求,弥补了传统信息检索工具在应用过程中存在的不足,推动了现代化社会的发展。

东海2号机组是一座1978年3月首次并网发电的1060 MWe沸水堆。在2011年3月11日导致福岛核事故的地震和海啸发生期间,虽然丧失了场外电力供应,且1台应急发电机因海啸受损,但该机组仍然实现自动停堆,进入并保持在冷停堆状态。运营商日本原子能电力公司(JAPC)2014年5月向规制委提交该机组的重启申请。

参考文献:

[1]王红,樊红杰,孙康. 面向领域本体非分类关系的语义相关度计算方法[J].计算机应用与软件,2016,33(11).

[2]陈曦,熊曦,蔡芳霖,薛龙.开放式的突发事件案例生成研究[J].华南理工大学学报(社会科学版),2016,18(2).

中图分类号 :D63;G206

文献标识码: A

文章编号: 2095-9052(2019)05-0227-02

收稿日期: 2019-4-18

基金项目: 湖南省教育厅优秀青年项目“基于本体领域的智能突发舆情事件检索系统研究”(14b163)

作者简介 :李晓红(1980—),女,湖南隆回人,副教授,硕士,主要从事计算机教学、推荐算法研究。

责任编辑:李凌峰

标签:;  ;  ;  ;  

基于本体领域的智能突发舆情事件检索系统研究论文
下载Doc文档

猜你喜欢