基于知识单元间隐关联的知识发现_白藜芦醇论文

基于知识单元间隐含关联的知识发现，本文主要内容关键词为：知识论文,单元论文,发现论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 引言

随着现代科研环境e-Science的出现，科学家跨领域知识合作和新知识发现方法成为科学研究中最严峻的挑战[1,2,3]。科学知识发现的目标是发现新奇、有意义、可行和可理解的知识。知识发现一直是人工智能、认知学、机器学习及其他学科研究热点。基于数据库的知识发现(KDD,Knowledge Discovery in Database)和文本挖掘(Text Mining or Text Data Mining)成为知识发现研究的重要对象。目前人们对文本挖掘有了新的认识，认为发现文本中的合适应用目标和知识是文本挖掘的主要内容。文献[4]提出，大多数的文本知识都包含在大量简单的语句表达中，因为简洁的表达出主要知识和传达主要信息是语言发展的基本准则。因此，文本挖掘可以基于简单的特征就能发现有价值的创新知识，多个研究成果也表明了这个假设的有效性[5～7]。1975年Brooks[8,9]曾提出对文献的内容进行知识分析和组织，以便找到知识创造过程中的连接点，从而深入揭示知识的有机结构。1985年美国芝加哥大学的Don R.Swanson教授创立了基于“非相关文献的知识发现方法”，并开发出Arrowsmith软件系统[10,11]。非相关文献的知识发现方法创立了一种新的独特的文本知识发现方法，为知识管理的研究开辟了一个新的方向。引起了国内许多文献[4]，[12～18]的关注。但Don R.Swanson教授的“非相关文献的知识发现”方法及Arrowsmith软件系统还存在原理上的不足，因而导致了使用上的困难性和效率不高。为此，我们提出了基于共引知识元间语义关联的隐含知识发现理论方法，把文献单元分解成独立使用的知识元，利用知识元间的共引关系是一种揭示隐含语义关联关系的有效方法。本文的第2节为非相关文献的知识发现方法讨论，第3节为知识元间的共引关系；第4节为基于语义网的知识元模型；第5节为基于知识元间共引关系的知识发现试验；第6节为小结。

2 非相关文献的知识发现方法

Swanson教授研究工作的意义在于：首先，他的研究成果表明，通过揭示公开发表的文献中的隐含关联关系确实可以发现新知识，为知识管理研究开创了新的研究方向；其次，他建立了一定的研究方法；建立文献中知识片段间的逻辑传递关系A→B，B→C，则A→C；第三，也更具现实应用意义的是，Arrowsmith拓展了Medline的查询功能；它能够帮助使用者发现文献间的新联系并建立新的知识假设[13]。继Swanson的开拓性研究之后，国外其他情报研究人员也开始了此类研究工作，并在Swanson的研究理念基础上进行了拓展性研究。非相关文献知识发现方法引起了我国知识管理界许多研究者的兴趣，成为国内外研究的热门和焦点。

在一片赞扬声中美国费城科学情报所的Henry Small对Swanson的方法持一种怀疑的态度。Arrowsmith的一个显著的缺点是只能作用于文献的标题，而不能作用于全文、文摘甚至是主题词。Arrowsmith的另一个问题是使用者需要花费大量的时间和精力，因为两类非相关文献的合并会产生词语数量相当庞大的列表B，需要使用者认真地浏览和筛选。并且当网络的速度减慢时，则系统的反应时间也会变慢[12]。

对Swanson教授非相关文献知识发现方法的研究，我们认为该方法的核心在于一个最基本的假设。医学文献中存在着大量的未被发现的隐含的关联。这种隐含关联关系表现形式为：“两类文献是互补的，并且是相互独立的（即非相关的）”。

互补性表现在：如果把两类文献放在一起加以研究就会获得有用的信息，即A作用于C，而这种信息是不能根据单独一类文献得到的，我们称AB和BC这两种文献是互补的。

非相关性表现在：一个专业领域的文献的作者和读者一般并不熟知另一专业领域的文献，也就是说两类文献从没有或很少被共同引用并且也不相互引用，我们称这两类文献是相互独立的，也就是非相关的[12]。

互补性和非相关性描述了在公开信息中存在着未被发现的有价值信息的模型结构。如“镁”与“偏头痛”之间的隐含关联的发现过程。先找出A（“镁”）和C（“偏头痛”）的联系中介B（“癫痫”），通过“癫痫”获知：“镁”缺失是诱发“癫痫”的病因之一，即(A→B)；而“癫痫”与“偏头痛”相关，即(B→C)；由此推理出“镁缺乏”和“偏头痛”的关系(A→C)。这一推理过程可以表示为：由A→AB，B→BC，得到AB和BC存在互补关系，进而由AB，BC假设可能存在(A,B)→(B,C)，即(A→C)。我们将隐含关联中的互补性和非相关性描述成图1。可以看出Swanson教授非相关文献知识发现方法原理上还未给出实现A→C隐含关联的理论方法，还只是一种假设；由此带来的Arrowsmith软件的实现上困难性和实用性差。因此探讨隐含关联的知识发现原理是一项重要的课题。

图1 隐含关联中的互补性和非相关性描述

3 知识元间的共引隐含关系

3.1 共引关系

美国人斯莫尔(Senry Small)与前苏联人马尔沙柯娃(I.V.Marshakova)于1973年分别引入了共引文(co-ciation)的概念[19]，即若两篇论文M1，M2同被一篇后来的文献m所引用，则M1与M2之间的关系称为共引关系。

科学引文索引《SCI》创造者Eugene Garfield博士发现了文献之间内在联系，通过引文关系揭示某一学科的继承与发展，反映学科之间相互交叉、相互渗透的关系。“非相关文献的知识发现方法”的创立者Don R.Swanson教授进一步发现了事实上文献间隐性的关联数量可能远多于显性的相互引用的关联数，并且这种隐性关联的发现比信息本身的增长更有意义。进而证实两篇医学文献放在一起会揭示出一个问题的答案，而这个答案是从单独一篇文献得不到的。这预示着在医学文献单元中存在着大量的未被发现的隐含的关联。

3.2 共引隐含关系

我们把Swanson这种假设与共引文概念加以比较分析，即A与B有关，B与C有关，则可能通过关联B发现A与C之间存在的隐含关系。可以看出这种隐含现象与共引概念相同，即A与C两篇文献同被后来的B文献所引用，A与C就为共引关系。

为实现基于共引关系的隐含关联关系的发现，我们可将文献单元分解成知识元[20]，通过知识元间的共引关系建立知识元的隐含关联关系。由此我们得到了通过显性的文献共引关系去发现知识元间的弱隐含关联关系方法，通过语义关联方法实现隐含关联的知识发现。

图2 具有共引关系的性质P为中心的概念模型

3.3 共引隐含关系举例

试验利用CNKI全文数据库进行试验。

具体步骤：(1)从CNKI全文数据库中找出一篇文章B：红葡萄酒保护心血管的功效；(2)检查B中的参考文献得到文章A和C，A：高效液相色谱法测定葡萄皮和葡萄籽中白藜芦醇的含量，C：白藜芦醇及药理保健功能的研究、白藜芦醇及其生物活性研究进展、白藜芦醇苷生物活性及药理作用、葡萄酒的功能因子——白藜芦醇；(3)推理分析：A被引文章介绍葡萄皮和葡萄籽中含有白藜芦醇，C被引文章介绍了白藜芦醇具有四个生物活性：a.抗癌活性；b.保护心血管系统；c.雌激素样作用；d.促进骨代谢。由此我们可以看出A和C之间的隐含关系是：干红葡萄酒（含葡萄皮和葡萄籽酿造）可以防治心血管疾病。

4 基于语义网的知识元模型

4.1 知识元模型

我们在疾病和饮食两方面分别建立语义网知识元模型。

疾病领域：

〈？xml version="1.0"?〉

〈！DOCTYPE疾病［

〈！ELEMENT疾病（名称，病因*，症状*）〉

〈！ELEMENT名称(#PCDATA)〉

〈！ELEMENT病因(#PCDATA)〉

〈！ELEMENT症状(#PCDATA)〉

〈名称〉脑出血〈／名称〉

〈病因〉脑血管韧性降低〈／病因〉

〈症状〉脑血管容易破裂〈／症状〉

〈／疾病〉

饮食领域：

〈？xml version="1.0"？〉

〈！DOCTYPE饮食［

〈！ELEMENT饮食（食物，饮料）〉

〈！ELEMENT食物（食物名称，营养物）〉

〈！ELEMENT食物名称(#PCDATA)〉

〈！ELEMENT饮料（饮料名称，营养物）〉

〈！ELEMENT饮料名称(#PCDATA)〉

〈！ELEMENT营养物（营养物名称，营养物作用）〉

〈！ELEMENT营养物名称(#PCDATA)〉

〈！ELEMENT营养物作用(#PCDATA)〉］〉

〈饮料〉

〈饮料名称〉绿茶〈／饮料名称〉

〈营养物〉

〈营养物名称〉茶甘宁〈／营养物名称〉

〈营养物作用〉促进血管韧性，抑制血管破裂

〈／营养物作用〉

〈／营养物〉

〈／饮料〉

〈／饮食〉

4.2 知识元的本体框架

上述知识元模型是XML格式，我们采用的本体构建工具Stanford University开发的本体软件Protege3.2-beta版自动生成的图3知识单元的本体结构。

在图3中，化学营养物质类包含了所有知识元中涉及的营养物；病理病症类包含了所有知识元中涉及的病因和症状。具体的本体结构类树图如图4所示。

知识元的本体框架还不具有本体间的语义关系，因此还不能实现本体推理，这也正是下一步语义推理要做的工作。

图3 知识单元的本体结构

图4 疾病与饮食本体类树图

5 共引关系的隐含知识发现

5.1 作用与反作用的共引关系对

我们将知识元间的共引关系建立一对作用与反作用的共引关系对，采用Semantic Web体系结构建立了语义推理机制，实现了利用一对作用与反作用的共引关系达到发现隐含关联关系的知识发现目标。Semantic Web体系结构使得推理逻辑变得容易，但是这种语义推理机制是建立在类之间的关系上的，因此，建立类之间的关系是实现Semantic Web推理的关键。这里的“关系”，也称之为“属性”。只有找到并确定了属性，才能将两个或多个类（本体单元）连接起来，形成一个知识链，进而进行推理。

对疾病领域的文章进行分析，得到疾病与病理病症之间的关系为；增加或降低。对饮食领域的文章进行分析，得到化学营养物质与病理病症的关系为：促进或抑制。另外在饮食领域文章中，得到饮食与化学营养物质的关系为：包含。

图5 疾病领域和饮食领域顶层推理逻辑图

图5给出了疾病领域和饮食领域顶层的推理逻辑图。从图中可以看出，将疾病与饮食连接在一起的因素是病理病症，当疾病与病理病症的关系（增加或降低）和饮食与病理病症的关系（促进或抑制）能够相互作用（存在互逆性）时，我们就可以发现疾病与饮食之间的潜在的隐含关联关系。

5.2 隐含关联关系推理实例

用上述方法对疾病和饮食领域各100篇文章进行分析推理，我们一共挖掘出93个知识元，其中疾病领域49个，饮食领域44个，语义关联后获得了33条知识链，经过约简，最后得到23条知识链。图6给出了一个基于本文4.1节给出的知识元模型结构的推理实例。

图6 推理实例

从图6中我们可以看出脑出血是由于血管韧性降低导致血管破裂增加而引起的；化学营养物质茶甘宁能够提高血管韧性、抑制血管破裂。两者的关系能够相互作用（作用与反作用关系），可以推导出茶甘宁可以防治脑出血，而绿茶中含有茶甘宁，所以可以推理出下面的结论：饮用绿茶可以防治脑出血。

6 小结

随着现代科研环境e-Science的出现，科学家的跨领域知识合作和新知识发现方法已成为科学研究中最严峻的挑战。Swanson教授的非相关文献的知识发现方法创立了一种新的独特的文本知识发现方法，为情报学的研究开辟了一个新的方向。但“非相关文献的知识发现”方法存在原理上的不足，因而导致了使用上的困难性。我们提出了基于知识单元间语义关联的隐含知识发现理论方法，利用知识元间的共引关系揭示隐含语义关联关系，从而找到了一种可有效操作的文本知识发现方法。下一步我们将研究共引关系的自动挖掘软件系统，作大规模的试验。

收稿日期：2006年8月15日

标签：白藜芦醇论文; 饮食论文;

基于知识单元间隐关联的知识发现_白藜芦醇论文

猜你喜欢