知识管理中编码知识的存储机制_xml数据库论文

知识管理中编码知识的存储机制，本文主要内容关键词为：知识管理论文,机制论文,知识论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：F272.9文献标识码：A文章编号：1007-7634(2006)08-1239-06

知识管理(knowledge management,KM)作为与知识经济相适应的新型管理理念与模式，已成为越来越多的企业和研究机构提升新型企业核心竞争力的有力途径。以知识链为主线、对企业的核心生产资料——知识进行全生命周期的有效管理与组织，是实现KM效率和有效性基础保障。知识存储是知识链基础环节，也是重要环节。传统AI领域的知识存储研究多是针对单一知识形态的独立讨论，没有覆盖整个知识类型空间，更缺少不同知识类型间在存储策略上的协同策略[1-3]；现有的KMS(knowledge management system)模型对知识存储未予重视，即便对知识存储策略进行讨论，模糊的知识范畴导致其往往只对显性知识的个别形态(类型)进行讨论，缺乏系统性和协同性[4-7]。

1 KM编码知识存储思路

类似于知识表示环节针对表示前知识的明晰度不同而分别展开研究，笔者将知识存储按完成知识表示后的知识样态的不同而分别展开讨论，即分别研究对编码知识与非编码知识的存储策略。此处的编码知识指以特定表示方法实现编码和格式化的显性知识以及得到外显化的隐性知识；非编码知识指仍然以间接方法表示、没有外显化的隐性知识。限于篇幅，有关非编码知识存储问题将另文讨论。对于编码知识将采用直接存储策略，并针对企业知识边界内各种编码知识的结构化程度给予分别研究。

知识谱线(knowledge spectrum)是按知识的结构化维度对知识进行的分类与归级，由华中科技大学的肖人彬先生首先提出[8]，东华大学朱明博士对这一概念作了进一步讨论。笔者改进其三级谱线结构，得出了新的知识谱线结构(如图1所示)。该知识谱线从知识结构化维度上覆盖了企业知识边界内的所有编码知识。不同结构化程度知识的表示方法存在差异，致使其相应的存储策略与物理结构亦有不同，主要表现为所对应知识子库的类型特征差异。在知识存储子系统中，文档型知识、样本型知识、符号型知识、案例型知识和数量型知识将分别对应于文档知识库、ANN、规则库、案例库和模型库。知识地图之知识定位器(knowledge locator)横贯各知识子库，在全局高度上揭示企业各种编码知识资源的总目录及各知识类别、层次之间关系。下面据此分别展开讨论。

图1 新型知识谱线

2 各类知识子库的存储技术与策略

2.1 .KM中的文档知识库

企业KM实施初期的大部分知识是以文档形式存放的，如word文档、电子邮件、web页面等。由于文档知识的半结构或非结构化特点，对其进行有效存储、搜索和管理一直是个难点。XML(extensible markup language)被认为是计算机科学领域继ASCII码后的又一突破性进展。其以高度的自描述性、可扩展性、结构性和异构性得到了理论界与应用界的双重认可[9]。Elliotte Rusty Harold讲，通过XML可以向低结构化的文档知识增加结构[10]。通过DTD(document type definitions)定义文档的结构和语义，通过XML文档存储数据，通过XSL(extensible style language)或CSS(cascading style sheets)设计文档的外观，使得文档内容与表现分离、录入工作与维护工作分离，提高了对文档知识进行管理的效率和有效性。当将文档知识转化为基于XML的Web页面时，搜索引擎将能够返回更集中和有用的结果；智能代理(agent)能够更为容易地搜索整个Web并找出所需要的信息或知识。

企业文档的XML表示与存储实现步骤如下：①对企业文档做结构分析，抽象并提取其共同属性和结构；②通过DTD定义文档的通用标准和标记集，以树型结构表明知识片段间的联系；③基于DTD标记与结构实现一般文档到XML文档的转化。图2是某一类文档的DTD示例，其指定将该类文档转换为XML文档所需且必须引用的标记以及结构。例如，必须有一个TTTLE子元素、一个或多个AUTHOR子元素、有或没有SUBTTTLE子元素等。当建立起企业某一文档类型的DTD后，实现一般文档到XML文档的转化，只需要对企业知识管理工人甚至一般员工进行很少的培训就可使其迅速掌握转化与编写要领，并使其速度“几乎与文字输入速度一样快”。因此，通过基于XML的Web页存储企业的文档型知识不仅易于实现，而且效率很高。图3演示了相应于前述DTD的XML文档结构及DTD声明。

图2 DTD示例

图3 XML文档示例

XML实现内容与表现分离的方案有两种：“XML+CSS”和“XML+XSL”，XML文档最终呈现在用户端的知识外观样态则由CSS或XSL决定。同一文档知识可根据用户的不同需要，以不同的文档视图呈现给用户。CSS比XSL具有更为广泛的支持(Internet Exploer5.0和Mozilla5.0便能很好地支持CSS Level1和部分CSS Level2)，也更为成熟；但XSL功能上比CSS强大，代表着发展的方向。笔者采用后者。XSL指令能够提取存储于XML文档中的任何数据，包括属性值和子元素数据，如上例中的标题、作者等。

文档知识库可以直接存储基于XML的Web页。笔者则利用XML与数据库可协同工作的特点，将实际数据(如属性值)保存在RDB的多个表中。基于XML的结构化特征，利用转换软件可以从RDB移出数据或把数据存入目标数据库；甚至可以用适当的DTD利用XML作为中间格式来转换不同格式的文档。这对于大型应用尤其适用。

2.2 .KM中的人工神经网络

如图1，蕴涵在样本数据中的样本型知识通过ANN(artificial neural network)的形式实现存储与维护。事实上，这已经成为AI领域的一个产业化分支[11]，笔者直接引入AI领域的成熟结果实现对样本型知识的存储与组织。

ANN将有关某一问题的若干知识通过各神经元间的连接权重隐式、分布地存储在网络结构中，连接权重代表了系统知识的当前状态。连接权重的分布决定于网络的拓扑结构，常见的拓扑结构有：前向网络(图4-a)、侧抑网络(图4-b)和(图4-c)、反馈网络(图4-d)和(图4-e)和全互联网络(图4-f)[12]。图4-f简要描述了单一层次四神经元所构成的全互联网络的拓扑结构。该网络是近来提出的更接近人脑神经系统结构的拓扑结构，网络中的任意两个神经元之间都存在连接路径；当网络为多层结构时，整体结构将异常复杂。KM中具体采用何种ANN拓扑结构，应视企业的具体应用领域的实际情况，并通过多次模拟实验确定。同其他类型知识一样，样本型知识也需要进行维护与进化处理。这一过程对ANN来讲，只需用新的样本实例重新训练网络，而不需要对网络结构做新的调整。这是ANN系统可维护性好的具体表现。

图4 ANN拓扑结构

2.3 .KM中的规则库

规则是AI领域基于知识系统的主要知识形态，一般对应于领域知识(如企业业务操作规范)、行家里手高明晰化的经验以及元知识等；规则库是以某种组织结构存储于计算机内的规则集。传统AI领域直接以PROLOG规则表示产生式，规则库是PROLOG程序的必要组分[13]。由于规则与其处理系统的紧耦合关系，严重影响了系统的鲁棒性和易维护性。

笔者认为，规则应独立于其处理系统存储于外部介质，并且要抽象出规则间层次推理关系、形成有效库结构，以确保规则处理系统的运行效率，亦即支持知识链后续环节的效率实现。基于上述考虑，笔者设计新型KM规则库组织结构(见图5)。图5C为规则前件，R为规则后件。对企业规则集做关联分析将其归并为一棵或若干棵推理树，在其导引下将规则库中的规则组织成层次结构；将不同推理树中的规则进行聚类，使整个规则库呈现出分块、分层的多树结构。由于含析取式的规则可分解为几个只含合取式的规则，则规则总可归一化为：“IF(条件1)AND(条件2)AND…AND(条件n)THEN断言/动作”形式。但如只存储规则前件与后件，则无法体现规则间的推理关系。为此，笔者给每条规则增加指针信息。该信息既可以作为规则的唯一标识并以其为索引，也可以存放关联信息以指征规则间的推理关系。鉴于推理树中每个节点(根节点除外)有且只有一个父节点，因此该指针信息只用来指引当前节点的父节点。如此规则库结构能够方便规则的调度和搜索(通过上层规则调度或搜索下层规则)，使得规则调度灵活、迅速，从而提高KM知识链后续环节的推理效率。

图5 KM规则树结构

2.4 .KM中的案例库

案例知识的存储结构源于CBR(case based reasoning)研究中对记忆组织模型的探索。1982年Schank[14] 提出动态记忆理论及其记忆模型——MOP(memory organization packets)，而后Bruce Porter[15] 提出又一种认知模型——ECR(exemplar-based concept representation)，Hunt[16] 等人则提出了基于免疫系统的记忆模型。在具体应用领域，一些学者放弃复杂的存储模型转而提出针对具体应用的相对简单、实用的存储结构，如刘启林[17] 等提出具有分级模型属性的树状结构，王贤坤[18] 提出将案例横向分类、分库存储、分级索引等。

针对案例型知识的强结构性和高层次性，笔者提出多层“塔状—网络”的KM案例库结构，如图6所示[19]。关于KM案例知识表示，笔者将框架与面向对象方法相结合、在抽象策略的指引下实现之。相应地，在存储结构上把每一个案例框架抽象为一个多面体结构，多面体的面对应了案例的方面(aspect)或框架的侧面。两个案例间的关系通过相应方面间的关系得以体现。如此，单一抽象层次上的案例集便构成了以多面体为节点的网络结构。抽象策略的引入使得描述同一知识主题的案例间呈现层次关系，每一层次代表一抽象级别。高抽象层次案例相对于低层次案例省略次要方面，保留案例主题的基本特征，可以作为低层次案例的模板，并且可以作为低层次案例的父类为其提供方面继承。

图6 KMB“塔状-网络”案例库结构

传统CBR案例库都设计成直接存取式，案例数据直接存储或读取于案例结构。如此模式不够灵活，束缚了系统的柔性、阻碍了系统进化，案例库组建困难，并且不能做到从多重视角描述和表达同一案例知识。文献[20] 提出了实例形式化策略，文献[21] 则提出了案例数据与案例结构相分离的策略。笔者借鉴这一思想，将KM案例库设计成开放模式，如图7所示。它将案例看作为针对特定目的、反映企业活动的相关底层数据的虚拟视图，通过一组映射函数实现从底层数据库的数据模式到案例库的案例模式间的映射。映射函数分为两类：一类从底层数据库向虚拟案例模式映射属性值以便构成案例实例；另一类建立唯一标识虚拟案例实例的属性数据的最小完备集，称之为签名映射(signature mapping)函数。当一个虚拟案例模式对应多个底层数据库时，签名映射必须能够提供充分约束，以便从各个数据库中识别出与案例相关的数据。一个虚拟案例实例的数据不仅可以从底层数据库导出，也可以间接从其他虚拟案例部分导出。如图7，两个案例模式通过签名映射函数对底层数据库形成映射约束，模式一对应两个数据库，模式二对应一个数据库；通过一般映射函数从底层数据库导出案例的相关属性值。模式一通过签名映射与模式二建立联系，其属性Feature1的值从模式二的对应属性间接导出。通过案例模式定义及其映射函数便可从企业的相关底层数据库导出各种所关注的虚拟视图——案例实例。图中用尖括号括起来的属性表示该属性及其属性值。

图7 AIKMS案例映射结构

2.5 .KM中的模型库

企业大多数决策是“模型驱动”的，模型化知识是企业知识的重要组成部分。对于过程性强的单一方法性模型，笔者采用传统的程序模块表示。为了提高决策效率，显然模型库不能是各种程序模块的简单堆砌，而应组织成更具效率的结构层次。在存储策略上，一般有两种方案可供选择[21]：①直接在模型库中按照模型的数据结构保存模型的所有数据及程序；②将模型以标准程序文件的形式保存在固定区域，模型库则保存模型文件的存放位置及相关信息。笔者认为第二种方案具有较高的灵活性、易维护性和可扩展性，故采用之。

如图8所示，笔者以索引表(index table)和模型字典(model dictionary,MD)来存储模型位置及相关信息(模型元数据)。索引表保存模型索引信息以方便对模型分类、查询和修改以及对模型的选择与组合，其表项定义为：索引表表项：：=｛模型ID、模型名、模型类别、目标程序名、存取路径、前驱模型ID、调用权限｝；MD存储模型的详细描述信息，其表项定义为：模型字典表项：：=｛模型ID、源程序名、功能说明、适用条件、实现语言、编译系统、模型输入、模型输出、开发者｝。索引表中的前驱模型ID表征模型库的组织方式，便于模型间调用与组合。它既可以是单个模型ID，也可以是多个模型ID的析取与合取式。在并行环境下，前驱模型ID可起到模型调度约束作用，例如，当模型M1的前驱模型ID值为“M2&M3”时，表明只有当M2和M3均被执行并得到输出后方能调用M1；当模型M1的前驱模型ID值为“M2‖M3”时，表明只要当M2和M3至少有一个均被执行并得到输出后，就能调用M1。显然，会有模型的前驱模型ID值为NULL，此即元模型。索引表与模型字典均存储于RDB的二维表中，每个元组对应一个模型文件。

图8 AIKMS模型库索引表结构

2.6 .KM中的知识定位器

KM知识地图之知识定位器是关于企业编码知识的元知识总览与有机合成，揭示企业编码知识资源的总目录及其类别、层次关系。KM知识地图将数据库与Web两种成熟技术相结合，并在计算机网络技术的支持下得以发挥效能。知识定位器将企业编码型知识的元知识以XML文档表示和存储，存放于企业内联网的Web服务器上，并通过Web浏览器显示。在组织策略上，笔者将知识定位器基元MK分为两部分：①索引信息，包括：知识ID、知识主题、特征关键字、相关后继知识ID、所属知识库、存储媒介、存储地点；②描述信息，包括：知识表示方法、功用说明、有效性描述、适用条件、使用方法、应用实例、知识提供者、用户范围与权限、用户获取方式、获取日期、最后更新日期、最后访问日期。两部分分别对应DTD的两个Section，如图9所示。类似于模型库索引表中的前驱模型ID，XML通过其索引信息部中的相关后继知识ID将企业内同一主题的各类知识组织成知识树，展现知识间层次关系，并通过超链接的方式方便对相关知识的查询与访问；此外，通过Web页的显示方式可以借助浏览器查询功能提供全文检索。知识定位器通过侦听部件实时监测各层知识主体对知识的访问以及各类知识库的更新，并针对这些变化触发知识定位器相关元素和属性数据的更新操作，从而确保知识定位器的有效性。

图9 KM知识定位器DTD

3 结语

知识管理作为与知识经济相适应的新型管理理念与模式，已经成为理论界和产业界提升新型企业竞争力的有力途径。如何对企业知识进行有效存储与组织，直接影响着企业KM实施的效率和有效性。

本文基于知识谱线理论对企业各类型编码知识的存储与组织进行了深入探讨，期望能对企业KM的有效实施提供帮助。

标签：xml数据库论文; xml格式论文; 网络模型论文; 关系模型论文; 数据库系统论文; 信息存储论文; 层次模型论文; 网络编码论文; 策略模式论文; 数据库结构论文; 编码转换论文;

知识管理中编码知识的存储机制_xml数据库论文

猜你喜欢