数字资源聚合的理论基础与方法体系构建_语义分析论文

数字资源聚合的理论基础及其方法体系建构，本文主要内容关键词为：理论基础论文,体系论文,数字论文,方法论文,资源论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 引言

随着Web资源网络向语义Web知识网络的渐进渐变，在催生数字资源整合与聚合等新的概念的同时，也引发了从数字资源整合到聚合再组织模式的新变革。国内关于数字资源整合的相关研究开展较早，2002年马文峰提出数字资源整合概念[1]，随后数字资源整合的相关研究便成为了业界关注的热点，在整合的理论方法、技术、实现机制及其应用等方面取得了丰硕的成果。“数字资源聚合”作为走向知识网络环境下的信息资源再组织的一种模式，目前已成为图书情报界又一个新的研究与实践领域。2011-2013年国家社会科学基金重大项目连续给予立项支持，更引起图书情报领域对“数字资源聚合”的高度关注。诚然，国内数字资源聚合研究开展的稍晚一些，尚未形成完备的理论方法体系。鉴于此，本文从哲学和图书情报学两个视角分析数字资源聚合理论基础，并梳理出实现数字资源聚合的方法。在此基础上探讨数字资源聚合方法的融合互补。

2 数字图书馆资源聚合的理论基础

2.1 数字资源聚合的哲学基础

语义网络环境下数字图书馆资源聚合的直接理论思想最早可以追溯到古希腊斯多葛学派的“语言”理论。斯多葛学派认为，语言是知识的载体，知识通过语言来描述，任何民族的与文化中的知识的积累与传承都是基于语言的记述与表现[2]。斯多葛学派的这一思想为后来的关于知识描述的语法、语义、语用等相关理论研究奠定了最初的基础。

另一个对语义网络环境下数字图书馆资源聚合产生重要影响的哲学思想是古希腊哲学家柏拉图的“镜喻”和“树喻”思想。柏拉图认为，现实世界以照镜子的方式反映到人的意识中，人类从现实世界获得的知识以“树形”结构在人的认知空间被组织和规范[3]。在其后的时间里，这种“树形”的知识的结构关系长期主宰人类社会的发展与进步，中心制与等级化的树形知识结构(杜威十进制、中图法等)被人们普遍接受。

英国科学哲学家卡尔·波普尔在《没有认识主体的认识论》一文中[4]阐述了各自独立又相互作用的“世界3理论”。他认为，“世界1”是客观物质世界，“世界2”是主观精神世界，“世界3”是客观知识世界。如此，处于“世界3”的客观知识就成为有待人类开发探索的新世界。波普尔还提出，“世界2”(主观精神世界)的主要功能是把握“世界3”的客体(即客观知识)[5]。研究角度定位在基于“没有认识主体的认识论”的知识客观化，研究“世界2”和“世界3”的相互作用为人类探索发现知识提供了重要的能动因素。波普尔的“世界3”理论对当今语义网环境下数字资源聚合提供了坚实的哲学理论基础。

2.2 数字资源聚合的图书情报学基础

基于波普尔的“世界3”理论，布鲁克斯提出了“认知地图”理论，并希望借助“认知地图”打开通往“世界3”的大门。1980年，布鲁克斯在其论文The foundation of informotion science中首次提出了“认知地图”(cognitive maps)的概念。他认为：图书情报工作者利用分类法和索引法对文献的标引分类都不是在组织知识，而是组织文献[6]。按这种方式建立起来的系统只能向用户提供文献线索，用户通过这一线索获得原始文献，还需花大量的时间阅读分析才能获得所需要的那部分知识内容或情报。因此，他提出按“认知地图”来组织知识。“认知地图”就是分析文献中的逻辑内容，找出人们进行创造和思考的相互影响与联系的结点，按知识的逻辑结构找出人们思维的相互影响的连接点，像地图一样把它们直观标示出来，展现知识的有机结构。在认识地图上，每个知识单元就像一个结点或地址，处于创造它们的逻辑位置上，通过相应的关系与其他结点联结，形成一个有机整体。可以说，布鲁克斯的设想是知识组织的最高目标。布鲁克斯在探索知识的关联时还指出：通过关系索引把由目录耦合与同被引确立的文献网变成由知识单元直接联结的概念网，使知识体系从外部宏观结构变成内部微观结构。这种思想也表明了“世界2”、“世界3”及知识组织之间的结构及其相应的关系。

1955年加菲尔德(Dr·Garfield)在Science发表的Citation indexes for science：A new dimension in documentation through association of ideas一文，提出将引文索引作为一种新的文献检索与分类工具，即将一篇文献作为检索字段从而跟踪一个Idea的发展过程状态。自此，引文索引成为文献信息组织的重要方法，成就了一大批权威的引文索引数据库，如ISI的SCI(现发展为ISI Web of Knowledge平台)、EI(工程索引)等；进而，基于引文分析链接组织的引文检索也成为重要的知识发现和知识创新的科学查询方法[7]。通过文献引文链接，人们可以从一篇高质量的文献出发沿着科学研究的发展道路，通过对被引文献(cited reference)的追溯，越查越旧；追踪引用文献(tmies cited)越查越新；挖掘相关文献(related records)越查越深，从而实现科研的创新与发展[8]。10年后，普赖斯在其论文Networks of scientific papers中，详细而又创造性地研究了科学论文之间的引证与被引证关系以及由此形成的所谓“引证网络”[9]。至此，通过文献间的引文链接来实现科学出版物间的知识链接的意义在国际科学学与科学计量学界得到了广泛的共识。而后的无数知识链接网络图及其研究都是基于该原理以及对该原理的应用。“引文链接之所以在科学研究中具有重要意义，就在于它揭示了科学技术之间引证与被引证的关系，从而进一步展示了科学技术文献内容主题之间的相互关联”[10]。综上，根据对前人提出的知识组织核心思想的总结基础上，本文给出了数字资源聚合理论体系框架，如图1所示。

尽管近30年人类信息环境发生了跨越式发展，但上述理论思想的精髓却未因环境的变化而失去效用，反而对在语义网环境下研究确定知识点与知识点之间的关联中得到了充分的释放和展示。在数字化、网络化出版载体中，催生了一大批网络引文系统，如Google Scholar、CrossRef、CNKI等。这些成功的网络引文数据库在实现数字资源聚合的实践中，同样是对数字资源之间语法、语义、语用关系的表示，但采用的聚合维度却呈现出多元化的结构形态。数字资源聚合的维度大致可分为两类：一类是学科专业领域内的知识关联，深入到文献中的微观层面，提炼出知识元，通过知识之间在微观水平上的联系把知识直接关联起来，从而真正形成“知识网络”，支持知识搜索。如CNKI提供的知识搜索包括对文献、数值、学术图形、历史事件、学术定义、学术趋势、新概念、表格等的搜索以及翻译助手、学术统计分析、热点趋势分析等，在常规检索中可以实现相关词和相似词的扩展推荐。另一类是不同学科之间的知识关联，充分利用引文链接组织技术，对所收录的每一篇文献进行引文分析，切分引文条目，分析引文元数据项，建立深度关联的引文网络，包括基于机构关联的资源聚合、基于学者关联的资源聚合、基于主题关联的资源聚合、基于知识关联的资源聚合、基于文献关联的资源聚合、基于期刊关联的资源聚合、基于用户需求关联的资源聚合以及研究主体(机构学者等)研究客体(主题知识点))研究载体(文献、期刊)交叉关联聚合[11]。从单一维度到多元维度的变革，使得数字资源再组织的新体系能够根据用户不同的资源再组织需求设定出与之相适应的维度，拓宽了传统意义上资源再组织的视角，更易满足用户的多样化需求。

图1 数字资源聚合理论体系框架

3 数字资源聚合方法体系建构

3.1 数字资源聚合方法研究的发展历程

数字资源聚合作为适应知识网络环境下信息再组织的一种模式，近年来，围绕其实现方法研究虽然取得了一定的研究成果，但还没有形成系统的成果和方法体系。以中国知网(CNKI)为数据源，分别以“主题词表”、“文献计量”、“本体”、“社会网络分析”、“关联数据”和“分众分类法”为关键词，检索时间、学科领域不限，进行检索，统计不同年份的论文发表数量，绘制图2所示的与资源聚合相关的研究方法发展历程。

图2所示，资源聚合方法研究从起源时间上看，对主题词表、文献计量的研究开展较早，对本体的研究相对较晚，关联数据、社会网络分析法则是2000年以后才进入国内研究人员的视野，而分众分类法的应用研究开展最晚，始于2006年。从各自的发展历程来看，主题词表、关联数据、社会网络分析和分众分类法的整体发展历程都较为平稳，文献计量法从2000年以后呈现快速增长趋势，本体研究热起于2004年，但于2010年出现研究热潮衰退的现象。从论文数量看，国内关于文献计量和本体的研究文献较多，关于主题词表、社会网络分析、关联数据和分众分类法的研究相对较少，说明国内学者较为关注文献计量和本体这两种资源聚合方法，同时也启示研究人员，社会网络分析、分众分类法等其他资源聚合方法在理论、技术等方面还有较大的研究空间。应该看到，数字资源聚合有其自身的特点，所运用的方法要侧重于应用性、可操作性与有效性，必须与实际应用情境相适应，这就决定了数字资源聚合的方法体系与传统的信息/知识组织方法有所不同。

图2 资源聚合方法研究发展历程

3.2 数字资源聚合方法体系框架

对数字资源聚合方法体系的建构来说，一方面，方法是实现数字资源聚合各项具体应用目标或任务的工具，因此，方法的结构应该从总体上保证数字资源聚合各种功能的实现，即符合功能——结构的对应原则。另一方面，由于数字资源聚合方法的来源是多方面的、方法的类别和数量是众多的、方法的性质是多元的，因此，应构建一个尽可能全面的有机的方法框架，既明确反映各种具体方法之间的联系和区别，又可以扩充和发展的，可为各种方法的融合以及新方法的并入提供余地。

根据概念类聚到概念广度关联再到挖掘概念的深度语义，从实现数字资源聚合的目标与主要功能出发，建构了与主要功能相对应的方法体系，如图3所示。

该体系结构自下而上划分为概念聚类层、概念关联层和知识关联层三个层次，体现了数字资源再组织动态演化过程中知识粒度因需而由大变小，语义化程度由弱到强，形态也在语法、语义和语用之间转化；还体现了不同知识单元之间的多元化关联，以及关联的方式(直接的还是间接的)和强弱(显现的还是潜在的)上。

图3 数字资源聚合方法层次框架

社会网络分析、计量学、分众分类法、关联数据和本体等方法和技术的应用不仅成为数字资源语义化实现的重要手段，同时也分别引领着数字资源聚合的路径和发展方向，而且在数字资源语义化及其聚合的研究与实践中呈现出方法的整合与创新，并进一步拓展它们各自的应用范畴，形成新的研究领域。数字资源的语义化，具体地说就是如何在数字资源内部与资源之间建立有针对性的、适宜的语义标签[12](语义标签需具备一定的结构形式和特定的内容含义，可以有URI[13]、XML[14]、RDF(S)[15]、OWL[16]等多种实现与表达方式)，通过资源语义标签的内容反映出特定资源的语义特征，从而实现计算机对特定资源特征的识别与信息内容的理解。不论利用何种语言、方法、工具，只要能揭示数字资源内容以及资源之间的语义关系，都可以视为对数字资源的语义化。广义上讲，本体、关联数据、分众分类法、社会网络分析、计量学等方法和技术都属于数字资源语义化实现的重要手段。数字图书馆资源语义化是实现其资源利用效率的优化和知识服务的一条重要途径。

从概念聚类到概念关联再到知识关联，表明数字资源的语义化从组织语义化向内容语义化递进与融合。组织语义化是通过不同形式的标签的使用，实现数字资源组织形式的语义化，从而揭示出数字资源组织中的概念间结构化和网络化的关联。基于主题词表、社会网络分析、计量学和分众分类法的数字资源语义化是组织语义化的主要方法。内容语义化是指描述数字资源内容中的概念意义及不同概念间的意义关联。基于领域本体和关联数据的数字资源语义化是内容语义化的主要方法。

(1)社会网络分析法。社会网络分析(Social Network Analysis，SNA)是最近几年发展成熟的分析关系数据及其与属性数据关系的一种研究取向。通过对关系数据的系统分析来考察关系及其网络的特征。传统研究通常考察反映知识网络中知识结点的内外部等性质、特征方面的信息，即属性数据(attribute data)。然而，关系是指知识结点之间的联系，而非知识结点的属性。关系数据(relational data)是关于知识单元间应有的因素、结构、层次、和功能等方面的数据(Scott，2000)，主要有网络结构图(用节点(node)和节点间的连线(link)表示关系，直观地呈现出关系的结构)和矩阵法(用数据矩阵的形式呈现关系)两种呈现方式。社会网络理论涉及连通度、图中的距离等等网络属性，也涉及网络链接、引用标引、学术交流和检索行为等等不同的应用，尤其在依靠知识背景的知识发现和知识群体研究中应用广泛。

社会网络分析(SNA)为数字图书馆资源多维度语义聚合提供了新的契机。它提供了一种新的分析思路或范式——这是一种新的社会结构观。它强调关系思维，关注于对社会关系属性与结构的分析。社会网络具有高度的聚簇性和网络连通性，而社会广泛存在的簇聚性，提供了海量资源利用和发现的“省力法则”：在核心簇中搜寻资源。另一方面，社会网络分析方法提出定量分析的指标，如中心度、弱相关结构、子群体结构、连通度等，虽然还不能完全用于定量分析，但已经大大提高了社会评估准确度。运用社会网络分析(SNA)理论与方法分别构建资源关系网络图谱、作者关系网络图谱、机构关系网络图谱、引文关系网络图谱等，并基于所获得的各类关系网络图谱，使用Ucinet、NetDraw、PajekMultiNet、NetMiner、StOCNET、STRUCTURE等工具，多粒度、深层次分析各类关系网络的中心度、中心势、网络密度、凝聚子群、派系分布、结构洞、2-模数据等指标向量，进而揭示数字图书馆相关资源的核心作者(群)、学术圈、学术流派、引文关系等。

依托Ucinet、NetDraw、PajekMultiNet、NetMiner、StOCNET、STRUCTURE等工具，充分揭示数字资源的核心作者(群)、学术圈、学术流派、引文关系等。此外，还可以建立社会网络图谱到领域本体的多维映射关系。

社会网络分析(SNA)的优势不仅在于以多维网络关系揭示被考察向量的个体网和整体网指标，对指标向量可以进行中心度、中心势、凝聚子群、结构洞等多维度的考察，能够有利于实现数字图书馆资源语义关系的多维度拓展。而且更重要的是借助SNA在可视化方面的优势能够把基于语义的数字图书馆资源聚合和可视化展示推向一个新的高度。遗憾的是目前其多被用于后台数据分析，没能如分众分类法(Folksonomy)那样直接通过Web面对用户，也未能像本体(Ontology)那样提供基于Web的用户接口。在实现资源聚合中也存在着全面性差、自由度低、聚合过程复杂等问题。

(2)文献计量。文献计量作为图书情报领域特有研究方法，在数字资源聚合领域应用十分广泛，是利用数理统计等方法对相关文献的数量特征进行统计，通过数据描述的方式揭示文献资源的分布特征及变化规律的定性和定量相结合的数字资源聚合方法。文献计量法能清晰揭示学科的结构特征、发展历程和内容分布，现已从图书情报领域扩展到其他学科领域。

随着信息计量学研究的深入，提出了很多有价值的信息聚合方法，包括以信息内容为研究对象的关键词、作者分析方法，以信息利用过程为研究对象的引文分析方法等。基于内容主要体现在基于科学文献的若干知识单元(如关键词、作者等字段)之上，语义化路径是通过共词分析、作者合作分析、作者关键词耦合分析、作者文献耦合分析等语义化方式，实现相关文献多维度聚合，从而可以解释学科知识的结构或者作者间的合作关系及紧密程度。基于利用过程主要体现在科学文献作为科学知识传承载体，在知识积累和传递过程中，也就是知识利用过程中，通过相互引用形成的一种资源聚合方式，语义化路径是通过直引、共被引、引文耦合等语义聚合方式实现相关科学文献的多维度聚合。文献计量实现数字资源聚合过程中应用到的工具主要是Citespace、主图地图和统计软件等。文献计量能实现海量数字资源聚合，适应大数据时代信息资源组织的需要。

(3)分众分类法。分众分类法，又称Folksonomy，是“Folk”和“Taxonomy”的组合，是互联网快速发展的产物，作为数字资源聚合方法之一，是“以用户为中心基于大众的一致意见而产生的分类体系”[17]，用户依据知识结构、情感体验、个人喜好等赋予数字资源特征标识，研究人员通过标识规范、统计和聚类等挖掘数字资源之间的关联关系，从而扩大用户标注和检索的范围。分众分类法的主体主要是互联网普通用户，在数字资源聚合过程中，用户不需要借助专业人员、技术或工具的帮助，就可独立完成数字资源聚合任务。分众分类法“以用户为中心”，从三个维度“用户、资源和标签”对知识资源进行划分，采用标签过滤技术、标签分类技术、标签推荐技术，依托R语言、Wordle、tagCloud发生器、ImageChef等工具，实现数字信息资源再组织。现在主要应用于社会化标注网站的标签导航及热门标签推荐等方面。其中，标签云技术是分众分类法在数字资源聚合过程中常用的方法和技术，其主要通过标签的颜色及大小来区分标签的重要程度。关联标签是社会化标注系统进行资源聚合的新技术，可以深化标签间的关联关系，在一定程度上，还能够挖掘标签间的潜在语义关系[18]。

分众分类法的最大优势在于社群用户的群体意识的体现，这种完全基于用户语义认知的、兼具动态与恒定特征的知识组织体系虽然在近期增加了关联标签(Related Tag)的辅助导航，但往往会受到用户分众分类法为人们提供了一种大众的、便捷的资源聚合方式，但其语义关联度低，受控性，规范性和结构性差。

(4)主题词表。主题词表在数字资源聚合领域应用较早，是较为古老的数字资源聚合方法，指领域专家依据该领域叙词表对数字资源之间的层次和语义关系进行界定的资源聚合方法[19]，目的是将非结构化、非层级化和语义关联度低的资源体系聚合成结构严谨、层级清晰、语义关联度高的数字资源体系。主题词表的编制过程必须要有领域专家的参与，普通人员只能完成数据整理、收集等工作。叙词表编织技术是主题词表实现数字资源聚合的关键技术，利用规范化的、受控的、动态性的叙词为基本单元，通过参照系统显示资源之间的关联关系。目前，研究人员通常利用较为权威的领域叙词表，如《汉语主题词表》和《医学主题词表》等，从用、代、属、分、参等关系维度挖掘数字资源之间的语义和层级关系。主题词表实现数字资源聚合的优点主要有结构化、形式化程度高、语义关联性强、可复用等，其存在的缺陷主要是自由度低、扩展性差、时效性差等。

(5)本体。本体是指对共享概念模型的规范化、形式化和明确化的说明，其强调领域中的本质概念以及概念之间的关联关系[20]。从知识的内在属性结构而言，本体(Ontology)工程无疑是十年来这一领域的研究热点，近年来更是实现了从树形结构向富含语义信息的本体结构的跨越。本体在数字资源聚合中的作用是在资源集合的上层构建一个反映资源知识结构的本体概念模型，对资源进行基于语义的标注，从而将资源组织成知识网络。本体实现数字资源聚合的维度主要是类、实例、属性，通过聚类和关系属性判断来呈现资源之间的关联关系，实现形式化程度高、语义关联性好等效果，但其在易用性、时效性和灵活性等方面有待改进。

(6)关联数据。关联数据最早由Chris Bizer和Richard Cyganiak在向国际互联网协会(W3C)提交的“关联公开数据项目”(LinkedOpen Data Project)中提出来，用来连接和整合各种信息、数据和资源，旨在建立一个计算机可识别，并能映射自然和社会的数据网络[21]。具体涵义是指借助资源标识符(URI)与HTTP协议将标识的资源发布到网上，供用户检索和利用，从而实现全球化的数据共享空间[22]。运用关联数据实现数字资源聚合主要依靠可视化软件、通用资源标示符、资源描述框架(RDF)和HTTP协议等技术，实现资源聚合的基本过程为依据URL对各种数字资源进行有效标识(标识格式依据RDF)，再通过HTTP协议将标识的数字资源进行传输和保存，以供用户使用。关联数据实现数字资源聚合的维度主要是主体和客体。利用关联数据实现数字资源聚合有利于数字资源的跨库和跨领域组织。关联数据实现数字资源聚合面临的主要问题是无法对封闭系统内的数字资源实现聚合，这是研究人员和技术人员需要亟待解决的问题。

数字图书馆资源聚合的三个层面在实际应用中往往各有侧重：以内容语义化实现数字资源聚合，主要是通过对领域本体的增维，丰富实体属性，扩展领域本体语义维度；以组织语义化实现数字资源聚合路径较多，如将Folksonomy引入数字资源语义化分析，Folksonomy的标签中既包括揭示数字资源内容方面的tag，同时也包括揭示数字资源特征方面的tag，利用folksonomy对数字资源领域本体和资源本体进行语义拓展；将社会网络分析(SNA)引入数字资源多维度聚合向量分析，建立社会网络图谱到数字资源本体的多维映射关系，拓展数字资源深度聚合的维度。虽然在某些方面已取得了一定进展或者是重要进展，但是，无论是国内还是国外，相关的研究仍然处在起步阶段或者发展阶段，缺乏整体上的系统研究，缺少具有高度和深度的或者普遍规律意义的成果。

上述三个层次聚合并不是完全割裂的，而是可以进行融合应用的，是有望形成综合化的基于语义的数字资源多维度聚合与可视化呈现的解决方案的，如以领域知识本体为数字资源语义体系的核心骨架，在此基础上分别进行基于Folksonomy用户语义认知和基于社会网络分析(SNA)的数字资源聚类与关联分析。构建“标签聚类→资源聚合”、“关联标签→资源关联”、“网络中心→核心资源”、“网络派系→学术流派”等多个聚类与关联分析的子模型等。

4 结语

柏拉图、波普尔、布鲁克斯、加菲尔德等人的思想为数字资源聚合研究奠定理论基础石，本体、关联数据、社会网路分析等方法为数字资源聚合研究提供方法支撑，数字资源聚合的科学系统发展需要兼顾理论和方法，同时还要兼顾技术创新、维度扩展、方法深度融合等问题，当然最重要的还是研究者的投入和热情。分析梳理数字资源聚合的理论与方法，旨在为数字资源语义化与多维度聚合相关研究的继续和深入提供新的思路和更多的视角。真正将数字资源聚合由理论转向实际应用需要多学科、多领域、多维度、多视角、多方法的交叉融合。

标签：语义分析论文; 聚合数据论文; 社会网络论文; 空间维度论文; 内容聚合论文; 用户分析论文; 主题词论文; 维度论文;

数字资源聚合的理论基础与方法体系构建_语义分析论文

猜你喜欢