国外多领域数字资源整合研究进展_语义分析论文

国外多领域数字资源整合研究进展_语义分析论文

国外多领域数字资源整合研究进展,本文主要内容关键词为:研究进展论文,资源整合论文,国外论文,领域论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

信息技术的迅速发展、人类生活学习工作所处信息环境的不断改变以及用户信息需求的持续提高,是数字资源整合的技术前提和需求动因。在利润、利益或职责的驱使下,国外政府、企业以及第三方部门都积极地进行数字资源整合。美国、欧盟等发达国家和地区投入了大量的人力、物力研究数字资源整合。例如,美国国家航空航天局的信息分享与整合组(The Information Sharing and Integration Group)、美国生物医学信息学研究网络(Biomedical Informatics Research Network)的信息整合工作组(Information Integration Working Group)、德国洪堡大学的“信息整合组”等都是世界著名的以信息整合为主要研究方向的科研机构。与此同时,国际上还召开了许多关于信息整合连续性的国际大会,如网络信息整合国际研讨会(International Workshop on Information Integration on the Web,从1998年起至今已召开9届)、信息整合与基于网络的应用与服务国际大会(International Conference on Information Integration and Web Based Applications & Services,从1999年起至今已召开13届)、W3C数据与服务整合研讨会(W3C Workshop on Data and Services Integration)、ILL

修回日期:2013-03-12本文起止页码:5-12

随着互联网的飞速发展,信息内容及其组织形式愈发复杂多样,已经超出了一般用户的认知能力。因而,人们对网络信息服务的内容、方式和成效的要求也越来越高:①希望实现一站式的搜索和获取,避免从多个网站重复搜索造成时间浪费;②希望直接获得所需内容,如“微信息”、“微数据”和“知识元”实现碎片化阅读,提高阅读效率;③希望利用智能终端便捷地获取自己所需的信息。特别是随着移动互联网的迅猛发展,这种需求倾向更加明显。目前一些网站也推出了手机版,但信息内容的组织与服务方式基本未变,仍然难以满足用户的需求。究其原因,以往信息组织的目的主要是为了用户发现与获取信息,而现在用户更加重视对获取信息的认知和利用。因而,需要从新的视角探索既适应用户认知需求,又符合网络信息资源发展变化新特点的信息组织方法。

1 网络信息资源组织研究视角分析

对信息资源进行组织管理和开发利用一直都是图书馆学、情报学和计算机科学等众多学科领域探讨的重要课题。从方法论上看,信息组织有4种研究范式:客体范式、交流范式、行为范式和认知范式[1]。通常,不同学科的研究范式和视角也不尽相同。

1.1 图书馆学的主要研究视角

图书馆学关于信息组织的研究范式主要是客体范式,即将各类信息(如纸质文献、数字资源和网络信息等)作为研究对象,通过对其属性、关系的分析描述与标引,探讨其聚类和序化的方式与方法。分类法与主题法、元数据、规范控制、概念关系揭示和本体等是其主要研究内容。其研究视角主要有:①通过构建科学知识体系类分科学文献,如《中国图书馆分类法》和《中国图书馆分类主题词表》等;②通过对信息属性的描述,揭示文献信息内容及其关系,实现信息聚类与发现,如DC元数据研究;③通过规范控制,实现异构信息资源整合与统一检索;④通过概念关系揭示构建学科领域本体,如FRBR《书目记录的功能需求》、FRAD《规范数据的功能需求》和FRSAD《主题规范数据的功能需求》[2]等。

分类法、主题法作为传统知识组织方法,一直是图书馆学研究的重点。随着互联网的发展,图书情报学针对网络信息资源的组织管理问题积极开展了广泛深入的研究。2002年,信息产业部为规范网络信息资源组织,颁布了“网络信息分类系统(SJ/T11268-2002)”,作为各种网络分类法兼容互换的依据。它的编制充分吸收了现行的行业分类、知识(学科)分类、文献分类、产品(商品)分类和网络信息分类的优点[3]。随后,又颁布了《全国电子政务主题词表》和《中文新闻信息分类》国家标准等。但是,由于网络信息呈指数增长,传统的组织方法难以适应网络信息快速发展的需要,因而近些年研究重点转向了分类主题词表的网络化和自动构建、自动分类、自动标引,不同分类体系、词表或元数据的互操作以及叙词表的语义化与本体构建研究等方面。

1.2 计算机科学的主要研究视角

计算机科学对信息组织的研究主要是交流范式,主要研究用户如何与计算机信息系统交互、查询信息等。其主要研究视角是:①智能组织——自动分类与标引,主要研究网络机器人自动采集、标引和分类,提高对网络信息资源的组织加工效率[4]。这是现有门户网站普遍采用的方法,通过网络机器人对网页的遍历,抽取关键词,自动进行分类和归类,建立指引库供用户搜索[5]。②全文索引——实现自然语言检索,提高检全率和检准率。③自组织——大众分类法,让用户标注信息,提高网络信息资源的描述准确度。根据网络信息资源的特点,为用户提供工具,让用户对网络资源添加社会化标签,进行分类和语义标注[6],既提高标引的准确度,又节约成本,如Delicious、CiteULike、LibraryThing、豆瓣读书和新浪博客等[7]。④语义组织——本体,实现网络信息资源的语义内容的组织管理。主要研究知识的语义表达、学科领域本体的构建和语义检索关键技术与工具等。⑤区域组织——网格,实现区域信息共享,使用数据网格可以将分布式的异构信息组织起来,实现资源共享和信息集成[8]。

1.3 现有网络信息资源组织研究存在的问题

概括地说,网络环境下图书馆学主要以网络信息资源为研究对象,侧重基于传统的文献信息分类组织思想与主题词表对网络信息资源组织的科学性、完备性和适应性等问题的研究;计算机科学主要以互联网环境下用户信息搜索行为为研究对象,立足于提高网络环境下信息资源管理效率,注重于网络信息资源组织管理的智能化、高效率和简便性研究。二者不仅缺乏有效的融合,而且还缺乏对认知科学等的借鉴和利用。具体表现为缺乏对用户需求、认知心理和能力的跟踪、分析和评价;缺乏对用户需求的语义分析,对获取信息、认知和利用的关联度分析;缺乏对网络资源内容的深度揭示以及对关联关系的深度挖掘与组织。加工、组织、管理和服务仍然停留在较大粒度的文献、文件或网页层面,难以满足用户对网络信息资源发展变化的需求。因而,需要从有利于用户对信息认知和利用的角度出发,研究新的网络信息资源组织方法。

2 网络信息资源组织的发展趋势

近年来,国内外都十分关注网络环境下知识组织系统的理论构建、技术及实践研究,诸如概念关系揭示、语义网络构建、知识的语义化表达;叙词表、语义网络、主题图、概念图及本体等知识组织技术及其实践应用研究等[9]。图书馆学专家侧重于概念关系的揭示、词表的语义化、基于叙词表的学科领域本体构建以及基于本体的知识组织理论体系研究;计算机科学专家则侧重于知识的语义表达、本体构建和本体应用的关键技术等研究。总的来看,都在朝着人工智能和语义控制两个方向发展,以实现面向用户的网络信息资源的精细、深度和动态组织。

2.1 细粒度精细组织

随着用户信息需求的日益精确化,信息检索与挖掘研究呈现细粒度和语义(关联)化的发展趋势[10]。细粒度是相对于大粒度的文献和文件等而言的。一是从物理量上看,其字节数较文献或文件少;二是从语义内容上看,其所含语义内容较文献或文件少。精细组织也是相对于现有的以文献或文件等为主的信息组织方式,是指将信息资源中具有一定意义和价值的概念、图表、数据等较小粒度的知识单元挖掘出来,利用一定的方法和手段加以科学组织。

2.1.1 知识元 温有奎等认为:主题可再分为描述事实、数据、公式等的最小知识单位,称为知识元[11]。世界范围内众多研究者认为,知识的保存、管理和利用目前仍停留在以“文献”为单位的传统方式上,从而构成知识发现和利用的瓶颈。解决人类知识资源利用的办法是将知识的控制单位由“文献”深化到“知识元”,这也被认为是图书情报学取得突破的关键问题[12]。早在20世纪80年代,赵红州教授等就开始系统研究“知识单元”问题[13]。马费成教授认为数据单元也可以称为知识单元,它是由各种事实、概念和数值等组成的。周宁、姜永常和郑邦坤等都提出将文献细化为知识元进行组织与服务的构想[14-16]。世界著名期刊Nature也开始对文献中的重要知识点进行标引。中国知网几年前就开始对文献中的一些概念、图形、数据和创新点进行挖掘,并提供数字、图形、表格和概念搜索服务。由此可见,由大粒度的文件网络向细粒度的数据网络发展是大势所趋。

2.1.2 科研数据 科研数据是指科研活动中产生的数据,是科研成果编写的重要依据。科技文献等信息资源中包含有大量的有价值的数据。许多用户查询信息的主要目的就是为了获取文献中所包含的数据,其价值已经开始得到越来越多的认可。美国、英国等国家的一些组织和图书馆已经开始着手对科研数据的管理与服务工作。2011年,英国联合信息系统委员会(Joint Information Systems Committee,JISC)发布了《数据中心:使用、价值、影响》报告[17]。英国科学与技术设施理事会发布了科学数据政策,要求受其资助的科研项目都必须参照最佳实践方法制定数据管理计划[18]。2006年,万维网的发明者T.Berners-Lee在《关联数据构建笔记》等一系列文章中分析了Web的发展和演化,提出了当下发展数据网络(Web of data)的思想[19]。

2.1.3 微信息 从现有的网络应用看,人们越来越喜欢获取和使用更小粒度的信息,如备受人们欢迎的微博和微信。除此之外,诸如微数据、微数据杂志、微小说和微视频等也越来越受到人们的青睐。这不仅反映了人们信息需求的倾向,而且从信息组织、传播和利用看,其效率更高。因此深入到文献或网络资源内容之中,实现对知识元等细小粒度实体的分析、挖掘、揭示、聚合便成为未来网络资源组织研究的必然选择。

2.2 语义深度聚合

揭示、描述信息内在语义及其之间的关联关系,是实现语义信息组织的基础。语义关系揭示得越丰富,信息资源聚合的深度与效果就越好。所以,要实现精准发现,提供精细服务,就需要将大粒度的网络信息资源碎化为细小粒度的知识元等细小实体,实现知识元的深度聚合。“聚合”借用了有机化学的概念,意即通过人工智能等技术实现知识元的融聚并产生新的知识元。聚合不同于传统信息组织与资源整合,也不仅是资源物理上的整合,而且有语义上的融合。整合的结果是1+1=2,而聚合的结果则是1+1>2。贺德方等按照聚合的实现方式将基于语义的知识元的深度聚合分为三种类型[20]:①基于概念及概念关系的聚合;②基于引证关系的聚合;③基于科研本体的聚合。基于语义的知识元的深度聚合有助于将不同主题学科、不同内涵外延、不同属性关系的知识内容进行识别、标识和关联,形成集概念主题、学科内容和科研对象实体为一体的立体化知识网络。国内对该领域的研究才刚刚起步,亟须深入。

2.3 动态组织

动态信息组织主要有两方面的含义:①将语义信息序化法与语用信息序化法相结合。即在保持原有分类体系框架(语义信息序化法)的基础上,依据用户的实际需求情况动态设类(权值序化法),动态揭示类间关系(逻辑序化法),及时增、删、改类目,更新、维护类目设置,稳中求动,使网络信息组织更加符合用户的需求。②依据用户使用设备或获取渠道和手段的不同,随时优选和浓缩信息,对信息搜索结果进行后组织。简文晖和甘春梅等也提出了采用“动静结合”方法变化类目[21-22],即在保证基本知识大类“静”的前提下,根据用户变化的信息需求“动态”更新类目的划分。例如,为了便于用户以最快捷的方式访问网站提供的热门栏目和信息,在栏目的设置上,可以不拘泥于原有分类体系的逻辑层次划分,而是根据信息量和访问频率提升某些重要栏目的级位,将网站最有价值的内容放到突出位置。因此,网络信息分类组织应该是动态的,又是相对稳定的,这样能较好地适应网络信息快速变化的要求。

概括地说,网络环境下,用户的信息需求层次日趋提高,要求信息组织管理由原来的“广、快、精、准”向“深、动、精、细”转变,具体表现为:①由基于信息外在属性聚类的组织模式向基于语义内容深度聚合的组织模式发展;②由单粒度、大粒度的信息组织模式向多粒度、细粒度组织模式发展;③由静态组织模式向动态组织模式发展;④由检索前组织向检索后组织发展。最终形成一个适应复杂信息环境、满足用户多层次需求的多粒度、多层次的动态组织模式。

3 网络信息资源组织研究可探索的空间

由上述分析可知,未来网络信息资源组织研究仍存在较大的可探索空间(针对以上网络信息资源组织发展趋势下的一些有待研究的重要问题):①对多粒度信息的分层组织研究。事实上,互联网上不仅存在不同类型、格式和语言的信息,而且还存在不同粒度的信息,并且现有许多细粒度的信息还隐含在较大粒度的网络信息资源中,因而需要探索新的信息资源组织方法,实现对不同粒度信息进行组织、满足不同层次用户对不同粒度信息的需求。②多语言异构资源的语义深度聚合研究。异构资源和多语言资源整合一直都是信息资源组织与共享服务研究的热点和难点,涉及语言学、计算机科学、知识工程和图书情报学等多个学科。③面向用户意图感知和认知的网络信息资源动态组织研究。个性化主动信息服务是信息服务的最高目标,相关研究已持续多年,但距目标还很远。我们对用户信息需求的感知和认知能力的研究还很欠缺,还不能准确预测用户真正需要什么,或什么样的信息及其组织与展示形式更有利于用户的认知和利用。这是一个涉及计算机科学、人工智能、语言学、脑与认知科学和图书情报学等学科的研究领域。

3.1 多粒度信息资源分层组织

信息的粒度性反映了人类认识世界的特征,多粒度信息服务是满足人们需求的有效方式。自从美国T.Y.Lin教授于1997年提出粒计算的概念以来,粒计算已成为人工智能领域研究的热点。多粒度Web信息融合研究也成为研究前沿和趋势[23]。事实上,随着用户信息需求层次的不断提高,单一形态的文献或网页,或单一粒度的信息组织和提供服务已远远无法满足其需求,因而,多模态、多粒度信息资源组织问题日益突出。

依据被加工程度,情报学将信息分为一次文献、二次文献和三次文献。这些信息除了被加工程度不同外,其粒度也存在较大的差异。其中二次文献,如题录和摘要,其粒度小于一次文献。而三次文献从内容上涵盖更多的一次文献或二次文献,其粒度大于一次和二次文献。互联网上信息内容和粒度差异更大,既有超大粒度的导航网站和门户网站,又有大粒度的文件,还有较小粒度的微信息、微数据、图片和图表等。但不同类型和不同粒度的信息之间缺乏彼此的联系,不利于用户的整体认知和利用。若能够将多类型、多粒度的信息统一加以科学组织,不仅可以减少用户频繁搜索的麻烦,而且从认知科学看更有利于用户从整体上对事物的认知。例如,万方数据已经将博客信息整合到了其数据库检索结果之中[24]。中国知网已经将文献中的图片信息整合到单篇文献的显示之中[25],这些都是很好的例证。

对于单粒度信息,诸如文献或文件、书目或元数据以及数据库等的组织管理,图书馆学等已经建立了科学的方法和理论体系,但对细粒度信息的组织管理研究较少。温有奎和陆伟论述了知识元的挖掘与知识发现等问题,为细粒度信息的组织奠定了基础[10-11]。但细粒度信息的组织管理和服务还存在诸多问题:①细粒度信息的界定问题。尽管国内外许多专家都认为文献应碎化为细粒度的单元,但对这个细粒度单元是什么,认识还很不统一,如数据元、知识分子、知识原子、知识基因、知识单元和知识元等。②细粒度信息的模型与描述问题。细粒度信息具有什么样的结构,其模型如何表达?如何对其进行语义描述?③细粒度信息的组织方法。④细粒度信息与其他粒度信息的混合组织问题。

3.2 多语言异构信息资源组织

3.2.1 异构信息资源整合 异构信息资源的组织管理研究由来已久。T.Wilson、马大川、黄晨和马文峰等从不同的角度提出了“网络信息资源整合”的概念、层次和维度等问题[26-29]。R.D.Cameron、J.Borbinha和A.Franco将异构信息整合研究概括为以下5个方面[30-32]:①基于OPAC系统的数字资源整合;②基于导航系统的网络资源整合;③基于跨库检索系统的网络资源整合;④基于元数据的网络资源整合;⑤基于语义Web的资源整合研究。

关于异构信息资源组织,目前解决得较好的是前端问题——实现了部分数据库系统的统一检索。但仍然存在许多有待研究解决的问题,较为突出的是检索结果的组织较差,不仅没有实现统一的数据呈现模型,而且重复、错误信息较多。表面上减少了用户检索的次数,实际上又增加了用户选择、判断的负担。因而,对统一检索或搜索结果的再组织是有待探索的重要问题。

3.2.2 多语言信息资源组织 在全球开放环境下,任何地方、任何时候和任何问题的解决都需要查询和利用多语言信息。这给不同语言和文化背景的用户群对信息的理解和利用带来了不少的困难。研究和开发多语言信息组织与检索,帮助用户从复杂的多语言信息中发现、浏览、认知和利用相关信息是一个非常重要的研究课题。因而,近年来有关跨语言信息组织与检索的研究与日俱增,成为一个语言学、图书情报学、计算机科学等多学科交叉的热点研究领域。

跨语言信息组织与检索研究涉及文字处理、词表映射、机器翻译和信息检索等众多问题。从有关文献看,计算机科学的研究热点有“机器翻译、查询扩展和检索性能评价”等[33-34]。图书情报学研究主要集中在多语言词表映射等方面[35-36]。概括地说,尽管研究的视角和侧重点不同,但主要集中在检索环节的多语言问题处理,主要是对不同语言检索词的自动映射、规范或翻译,而没有深入到检索前不同语言信息的语义组织或检索后的不同语言信息的语义关联、去重、相关度分析和再组织研究。从信息生命周期看,对检索前的多语言信息组织和检索后的多语言检索结果的再组织处理研究较少。因此,应从信息生命周期不同环节对多语言信息资源的组织和检索进行深入研究。

3.3 基于用户认知心理的信息组织

当前,信息环境越来越复杂多变,用户信息需求层次越来越高,需求内容更加精细,获取信息的途径、方式和手段更加灵活多样,给信息服务带来了更大的挑战,所以,信息组织应更加重视以人为本,从有利于用户对信息认知的角度开展研究。简言之,就是要以感官直观感受和思维活动特点作为基本框架,灵活调节合理的组织形式,进行有序、有效的组配,以符合读者获取感受作为最重要的信息获取原则[37]。

3.3.1 基于用户意图感知的信息组织 意图是希望达到某种目的的打算。感知是客观事物通过感觉器官在人脑中的直接反映,在很大程度上与期望有关,受经验、当前环境和目标影响[38]。用户意图感知或称用户意图识别,一是能区分当前用户状态和行为角色;二是能根据用户所需服务进行聚类;三是能提高服务质量和用户对服务的满意度[39]。曾鹏等利用Agent技术探讨了用户意图识别与知识组织问题[40]。

认知心理学研究发现,信息组织和检索结果与用户期望越一致,用户满意度就越高,信息利用率也越高。当前,科学研究已经进入到数据密集型的科学发现第四范式阶段,哪怕在狭小领域,任何人都难以仅依靠人工检索、阅读、分析所有相关内容,有效分析和利用信息成为一个日益复杂、负担沉重的问题[41]。T.F.Frandsen研究发现不同专业领域的用户有着不同的信息行为习惯和模式,对不同类型的信息和知识有着不同的偏好,例如,T.F.Frandsen通过对生物、数学、药物和药理学科学领域期刊引用的行为进行分析,揭示出在开放获取期刊中,不同学科用户的引用行为存在着巨大差异[42],这就需要一种能够有效揭示用户需求、感知用户意图的机制,以有目的地为用户组织信息。

国外一些学者已经意识到获取用户意图对于提高服务的重要性。M.R.Herrera和R.Campos等论述了在信息搜索等服务中用户意图的识别问题[43-44]。目前,已有研究机构围绕网络学科领域资源深度聚合与导航服务等领域开展了有针对性的个性化组织研究,如S.S.Sahoo等利用语义Web技术(RDF、OWL、SPARQL)创建了一个生命科学领域的语义整合数据库[45]。O.Lino等创建了一个集成Web 2.0应用程序和内容管理系统的个人学习环境控制平台,该平台支持学生个性化的信息整合以及学术研究[46]。

3.3.2 基于用户信息认知心理的信息组织 认知是指人们认识活动的过程,即个体对感觉信号接收、检测、转换、简约、合成、编码、储存、提取、重建、概念形成、判断和问题解决的信息加工处理过程。用户对信息的认知受自身条件、信息内容、组织方式和表达形式等多种因素影响,科学合理的信息组织方式和表达形式有利于用户对信息的认知和利用。科学研究发现,用户对外界信息的感知有80%以上是通过视角系统得到的[47]。而且点、线、光栅纹、颜色对人们视角的刺激是不同的。信息可视化有利于用户的认知,因而,为了提高用户对获取信息的认知,国内外开展了信息可视化研究,包括检索可视化、知识可视化和知识图谱等。如美国加利福尼亚大学伯克利分校图书馆利用Tilebar图形描述和检索信息资源。由于操作形象直观、效率高,深受用户好评[48]。再如美籍华裔学者陈超美教授开发的CiteSpaceⅡ科学文献中新趋势与新动态的可视化系统[49],是能够发现后,以有利于用户认知的可视化方式加以组织和呈现。

信息的可视化展示和表达有利于用户对信息的认知,但影响用户对信息认知的因素还很多。目前,我们对于用户对信息组织、检索和利用效果的实证研究还很少。因而,应该从用户认知心理的角度分析研究用户在获取和利用信息过程中心理的变化,据此来实现对信息组织的优化。故此,基于用户认知的信息组织研究将促进图书情报学、认知科学和计算机科学的交叉融合和发展。

4 网络信息资源组织研究视角新探

视角这一概念实际就是一个解释社会现象、过程及关系的特定的切入点,而研究视角就是研究解决某个问题的角度或切入点。依据上述分析可知,目前信息组织研究领域最为突出的问题是复杂信息环境下多语言、多粒度、异构信息的语义深度组织和基于用户认知的信息动态组织。这些问题需要融合多个学科的知识,从新的研究视角(针对以上可探索空间中存在的有待研究的问题的一些研究解决问题的角度)进行研究能有效地解决。

4.1 基于关联数据的信息深度聚合研究

1955年加菲尔德在《科学》上发表了《科学引文索引:文献学中贯穿观念联系的一个新维度》一文,提出把图书期刊论文之间的引用关系,作为检索科学情报的新方法[50]。这就是建立科学引文索引SCI的重要思想。其实,关联关系比引文关系更普遍,文献间的引用关系只是一种显性关联关系。那么,能否利用文献间普遍存在的丰富的关联关系对文献进行组织管理呢?

滕广青指出,随着柔性化知识组织体系的构建和对知识体系研究的不断深入,超出了传统的顺序、等级、属类的知识链接和知识管理为探索存在与知识之间的语义关联关系提供了新途径[51]。因此,知识链接与知识关联的研究将成为未来知识组织体系研究的一个主要方向。因而,近年来关联数据研究逐步受到重视:一方面,关联数据技术是语义Web实现的最为有效的途径;另一方面,关联数据也为资源间语义聚合提供了切实可行的技术路线。关联数据的核心是将数据和网络融合起来,实现网络即数据的伟大理想。这是对网络信息资源的一种新的重组,具有革命性的重大意义[52]。关联数据通过发布和链接网上结构化数据使得来自不同领域的数据相互关联,显然,它也可以用于在不同来源数据之间创建链接。然而,关联数据的作用并非是简单地链接这些数据,而是使用RDF语义三元组来形成链接世界上任何事物的数据网络。通过对各种形态资源关联数据的建立与发布,让网络信息资源携带语义并建立彼此之间的关联。所以,关联数据为不同类型、不同语言、不同粒度网络信息资源动态聚合提供了一种新的研究途径。

因为关联数据的重要价值,近年来国内外相关课题增多。2011年美国国家科学基金会的项目“EAGER——基于语义网的广泛分布式数据发现与关联研究”[53],2010年英国信息环境规划署的项目“关联音乐元数据”[54],“链接文件、作品和文本”[55]、“开放引文”[56]和“开放书目”[57]等项目,都在探索利用关联数据实现信息聚合的理论方法与技术。但从相关研究项目的研究目标和有关文献看,目前的研究主要集中在数据的关联化发布方面。简单地说,相关研究还处于初级阶段,基于关联数据的信息组织理论还未建立,与此相关的关键技术问题还未解决,如关联关系发现、更新和维护问题,多粒度信息的关联规则和算法,跨领域、跨语言的信息关联和聚合模型,基于关联数据的信息动态聚合、信息查询技术等,都悬而未决,亟须深入研究。

4.2 基于用户认知心理的信息动态组织研究

认知是指诸如记忆、注意、语言、问题解决和推理等通过心理活动(如形成概念、知觉、判断或想象)获取知识[58]。用户对信息的认知是指人们通过对信息的判断和理解,获取知识或解决问题。基于用户认知心理的信息组织的目的是提高用户满意度,激发用户对信息的认知潜能,促进用户对所获取信息的利用。

认知心理学兴起于20世纪50年代中期。认知心理学运用信息加工的观点研究认知活动。用户对信息的认知心理是其接受、理解和吸收信息内容的重要心理基础。国内外情报学家从20世纪90年代初期就认识到了用户的认知心理对提高信息服务质量的重要性。王以群等论述了用户情报认知模型[59]。董绍杰等和P.Sheridan分析了用户信息认知行为与认知能力的关系[60-61]。鲁欣和韩永青等论述了用户认知心理与网络信息组织的关系问题[62-63]。但我们目前对用户如何利用信息还知之甚少,现有的信息组织方式是否能够满足用户需求?是否有利于用户对获取信息的认知?信息组织方式与用户满意度、认知心理和能力存在什么关系?因而,需要从认知科学的角度加强对用户信息利用心理、能力与行为的研究,从而指导信息组织研究走向深入。

总之,从信息生命周期看,以往图书情报学更多地关注用户信息检索之前的信息采集与组织阶段问题的研究;计算机科学主要关注与检索环节相关问题的研究,对用户获取信息之后的利用研究还非常少。事实上,信息组织的目的主要是实现信息序化和聚类,促进用户对信息的获取,较少考虑用户对所获取信息的利用问题。如用户对所获取信息的满意度?检索结果的呈现方式和组织形式是否有利于用户选择?信息的展示方式是否有利于用户认知等。随着网络信息组织研究的深入,这些问题已经引起了人们的重视。如谷歌可以对每条搜索结果进行扩展,实现更加丰富的展示;Web of Science提供了被检文献与引证文献的关系图;万方数据的检索结果日益丰富多样;中国知网不仅设立了检索结果多种排序方式,而且展示了与检索结果相关的多类文献信息。因而,将网络信息资源“碎化”为具有一定语义的细粒度知识元,再以概念关系网络为基础,利用关联数据加以语义聚合,并利用人工智能技术感知用户意图,将用户信息需求意图与网络信息资源进行关联(或聚合),最后将聚合后的信息依据用户意图,以有利于用户认知的方式加以组织后展示给用户,是涉及多学科的一个新的研究视角。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

国外多领域数字资源整合研究进展_语义分析论文
下载Doc文档

猜你喜欢