我国信息机构知识组织技术的研究现状与比较_中国资源论文

中国信息机构知识组织技术的研究现状及比较,本文主要内容关键词为:中国论文,现状及论文,组织论文,机构论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 国内外知识组织技术研究概述

21世纪以来,国内对知识组织技术的研究逐渐走向深入。以蒋永福、王知津、李秀云、王子舟等为代表的一批学者,对知识组织的相关概念进行了深入的探讨,张晓林、盛小平、王军等学者的加入,拓宽和加深了知识组织的研究广度和深度,旅美华人学者曾蕾、张甲、秦健也不断地介绍国际上知识组织的相关信息,这样,在国内图书情报学界掀起了一股知识组织研究的热潮。而以W3C、ISKO为代表的国际性组织,对知识组织的认识比较早,在研究的领域、开展的项目以及进行的实践等方面已经进行的比较深入,如提出了一系列的技术标准和规范,并在全世界范围内进行推广。美国国会图书馆等大型信息机构积极试验并取得了一定的成果,以麻省理工学院为代表的大学及研究所借助雄厚技术实力开展了一系列的研究项目;掌握主流计算机软件产品的Microsoft等公司对知识组织研究的影响很大。

虽然国内学者都认识到了知识组织的重要性,但是对知识组织技术的研究却呈现出两极分化的趋势。一方面是在图书情报学界,大量的论文局限于对知识组织的相关理论、概念进行反复的讨论和研究,却难以形成令人信服的结论;另一方面在技术层面,虽然也引进了如ontology、概念图等代表国际先进水平的技术,但是大多是简单的模仿和重复,缺乏有说服力的研究项目和研究成果。可喜的是,在国家层面,已经认识到了知识组织相关办断的重要性,先后开展了中国高等教育文献保障系统(CALIS)和中国知识基础设施工程(CNKI)等项目,并且这些项目已经取得了一批成果。

由于客观原因,我国台湾地区在知识组织技术方面能够紧跟国际前沿,研究和利用新技术方面,台湾走在了大陆的前面。另外,从台湾省学者发表的论文的引文看,两岸在知识组织方面的理论交流也有所展开,蒋永福、王知津、盛小平等人的论文都能在其中找到。

2 典型的中国信息机构的知识组织技术项目

2.1 台湾大学典藏数位化计划

台湾大学典藏数位化计划[1][2](见图1)是数位典藏国家型科技计划(National Digital Archives Program,NDAP)的一个组成项目。NDAP有7个参加单位,其中6个属于内容提供者,分别是台湾大学图书馆、植物标本馆、昆虫博物馆、地球科学博物馆、人类学博物馆、动物博物馆,计算机信息网络中心负责提供技术服务。整个项目收集的各类资料已经超过十万种。

台湾大学典藏数位化计划日的主要有如下的三项:保护台湾大学的自然和文化遗产、促进台湾大学学术研究、使公众可获取台大的馆藏资源。DARC(Digital Archives Resource Center)以DSpace作为开发工具,强化及新增了许多功能,收录了“台大典藏数位化计划”中六项子计划的数字化馆藏内容,并测试了OAI-PMH、Handle System的链接等功能,还进行了约六个月的专项任务研究。

DARC的馆藏中包含多种内容和数据格式,涉及不同领域的研究。改善馆藏异构信息之间的互操作是迫切的工作。由于馆藏中某类信息资源的所有者都只为他们特定的社群服务,工作相对独立,因而相互之间缺少合作和整合,而且该信息资源的所有者都有他们自己相应的数字档案系统,它们使用独立的数据结构、元数据标准、管理策略和检索界面等,导致很难在这些异构系统之间对数据进行透明的转换和整合。实际上,由于研究领域、数据类型、存储介质以及操作系统等存在的异构性,对独立内容提供者进行信息整合确实是非常困难的一项任务。

当然,DARC认为元数据非常重要,但是他们也知道元数据的映射和转换需要耗费大量的时间,并且如何构建包含各种主题的分类系统是一个大问题。但是,构建通用基础架构是学院典藏数字化产品取得成功的本质所在。在元数据方面,DARC采用DC模式进行资料检索,但保存原始元数据用于显示。在进行元数据收割(Harvesting)时,无论元数据格式如何,都尽可能保存原始数据。提供将原始元数据映射到DC模式的应用程序,这也是进行对象管理和服务开发的需要。在用户界面方面,DARC对不同的资料采取不同的显示方式,查询是基于DC元素进行的,浏览采用缩略图形式,当用户需要时再显示原始资料的元素。显示的顺序可以由用户进行定制。

DARC对于中文信息处理进行了加强,广泛应用UTF-8编码,完全适应中文操作,提供了新的中文用户界面,采用支持Unicode的PostgreSQL,使用1-gram for lucene支持中文检索和中文索引,并修补了Tomcat的代码漏洞。

DARC是跨机构馆藏的资源整合平台(见图2),用以展示数字化馆藏成果,在内容提供者与服务提供者之间搭建沟通机制,通过简单的标注程序,达到保存、使用与增值数字化馆藏成果。未来DARC将在机构间基于DARC的数字化档案互操作,定义全面的技术框架,开发系统核心元素集以支持数字化馆藏、元数据、知识组织系统等方面继续努力。

图1 DARC主页

图2 DARC的整合框架

2.2 中国高等教育文献保障系统

中国高等教育文献保障系统(China Academic Library & Information System,CALIS)[3][4][5][6],是经国务院批准的我国高等教育“211工程”、“九五”、“十五”总体规划中三个公共服务体系之一。CALIS的宗旨是,在教育部的领导下,把国家的投资、现代图书馆理念、先进的技术手段、高校丰富的文献资源和人力资源整合起来,建设以中国高等教育数字图书馆为核心的教育文献联合保障体系,实现信息资源共建、共知、共享,以发挥最大的社会效益和经济效益,为中国的高等教育服务。CALIS管理中心设在北京大学,下设文理、工程、农学、医学四个全国文献信息服务中心,华东北、华东南、华中、华南、西北、西南、东北七个地区文献信息服务中心和一个东北地区国防文献信息服务中心。

从1998年开始建设以来,CALIS管理中心引进和共建了一系列国内外文献数据库,包括大量的二次文献库和全文数据库;采用独立开发与引用消化相结合的道路,主持开发了联机合作编目系统、文献传递与馆际互借系统、统一检索平台、资源注册与调度系统,形成了较为完整的CALIS文献信息服务网络。迄今参加CALIS项目建设和获取CALIS服务的成员馆已超过800家。“十五”期间完成了全部预定资源建设任务,并超额完成建设指标,数据库数量增长了三倍,平均回溯年限从5年增加到15年,数据总量增长近10倍。共收录中英文电子图书102.3万册,外文电子期刊约24000种,中文学位论文11.6万篇,英文学位论文13.3万篇,教学参考资源10.8万种,其他全文资源(报告、会议论文、专利、标准、百科全书等)2400万篇,中外文联合书目数据库276.2万条(其中规范数据85.1万条),中外文现刊目次库大于2400万条,建设了包括77个一级学科约14万个网站的重点学科导航数据库和75个重点学科特色数据库(数据来源:中国高等教育数字化图书馆建设(CADLIS)现状与发展报告)。

图3 知网节示意图[7]

“十五”期间,国家继续支持CALIS公共服务体系二期建设。并将“中英文图书数字化国际合作计划”(简称CADAL)列入该公共服务体系建设的重要组成部分,项目名称定为“中国高等教育文献保障体系——中国高等教育数字化图书馆(China Academic Digital Library & Information System,CADLIS)”,由CALIS和CADAL两个专题项目组成。项目和总体目标明确为:在完善“九五”期间CALIS建设的基础上,到2005年底,初步建成具有国际先进水平的开放式中国高等教育数字图书馆。它将以系统化、数字化的学术信息资源为基础,以先进的数字图书馆技术为手段,建立包括文献获取环境、参考咨询环境、教学辅助环境、科研环境、培训环境和个性化服务环境在内的六大数字服务环境,为高等院校教学、科研和重点学科建设提供高效率、全方位的文献信息保障与服务,成为中国经济和社会发展的重要基础设施。

经过几年的努力,CADLIS项目已经基本建成了开放式中国高等教育数字化图书馆的框架,该框架包括数字图书馆实用标准规范体系,数字化学术文献资源体系,数字化服务应用软件体系和高校数字图书馆共享联盟等几个部分。CADLIS已经初步建成了实用化分布式数字图书馆综合服务平台,建立了保障各类高校图书馆广泛参与的共建共享机制,形成了大规模数字化加工能力,积累了海量数字资源,开展了多媒体信息处理和中国文化特色的数字图书馆技术的研发,运用数字技术抢救保护了一批珍贵的文献馆藏。

CADLIS系统具有以下一些特点:(1)采用了联邦式,松耦合结构,每个系统相对独立,每个馆彼此独立,相互关联;(2)实施CADLIS/CALIS中心、子项目中心门户、参建馆三级分布式部署方式,各级之间彼此互通;(3)通过开放链接,使每个系统、服务、资源彼此集成;(4)每个系统都是CADLIS资源保障与共享服务体系中的一个有机组成部分;(5)每个系统都遵循同样的功能规范、服务规范、数据标准和接口标准;(6)多馆联合共建,协同服务,彼此共享。

CALIS未来将在进一步完善文献资源体系,提升服务体系的保障能力,加强数字图书馆关键应用技术研究,建立可持续发展机制等方面继续努力。

2.3 中国知识基础设施工程

中国知识基础设施工程(China National Knowledge Infrastructure,CNKI)[7][8][9][10][11][12][13],始建于1995年,是以实现全社会知识信息资源传播共享与增值利用为目标的国家信息化重点工程,由清华大学发起,清华同方知网技术产业集团承担建设,被科技部等五部委确定为“国家级重点新产品重中之重”项目。CNKI工程是一个以各学科基础知识、前沿知识以及专家知识与专家经验为基本内容,以高性能计算机和信息基础设施为支持,以建设国家级知识基础和创新体系为目的的超大型知识信息管理系统。

CNKI工程的具体目标,一是大规模集成整合知识信息资源,整体提高资源的综合和增值利用价值;二是建设知识资源互联网传播扩散与增值服务平台,为全社会提供资源共享、数字化学习、知识创新信息化条件;三是建设知识资源的深度开发利用平台,为社会各方面提供知识管理与知识服务的信息化手段;四是为知识资源生产出版部门创造互联网出版发行的市场环境与商业机制,大力促进文化出版事业、产业的现代化建设与跨越式发展。这一建设目标囊括了新时代背景下知识循环的全过程。

CNKI源数据库是CNKI工程所建设的核心资源,主要包括《中国期刊全文数据库》、《中国优秀博硕士学位论文全文数据库》、《中国重要会议论文全文数据库》、《中国重要报纸全文数据库》、《中国年鉴全文数据库》等。其中期刊、博硕士论文、会议论文、报纸四个源数据库统一产品体系和导航结构,统一划分为十大专辑,168个专题文献数据库,内容涉及理工、农业、医药卫生、文史哲、政治军事与法律、经济管理、教育与社会科学、电子技术与信息科学等多个学科。期刊、博硕士论文、会议论文、报纸、年鉴五种类型文献各具特色优势,并存在广泛的关联关系,整合应用,相辅相成,实现互补,能满足读者不同层次、不同目的的知识需求。

CNKI知识网络平台KNS510基于“CNKI网格资源共享平台2.0”开发,是《中国知识资源总库》的统一管理平台。KNS5.0采用清华同方知识传播工程技术研究院最新全文数据库技术KBase,配置了支持智能检索的“概念耦合词典”,通过引证文献、参考文献、相似文献、读者推荐文献等相关文献链接,为每篇文献配置了“知网节”,将CNKI系列数据库建构为知识网络型数据库,实现了文献资源的深度内容整合和增值服务。

所谓知网节,是知识网络中知识信息交汇节点的简称,是为实现CNKI工程的具体目标而构建的一种知识网络框架。目的在于利用诸多先进技术对海量信息资源进行深度开发和广度整合,从而搭建一种方便文献资源发现和获取、高效利用资源的知识网络结构框架,使居于CNKI网格资源共享平台上的所有数据库根据需要关联成为“知识网络型全文数据库”。

任何事物均可成为知网节的主体,知网节的主体可以是一本书,一篇文章,也可以是一个作者,一个单位,一个概念。在每一个知网节上,可以汇集多类信息,如关于主体的基本信息、与主体直接关联的信息、与主体间接关联的信息。以这些信息为源点,在一定规则的支配下,通过概念相关、事实相关等技术方法揭示知识之间的各种关系,通过智能链接技术与主体外的其他信息知识产生直接或间接的多种关联,实现知识扩展,以利于知识的学习、交流、共享、发现、获取、创新。

CNKI所设计的知识网络,将知识载体的各种特征按照一定规则关联进行整序,充分揭示知识起源、形成、发展进程中的各种交互关系,在对各种特征进行多维分析的基础上,基于相似性比较、自动聚类等技术,自动聚集并动态实现各种特征之间的相关链接,组织成描述知识关联的网络。CNKI的知识网络由三部分构成:微观知识网络、介观知识网络、宏观知识网络。微观知识网络揭示了知识间的短程关联,主要反映知识间客观存在的直接关系;介观知识网络揭示知识间的近域关联,起着承接作用,将不直接关联、但相关性很强的知识聚集到一起;宏观知识网络揭示知识问的长程关联,反映学科知识间的交叉、渗透、融合等关系[8]。

3 国内知识组织技术研究成果与国外的差距

国内在某些方面已经取得了不错的成果,如中文搜索引擎技术,而且像DC2004等国际会议在国内的成功举办,也为拉近国内与国际的研究水平,了解国际最新研究成果等提供了机会。但应该承认的是,国内在知识组织技术研究方面与国际水平还有较大的差距。与国外知识组织技术的研究相比,国内研究的差距主要表现在以下几个方面:

(1)理论界、企业界和信息机构没有形成合力,导致研究方向重复、浪费了人力财力物力。尽管这方面CNKI、CALIS已经有所尝试,借助于北京大学等高校的研究力量,为自己的产品创新进行技术研发。但是这样的例子还太少,只有向国外一样在企业界、高校、信息机构之间形成了相互促进、相互利用的良性机制,才有可能在技术的研发上取得具有实际价值的成果。

(2)没有融入世界知识组织技术研究的整体中。这两年参加各种国际会议的国内学者不断增多,各种论文也时有发表,但是总的来说,国内在知识组织技术研究方面还是游离在整个世界之外,还没有见到由中国承担的语义网相关标准研究方面的项目报道。如果不能够加入到世界的主流研究中,一味地只是拿来使用,那么在下一代语义网中,可能就会失去我们的位置。

(3)缺乏实践,研究的理论多,实践少,能够转化为实际应用的研究成果更少。从国内的各类研究项目来看,有“三多三少”的现象,即研究偏概念的多,实用技术的研究少;偏技术应用的多,对知识组织技术本身的研究少;偏学术的多,能够转化为实际使用的少。

从信息组织的实践来看,我们以往注重的是对数字对象本身的组织,而忽视了对数字对象内容所揭示的知识的组织,其目的似乎更在于对数字对象的保存上。不过在信息技术高度发达的今天,对于单个数字对象的保存是否如对传统印刷型文献的保存那么有意义还是一个值得探讨的问题。但不容置疑的是,对数字对象内容中所蕴含的知识的揭示和组织才是用户更关心的。需求是技术进步的源泉。以上种种都透露出一个强烈的信号,那就是学科数字信息群已经行进在由信息组织向知识组织进化的历程上了。用户的需求、技术的进步、长期的实践,学科数字信息群正在面临着巨大的机遇和挑战。从文献组织到信息组织到知识组织的过程,既是历史发展的必然,也是信息机构对学科数字信息群组织技术不断研究探索的结果。

收稿日期:2009-07-07

标签:;  ;  ;  ;  ;  ;  

我国信息机构知识组织技术的研究现状与比较_中国资源论文
下载Doc文档

猜你喜欢