文学发现:当代图书馆的重要命题_图书馆论文

文学发现:当代图书馆的重要命题_图书馆论文

文献发现:当代图书馆的重要命题,本文主要内容关键词为:命题论文,文献论文,当代论文,图书馆论文,发现论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

很多年前,图书情报领域就引入“知识发现”的概念。这似乎为图书馆和情报机构一直期望实现的“知识服务”提供了一种研究方向,然而,事实证明这种研究实际与图情机构的工作基本没有关系,因为“知识发现”是指从大规模的数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的非平凡过程。[1]它的理论和实践主要应用于各种行业的业务数据集分析方面。

文献与知识的区别在于前者是后者的载体。图书馆工作的对象就是这种载体,一般来说即为图书、报刊及视听资料的总和。近年来,数据库在馆藏的比重越来越高,但是这些数据库中存贮的大都也是文献(不是行业的业务数据)。

当今一些期刊数据库利用引文分析法找出文献与文献之间的关联,让用户能从某一篇文献出发找到相关的文献。声称这是一种知识发现,实际也是文献发现,而且这都是数据库商开发的,图书馆的专业人员在这方面是没有什么作为的。

“文献发现”则完全可以成为图书馆专业人员努力的方向。掌握文献发现的方法,寻找有价值的文献应该成为图书馆专业人员的职责所在。

本文提出并阐述“文献发现”的理论及其意义,构建“文献发现”的方法体系,并以学术文献为例对“文献发现”作进一步的阐发。

1 “文献发现”的含义及其意义

本文提出的“文献发现”是指“在数量庞大且信息冗余和信息污染现象十分严重的信息载体中运用科学的方法寻找出所需要(一般是有价值)的某类文献”。

这里的“信息载体”是社会信息的存在形态(“社会信息”是指“为了特定的目的产生、传递、交流并应用于人类社会实践活动,包括一切由人类创造的语言、符号和其他物质载体表达和记录的数据、消息、经验、知识”[2])。

信息载体包括了各种类型、各种体裁的文献,不仅包括了传统的纸质文献、视听文献、缩微文献,还包括数字文献;不仅包括了传统的图书、论文这样的体裁,还包括了博客日志、PPT、Word文档、电子邮件、网页等新型体裁;同时还包括了大量无甚价值、甚至内容谬误的文献(以下称其为“伪文献”)和严格意义上不属于文献范畴的信息载体,如大多数的短信、微博、通知、行业数据等(以下称其为非文献),因此其范围远远大于传统意义上的文献集合。

故本文对“文献发现”的描述包含这样几层含义。

首先,“文献发现”是从数量庞大、类型多样的,且信息冗余和污染现象十分严重的信息载体中寻找出有价值的某类文献,是有相当难度的;其次,“文献发现”寻找的是某类文献,而不是某种文献,也就是说所要寻找的文献的外部特征(即题名、著者姓名等)事先是未知的;第三,文献发现的目标是文献,而不是“知识”或“数据”,因此,“文献发现”与以往的“知识发现”和“数据挖掘”的概念是不同的;第四,由于寻找文献的难度超过以往,需要重新构建新的查寻文献的方法体系。

因此,虽然“文献发现”的最终目的也是要寻找出所需的文献,然而其概念与以往的“文献检索”相比,是有着很大的区别的。“文献发现”要面对的是所有的信息载体,而“文献检索”所面对的信息载体基本上就是传统意义上的文献集合。由于“文献发现”所面对的信息载体的数量极其巨大,其中又包括了大量的伪文献和非文献,寻找出所需要的文献的难度大幅度提高,所使用的方法也因此需要重新构建。

此外,“文献发现”寻找的对象是某类文献,而“文献检索”寻找的对象除某类未知文献外,还包括外部特征已知的某种文献。

“文献发现”与以往的“文献开发”概念也不同,“文献开发”是指专业人员对某些资料中有价值的内容进行挖掘,重新汇编成新的文献。

2 “文献发现”的方法

“文献发现”方法体系可以分为两个层面:一是微观层面的,也即传统的文献检索方法,如分类检索、主题检索等对未知文献的检索方法;二是宏观层面的,是对数量庞大的信息载体进行分析、查找所需文献的方法。宏观层面的方法具体有这样几种。

(1)文献计量法。这种方法采用数学计算、统计分析、引文分析等方法对文献生产,老化和分布的特征和规律进行研究,是一种定量的方法,目前来说,是文献发现的重要方法。例如采用布拉德福定律、二八定律研究文献的分布规律;采用指数增长率和半衰期研究文献的生长和老化规律;根据文献之间的互相引用分析文献之间的关系,评价文献的质量;根据文献的利用率和图书销售排行评价图书质量等。其中的“引文分析法”是目前运用得较为普遍,且又十分有效的寻找有关联的,或高质量学术文献的方法。

(2)要素分析法。研究有价值文献形成的要素,然后对这些要素进行分析,寻找出判断有价值文献的客观依据。例如,现在一些研究表明,核心出版社、作者身份、重要研究机构、版次(多次出版)、基金项目是有价值图书的形成要素。[3]这些要素也就成为判断有价值文献的客观依据。这是一种反推法,即需要先寻找出有价值文献,然后才能进行分析,再依据分析的结果,来判断图书的价值。

这样,就需要研究分析各领域有价值文献的要素,例如,分析出哲学领域学术图书的核心作者、核心出版社和重要研究机构。这些作者的学术身份和所属机构以及核心出版社,再加之比较容易发现的版次和基金项目的级别就成为寻找哲学类有价值学术文献的客观依据。

在庞大的文献体系中,各类文献的价值取向是不同的,如学术文献和休闲娱乐文献的价值取向是不同的。人文素养类、科普类、励志类、教辅类等文献的价值取向也都不同。所以需要分析并确定各领域有价值文献的形成要素,才能发现各领域有价值的文献。要注意的是,要素的情况是会发生变化的,需要定期地进行分析。

(3)领域本体构建。这是数字文献发现的有效方法。这种方法用于寻找数字文献,一是存贮于各类数据库中的文献;二是散布在Web网上的文献。

本体(Ontology)原本是一个哲学上的概念,是研究实体存在及其本质的通用理论。后来,“本体”被引入人工智能领域。1991年Neches等人将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成词汇外延的规则”。1998年Studer等人进一步提出:“Ontology是共享概念模型的明确的形式化规范说明。”“概念模型”指通过客观世界中一些现象的相关概念而得出的模型;“明确”指所使用的概念及其约束都有明确的定义;形式化是指Ontology是计算机可读的;“共享”是指Ontology体现的是共同认可的知识。[4]

完成各领域的本体构建后,即可运用计算机识别技术对数量庞大的数字文献中的内容进行比对,寻找出符合相关术语及关联(“关联”包括等同/同义关系、层次关系、相关关系等。这些关联将本体有机地连接成为一个具有语义的整体)的文献。如果已经对存贮于数据库的文献进行了标引,检索效率就更高。

利用领域本体进行文献的寻找,其检索效率大大高于目前的搜索引擎。

(4)读者评价。这里的“读者”既包括一般读者,也包括专业读者和专家读者。这是一种定性的方法。这种方法能寻找出的文献是少量的,所以必须与以上某些方法结合起来使用。

一般有这样几种做法:用问卷调查的方法取得读者对文献的评价,与图书排行榜、文献利用率不同的是,这种方法可以更加深入地了解读者对文献的评价。调查表格的设计至关重要,既要让被调查者感觉填起来方便,又能通过表格的填写获取所需的信息;通过读者推荐图书,这也可以了解到有关图书的受欢迎程度。如果是专业读者的推荐,更是具有一定的专业水准,隐含了同行评审的行为。因此,各类图书馆的“读者荐购”是一项很重要的工作;通过各类书评文章,了解一些有价值图书的信息。

以上所述的方法有的是定量的,有的是定性的,可以互相结合,形成文献发现的方法体系。例如通过文献计量法可以测定出有价值文献,而通过要素分析法可以分析出有价值文献的形成要素以及要素的具体内容,同时结合读者调查法,就可以寻找出所需要的某类文献。领域本体的构建可以用于数字文献的查找,寻找出相关文献后,也可以使用文献计量法和要素分析法做进一步研究。

3 “文献发现”的意义

3.1 实践意义:控制入藏文献质量,提升导读咨询水平

“文献发现”理论是基于社会文献生产的变化所引起的日益严重的信息冗余和信息污染的现象而提出的。

20世纪90年代中期以后,我国各类编辑出版机构开始市场化运行。营利自然成为这类机构追求的主要目标。例如,作为社会主要的图书审核机构的出版社放松了对出版物的审核,使得社会的各种出版需求得到了很大的释放,出版物数量激增。

品种数量的剧增并不意味着社会创新能力的大幅度提升,因为其中充斥着大量低水平重复的、跟风的、低俗化的、粗制滥造的出版物。这种社会文献生产状况的变化对文献收藏机构的影响相当之大。

例如,据研究,目前图书馆在文献采集环节中产生了高比例的误选现象,即把大量无甚价值的文献购置入馆,却又漏藏了相当比例的有价值文献[5]。又例如,据统计,我国很多高校图书馆中新入藏中文图书在入藏三年期间(这应该是图书出借率最高的时间段)零借阅率比例年平均高达40%-50%。[6]这样的比例对那些半衰期短的图书来说,就意味着大量的图书面临着短期内被剔除的命运,人力、财力、空间的浪费是十分严重的。

“文献发现”理论能让有关机构认识到当代文献采集面临的状况,改变以往粗放型的采集方式(即根据类目和题名进行快速选书),并运用科学的方法采集文献,从而降低误选比例,控制入藏文献质量。就如英国学者维克多·迈克-舍恩伯格在《删除》一书中所说的那样,大数据的取舍之道,就是把有意义的留下来,把无意义的去掉。

导读咨询是图书馆一项重要的工作,然而,这项工作如今已经弱化。咨询人员对读者的咨询往往停留在告知图书馆的藏书布局或数据库的使用方法,并不能针对性很强地指导读者对有关文献进行阅读。“文献发现”的过程能使图书馆专业人员了解和熟悉有价值文献的状况,从而提升导读咨询水平。

3.2 理论意义:推动图书馆学有关理论的发展

首先,可以推动馆藏建设理论进一步发展。

我国的馆藏建设研究在20世纪80年代末已经形成了一个较为完整的理论体系,[7]但是这个理论体系是建立在出版物的数量和质量都受到较为严格的控制的基础上的。在社会文献生产状况发生了较大变化的背景下,有些理论需要重新认识。

例如,以往五级藏书制中的“完全级”理论是有问题的。完全级藏书理论要求图书馆在确定某个重点类目以后,对这个类目进行完全式采集(即有一种,就要购买一种)。可是根据当前文献产生的状况来说,这样的方式肯定要购入很多无甚价值的图书,是没有必要的,因此,五级藏书制理论需要重新讨论,可以根据“文献发现”理论,确定核心藏书、或高被引藏书、或基金项目藏书等。

又如,数字文献的发展不仅表现在传统书刊的数字化,还表现在出现了很多新型的文献体裁,如博客日志、PPT、电子邮件、网页内容等,从保存人类文化遗产这样的社会职能来看,图书馆也应该收集其中有关的内容,但如何来收集,采用什么标准,都需要探索。“文献发现”理论应该探究这些问题。

此外,“文献发现”将进一步推动对文献采集方法的研究,研究当代文献采集的方法体系。这一切都将推动馆藏建设理论的进一步发展。

其次,推动图书馆社会职能理论的变革。

在图书馆学基础理论体系中,关于图书馆社会职能的理论对图书馆各项工作最具有实际指导意义,图书馆进行的文献采集、文献标引、著录、上架、清点、环境控制、参考咨询、阅读推广等各项工作都是在职能理论的指导下进行的。

一直以来,我国的职能理论研究对“文献搜集”职能的阐述是十分简略的,一般只强调了要注意不同载体的文献搜集。[8]这样的阐述在当代已经不合时宜。

应该认识到在海量的信息载体中采集有价值文献的难度,认识到采集和保存有价值文献对人类社会发展的极端重要性,从而加强和拓展符合时代发展的文献搜集的理论,并对图书馆的职能理论作进一步的探讨,在职能理论中凸显“文献搜集”的职能。

“文献发现”理论涉及的工作应该上升到当代图书馆社会职能层面,从微观层面上看,有利于图书馆文献采集工作水平的提升,而高水平的文献采集能力将成为图书馆的核心竞争力;从宏观层面上看,有利于人类社会有价值文献的采集、保存和传播。附:“文献发现”案例——“中国哲社类学术图书基本书目(1995-2005)”的编制

《中国哲社类学术图书基本书目(1995-2005)》就是在“文献发现”理论的指导下,运用“文献发现”的方法对1995-2005年我国出版的哲社类图书进行分析,从而发现高质量的学术文献的过程。从这个案例也可看出,有价值的学术文献在文献总量中所占的比例是相当低的,也由此说明了“文献发现”理论的重要意义。书目编制过程如下:

首先,获取了我国1995-2005年出版的哲社类图书共722 534种,然后,删除了科普类、励志类、文艺作品类、教辅类、习题集、大专以下教材等方面的图书,得到的学术图书共126 170种,

再者,运用Google Scholar作为引文分析工具,对这126 170种图书进行了引文分析。分析后发现,有1次(包括1次)以上被引次数的学术图书共53 333种,占学术图书总数的42.2%,占哲社类图书总量的7.4%。

确定被选入基本书目的图书的标准有两个维度:一是根据被引频次,即定量的维度(实际也包含定性的因素,因为被引也意味着他人的认可)。这个维度基本遵循二八定律,即入选图书的被引次数占总被引量的70%-80%。各个学科的情况是不同的,如H类图书要达到被引35次及以上才能入选基本书目,而G类图书被引23次及以上就能入选;二是根据定性的维度,请有关学科专家对入选基本书目的图书进行审核,也可推荐自己认为的好书;同时把在1995-2005年时段出版的,由国家社科基金项目资助的、获得国家图书奖等奖项的、《中国图书评论》中所涉及的学术图书也作为选入基本书目的重要依据。

这一案例运用引文分析法、二八定律和读者调查法,从722 534种图书中寻找出有价值的学术图书16 763种。然后,运用要素分析法对这些图书的形成要素进行分析,寻找出判断我国哲社类有价值文献的客观依据。

(收稿日期:2013-05-28 编发:王宗义)

标签:;  ;  ;  ;  ;  

文学发现:当代图书馆的重要命题_图书馆论文
下载Doc文档

猜你喜欢