论情报学的数学计算_数学论文

论情报学的数学计算_数学论文

论情报学的数学计量化研究,本文主要内容关键词为:情报学论文,数学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 情报学的数学计量化研究意义

定量化是科学发展的必然趋势[1]。无论是自然科学,还是社会科学,要想获得真正的发展,都必须应用数学这一强有力的工具,这已成为科学史中公认的常识。马克思就曾说过:“一种科学只有当它达到了能够运用数学时才算真正发展了”。当代科学的一个重要特征就是理论优势。在构造科学理论时,定量化的概念性语言是必须的。按照现代科学方法论观点,科学理论的构造首先是建立模型,以达到把握与逼近研究对象的原型,直接地反映经验层次或科学事实;由于作为抽象的该模型不可避免地带有很大程度的直觉和形象色彩,因此有必要在已有的基础上进一步用定性的概念性语言通过描述上述模型来揭示对象的本质属性和相对关系;然后,再运用数学语言,以定量化的概念性语言给予量的规定性,将模型的定性概念变换为数学形式,使模型和理论符号化、形式化,最后在此定量化的基础之上再实现精密化与规范化,从而使理论精度与力度得以提高,使理论臻于完善,使学科地位得以提高。

科学发展的定量化趋势对于情报学也不能例外。情报学作为一门介于自然科学和社会科学之间的综合性边缘学科,不管是从自然科学的角度出发,还是从社会科学的角度出发,其研究朝着数学计量化方向或者说定量化方向发展已成为一种必然趋势,更何况这一必然趋势对于情报学研究现状而言更加具有紧迫性与现实意义。情报学虽然经历了半个多世纪的发展,已经取得很大的进展,逐步趋于成熟,并有着众多的前沿领域与热点,但是它离一个独立完整的科学学科仍然还有较大的差距。学科研究成果属于或者说涉足真正意义上的理论范畴的并不多,绝大部分只不过是情报实践工作方法与常识的介绍、技巧的传授。对此,英国著名情报学家布鲁克斯就讲过,“情报学仍漂游于常识性实践应用的海洋中”,“从哲学上看,目前情报学还没有确定的地位,也没有理论基础”。因此,尽管情报学的发展有着多种不同的途径和路向,但是,毫无疑问定量化研究是情报学未来发展不可缺少的重要方向和必经之途径。按照前面所阐述的学科发展的一般规律,情报学研究必然要从定性阶段向着数学计量阶段发展,因为只有这样,才能提高情报学的科学性和精确性,从而有助于确立和提高情报学在整个科学体系中的学科地位,这也正如布鲁克斯所指出的,“情报学如果不实现定量化,它将是一堆支离破碎的技艺,而不会成为科学”。

2 情报学数学计量化研究的整体状况

情报学的数学计量化研究整体状况可从4个方面考察:①当前这方面研究所处的发展阶段。②所涉及到的情报学领域。③所涉及到的数学内容。④情报学界对于数学计量化研究趋势的反思。

就第1方面而言,在情报学中数学的应用按照其运用程度可以划分为3个发展阶段:①对科学的某一范围内所积累的经验资料的数学加工(即纯粹的数量加工)。②建立运用于实际现象的数学模型。③形成相对完整的情报学数学理论。目前,在情报学中数学的应用尚处于第二阶段,但第一阶段的工作仍须继续进行。第一阶段的数学应用是从统计大量具体的资料数据开始的,如体现在并运用于文献计量学领域的布拉德福定律、洛特卡定律、齐夫定律、引文规律中的图书数量统计与文章数量统计、作者数量统计、词频统计、文章引用统计等。统计的结果以图表和曲线表达。这一阶段的工作主要是大量积累情报系统的各种原始数据;而情报学中数学的应用所处的第二阶段则是在其第一阶段统计资料的基础上,建立适合于各种情报现象和情报过程的数学模型。数十年来,随着计算技术的进步,产生了大量的数学模型,在这一阶段(第二阶段),也必须用计算技术与统计学相结合的方法来建立统计实验模型。例如通过建立某问题各种检索量的数据随机过程的模型,来解决各种有关的数学计算问题。计算机检索系统的自动化模型正是情报学第二阶段数学应用最典型的实例;至于在情报学中数学应用的第三阶段,目前还很难预见建立真正的数学模型的实际可能性,这是情报学研究的未来课题。数学和计算技术的进一步发展或许可以为圆满地建立情报系统的数学模型奠定基础,但可以肯定,这是一项相当艰巨的任务[2]。

就第2方面而言,当前情报学的数学计量化研究主要体现在情报学的基础理论研究领域和情报学的众多分支学科领域。对于前者而言,情报学的数学计量化研究主要涉及运用数学、物理模型对情报学概念进行定量描述、对情报量进行测度、对情报学的学科对象和学科内容等进行定量探讨,甚至从定量的角度对整个情报学理论体系进行构建。此外,还涉及到情报学定量化理论的应用、情报学理论定量化研究方法论等领域。而对于后者而言,情报学的数学计量化研究则主要体现在文献计量学(情报计量学)、情报检索学、情报心理学、情报经济学、情报研究学等这些情报学分支领域。对此笔者将在下文作进一步阐述。

就第3方面而言,科学发展到今天,在数学化的过程中可总结出4种类型的数学模型:①必然现象的数学模型:在数学上常用各种方程表达。②随机(或然)现象的数学模型:在数学上常用概率论和数学统计来描述,这类模型称为概率模型。③突变现象的数学模型,常用拓扑学奇点理论和结构稳定性理论等数学工具来描述。④模糊现象的数学模型:这种模型是用模糊数学对没有明晰的数学概念的模糊性客体进行分析研究,作出模糊判断。目前,在情报学中应用了上述第一类模型,但大量应用的还是以统计方法为基础的概率模型。概率论和数理统计在情报学的数学化中占有重要地位[3],这方面的例子有利用概率论构建检索模型[4],随机过程论在情报学中的应用探讨[5],图书情报学中的数理统计应用[6]等。此外,在情报学中还广泛运用了上述第4类模型,例如运用模糊数学评价情报检索系统[7],描述情报检索[8]、情报需求[9]、情报吸收过程[10]等。文献[11]则在介绍模糊集理论(模糊数学理论)的产生及其发展概况的基础上,全面地阐述了模糊集理论在图书情报学领域,尤其是在情报检索领域的应用。总的来说,当前情报学的数学计量化研究所涉及到的数学知识,除了上述所提到的函数和方程知识、概率与统计知识、模糊数学知识之外,还涉及到了集合论知识,如文献[12]涉及的数学最优化知识,文献[13]涉及的线性代数知识(包括向量空间、矩阵、线性方程组等),文献[14]涉及的图论与组合数学知识,文献[15]用图的概念来定义情报网络和介绍排队论知识,文献[16]涉及的决策论知识,文献[17]、[18]涉及的对策论或者说博奕论知识等。文献[19]作为一部面向21世纪的情报学理论著作,对即将跨入新世纪的情报学数学计量化研究作了阶段性总结与综述,指出情报学理论体系的形成与发展必须经得起基础科学——数学的验证,情报学的数学计量化研究构成了作为“情报学学科基础论”3大组成内容之一的数学基础,在此基础上该论著进一步详细地阐述了线性代数、概率分布与随机过程、数理统计与多元分析、集合论与图论这些数学领域在情报学中的应用。

就第4方面而言,数学对于情报学成为一门真正的科学而言,毫无疑问是具有重要意义的。然而,情报学终究不是纯粹意义上的自然科学,它具有着人文性,与“人”和“社会”有着割不断的天然联系,这就使得情报学中数学的应用应该把握好一个“度”,即应该依照一个合适的尺度来进行。也就是说,在情报学的数学计量化研究中,不能迷信数学的作用,要反思数学的滥用与误用,要清醒地认识到数学在情报学研究中的局限性,在应用数学时必须慎重且恰当,注意防止出现数学形式主义。因为“情报”作为人类社会所特有的一种社会现象,它与自然现象之间有着根本性的差别。情报现象中人及其关系,或者说“人”的因素与“社会”的因素在情报事件实际过程中产生着极其重要的影响。数学作为自然科学技术研究的基础与强有力工具,在对自然现象的探讨中自然能够自由地纵横捭阖,但是情报现象与自然现象的上述差别却限制了数学在情报学中的应用,情报学研究最终要归结为社会的、心理学等方面的分析。情报学的研究对象与自然科学的研究对象之间的这种在性质方面的迥然差别,正是数学在情报学研究中的应用受到限制和制约的深层次原因。

为了更好地阐述情报学中数学的应用应该把握好一个恰当的尺度这一问题,我们可以将目光投放到其他学科领域。笔者以经济学数学化现象为例,通过类比来寻求有益的启示与答案,以此来更好地审视当前情报学的数学计量化研究趋势:经济学之所以被誉为“社会科学的皇后”,与当前的经济学研究中大量地引入数学,经济学的数学化研究程度高密不可分的,经济学已成为社会科学群中数学化程度最高的学科。笔者在前面曾提到情报学中数学的应用可以划分为3个阶段,当前的情报学研究还只是处在其中的第二阶段,但第一阶段的工作仍在继续进行,文献计量学(情报计量学)作为这一阶段的产物与经济学定量化研究的产物——经济计量学大致可以相互对应。然而要特别指出的是,与情报学的数学计量化相比较,经济学中数量经济学的出现及其发展则表明,经济学的数学化研究程度已经达到了在上述数学应用阶段中当前情报学研究还根本无法达到的第三阶段——形成了相对完整的整个学科的数学理论。正因为数量经济学对于经济学的学科建设与发展意义深远,因此在通常情况下我们就认为“所谓的经济学的数学化是指对数量经济学越来越多的强调”[20]。

尽管经济学已经形成了能够达到学科层次高度的数学理论体系,取得了众多高度数学量化的理论成果,经济学的数学化研究程度远远地超出了情报学,然而时至今日,理论界仍在质疑经济学的学科性问题和过分数学化问题,仍在争辩经济学到底是不是一门科学,仍在反思“经济学为什么还不是一门科学”:“经济学家把注意力集中于理性选择这样的问题酿成了数学形式主义,这种形式主义就是经济学的特点”,“这里所反对的并不是数学的利用,甚或经济学数学化。这里所反对的是数学在经济学中的误用,尤其是它常常给经济学本身树立了一个伪科学的形象,使经济理论不能满足任何经验检验,而这种检验却正是科学与纯粹的迷信或赤裸裸的意识形态的分野”[21]。说得更具体一些,则对于经济计量学而言,“年复一年,经济学家在继续建立大量的数学模型,而且更为详细地探讨这些模型的性质。同时,经济计量学家把所有可能的代数函数式用于基本上是同样的一些资料。这些都无助于进一步深入理解一个现实经济系统的结构和运行”[21];而对于数量经济学而言,经济学界的批判由来已久,但批判的声音都淹没在经济学大量使用数学分析方法的滚滚洪流之中。也许有人会认为,经济学中数学的这种优势地位已使非数学和反数学的力量长期沉默,然而事实却是,这种优势地位越强大,所产生的反作用也越大,因为数理经济学的公理体系没有反映真实世界的行为、适于实践检验的数量经济学理论远远少于数量经济学的数量,经济学的许多方面没有数量的特征,把经济过程的描述转换成数学语言是天真和不合逻辑的,没有一种客观的方法来判断数理经济学是否比非数理经济学更精确,没有一种称得上“最好”的数学逻辑体系,数学没有增进对真实世界过程的理解。这些看法已成为当前理论界对经济学数学化所持批判态度的主要观点[20]。

对于当前经济学数学化研究中大量地引入数学与物理知识——“数理经济学融化了微积分学、集合论和线性模型方法以及现代物理学、数学的最新知识”[22]——而产生的上述种种弊端,经济学界提出了经济学和其他社会科学都应当学习生物学方法的建议,主张经济学研究应当从基于数理科学领域(数学、物理学等)的模拟、模型、术语、方法和知识之上的力学隐喻转向或者说发展成为基于生物学领域之上的生物学隐喻[23]。经济学界的这种建议与主张无疑与情报学中“情报学研究要充分重视人和社会因素”[24]的呼声极其相似。毫无疑问,这对于情报学的数学计量化研究是有着积极的警示和借鉴作用的,对于整个情报学研究也是能够起到建设性的启迪作用的。

3 情报学数学计量化研究的主要领域:从文献计量学到网络信息计量学

3.1 文献计量学阶段

我们之所以认为文献计量学是情报学数学计量化研究的主要领域,是缘于以下二方面的理由与依据:其一,在整个情报学数学计量化研究中,有关文献计量学的研究所占的比重最大,处于主导地位,对此学术界做了大量的统计测算工作。文献[25]统计了20世纪80年代在我国3种主要情报学学术刊物上所发表的定量研究方面的论文,按内容将这些定量研究论文划分为4大类,然后测算出每一大类的论文所占的比重,最终得出如下结论:“从论文的数量看,有关‘文献计量学及其应用’方面的研究在整个定量化研究工作中占有很大的比例”,高达46.6%,是所划分的4大类论文中所占比重最大的一部分,“这也许是因为我国的(情报学)定量化研究是从(文献计量学及应用)这个具有较长历史、较为成熟的领域起步的,以及情报科学研究人员大都来自文献工作岗位的缘故”。文献[26]则在阐述20世纪90年代的我国情报学定量化研究的发展特点与趋势时,证实和肯定了文献[25]的统计测算数据与结果,指出:“在我们这次统计的1322篇情报学定量化研究论文中,也大约有50%左右的论文是属于‘文献计量学及其应用’方面的。由此可见,文献计量学一直是情报学定量化研究的重点和主体。而且,在情报学的理论体系中,文献计量学的基本定律占有重要地位;文献计量学中的各种定量分析方法也是情报学方法论体系中的主要组成部分之一”。其二,情报学数学计量化研究最初是从文献计量起步的,它在这一领域所取得的研究成果与其在其他领域的成果相比,不仅学术影响最大,而且学术地位也最高。早在20世纪30年代,当情报学尚处于理论孕育期之时,定量化研究就在文献领域内展开,并取得了诸如布拉德福定律等这样的突出成果。早期的情报学数学计量化研究,准确地说是文献工作的定量化研究,直接导致了20世纪20-30年代统计书目学的产生,以及随后在60年代末70年代初文献计量学的诞生。文献计量学作为文献学、情报学与数学、统计学等相互交叉和结合而产生的边缘学科,它在20世纪的产生和发展正是情报学研究数学计量化的具体体现和重要标志,它已成为情报学极有影响的一个重要分支学科,它的研究成果如布拉德福定律、洛特卡定律、齐夫定律、引文规律、文献老化规律、文献增长与冗余规律等已成为情报学自己的定律和方法,在情报学目前业已形成的理论体系和方法论体系中占有相当重要的地位。这些定量化研究成果已成为情报学经典教材中的核心内容[27],并且开始向其他学科输出、扩散、渗透。“文献计量这一特殊统计方法,可以描述和解释许多分布机制相似的如收入分布、利润分布、人口分布、不合格元件分布、通信间隔分布等社会现象,从而引起科学学、社会学、统计学、经济学家的浓厚兴趣,认为是解释社会事件中出现的偏态分布的较好方法”,“文献计量方法能够在科学学研究上结出硕果,表明情报学已具有向其他学科提供研究方法的实力”[28]。

文献计量学的产生与发展使得情报学的定量化研究进程进一步加快,数学计量化趋势更为明显,这对于情报学自身学科建设而言无疑是意义极为深远、重要的。文献[29]认为,情报学经过50多年的发展,进入20世纪80-90年代之后,在面向21世纪之时已经步入成熟阶段。笔者认为这种“学科成熟阶段”并不是指情报学已经完全“自身发育成熟”,而是指情报学已经将情报视为一种重要的资源和财富,开始明确自身的目的就是指导人们如何便捷而有效地利用情报,开始抓住了其自身发展的本质,而不再像以前那样唯技术至上,只见物不见人,从而使自身步入较以前高级的发展阶段——“自我认识成熟”阶段。情报学目前仍处于“自身发育”尚待成熟的阶段。“众所周知,今天情报学的理论框架还是不尽完善,其要害是缺乏足够(且成熟有效)的‘范式’。科学史雄辨地证明,为了提炼出学科的‘范式’,必须在定量基础上开展科学劳动”[30]。这就使得主要体现为文献计量学研究的数学计量化研究对于跨入21世纪的情报学发展显得意义尤为重大。文献计量学经过了数十年的发展进入20世纪90年代,无论在其理论方法研究领域还是在其应用研究领域都获得了长足的发展,取得了新的突破。这种进展在理论方法领域主要表现在以下几个方面:①关于文献计量学诸论的研究,包括文献计量学的概念、研究对象、学科性质、内容结构、产生和发展以及与相关学科的关系等基本问题。②关于文献增长与老化规律的研究。③关于“三大定律”(即布拉德福定律、齐夫定律、洛特卡定律)的研究。④关于“三大定律”实质上所揭示出来的文献标识特征分布的集中与分散这一现象的理论研究。⑤关于以“引文分析法”为核心的方法论研究。⑥关于计算机辅助的信息计量研究。而与此同时,这种进展在应用领域则体现为以下特点与趋势:①重视应用问题的研究和计量指标的运用。②应用的规模和数据量越来越大。③重视现代化的文献信息计量工具的建设。④重视文献计量学在科技管理和决策中的应用[31]。要特别指出的是,在上述文献计量学应用研究领域的新进展中,重视文献计量学在科技管理和决策中的应用被摆到了较为瞩目的位置。武汉大学邱均平教授在撰文阐述我国科学计量学、文献计量学和情报计量学的研究重点与发展方向时,特别强调指出,“我国的3个计量学虽然有着多种不同的发展途径和方向,但当务之急,就是要迅速拓展应用,高度重视在科技管理和决策中的应用,特别要将文献计量指标用于评价科学生产率、评价人才、成果质量、科研机构乃至整个国家的科技水平与影响力”[32]。文献计量学正在突破传统的局限,不断地增强其渗透力和辐射力,大步跨入“科技圈”和“管理圈”、“决策圈”,在更大的范围内充分发挥其作用,从而进一步得到社会各界的承认和重视,这无疑已成为跨入21世纪的文献计量学研究与应用发展的显著特点与趋势之一。总的来说,上述文献计量学自进入20世纪90年代以来在理论方法与应用研究领域取得的成果主要体现在国内90年代以来所出版的一批文献计量学教材和学术著作上,如丁学东的《文献计量学基础》、罗式胜的《文献计量学概论》和王崇德的《文献计量学引论》等。

文献计量学作为情报学定量化研究的重点和主体,它在20世纪90年代以来的发展无疑极大地推动着跨入21世纪的情报学的定量化或者说数学计量化研究,其显著特点与发展趋势可以归纳为:①在理论、应用与方法3大研究方面朝着定量化深度与广度发展。②重视利用计算机建立系统化、规范化的文献数据工具和原始数据的获取渠道,力图实现定量化研究的现代化、规模化和模型化。③正在由局部知识的创造向建立系统知识体系方向发展,研究成果正逐步知识体系化。④注意拓宽应用领域,与其他学科紧密结合,重视在科技管理和决策中的作用[26]。⑤数学与统计学的新成果正在被积极地援引、移植、吸纳进情报学的定量化研究中。⑥文献计量学正在向着信息计量学(情报计量学)发展,并且在当前数字化、网络化的新环境下进一步发展成为“网络环境下的文献计量学”[33]或者说“互联网上的文献计量学”[34],理论界用专业术语准确地称之为“网络计量学”或“网络信息计量学”。

3.2 信息计量学(情报计量学)阶段

英国情报学家布鲁克斯十分重视定量研究与测度方法,即统计学和数学在情报学研究中的应用,认为情报学研究的实质也就是对信息和知识的测度(即计量研究),他还创造性地提出用“等级排序技术”和“对数透视原理”来作为情报学定量化的途径。布鲁克斯在1988年就主张用情报计量学(信息计量学)来代替文献计量学,理由是文献计量学仅拘泥于“书目的计量”,而且文献计量学已不适合于现代电子化载体文献的计量[35]。布氏认为定量研究与测度方法及其相应地从文献计量学到情报计量学的转变,是情报学成为一门独立学科的主要因素,也只有情报计量学才是本质上与情报学联系在一起的学科。他的学生、比利时的埃格希(L.Egghe)则更是在他的《情报计量学引论》专著中提出了如下学术演进逻辑过程[36]:statistical bibliography(书目统计学)→bibliometrics(文献计量学)→scientometrics(科学计量学)→informetrics(情报计量学或信息计量学)。邱均平教授对从文献计量学到情报(信息)计量学的这种发展方向也持积极肯定的态度。他明确指出:“文献计量学是信息(情报)计量学的基础,而信息(情报)计量学则是文献计量学的发展方向”,认为信息计量学应该分为“广义信息计量学”与“狭义信息计量学”,前者是探讨以信息论为基础的广义信息的计量问题,其范围非常广泛;后者就是我们这里所说的通常意义上的信息计量学(情报计量学),主要研究情报信息(或语义信息)的计量问题。邱均平教授特别强调,在信息计量学中,为了定量地描述情报信息的现象、过程和规律,必须建立一整套具有“量”的规定性的科学概念,建立统一的“信息量”测度指标和单位,寻找新的适合情报信息特征的计量化途径和有效方法[37]。信息计量学的提出对于情报学发展而言无疑具有积极的意义,它表明情报学定量化研究已由文献单元深入到了文献中的各个信息单元、知识单元;已由文献计量分析发展到了信息计量分析,因而达到了一个新的高度。而事实上,自20世纪90年代以来以电子出版物为典型代表的电子化、数字化信息资源的出现则正好为这种深入与发展提供了物质技术支撑基础,使得文献计量学发展成为信息(情报)计量学具有了现实可能性。

电子出版物除具有与传统印刷出版物相同的文本功能之外,更重要的是还具有“信息计量”、“知识聚类”等独特功能。电子出版物的上述独特功能能够使文献计量学的分析得以深化。电子出版物中文献内容的各个知识项,甚至字频统计的计量分析为文献计量学开拓了新的应用领域。文献计量学以文献单元(如一篇文献、一部图书等)为对象,通过数量的统计分析,包括文献的绝对数量、相对数量等的分析,来揭示文献的增长、分布、老化等规律,从而获得文献领域的各个总体性概况,有助于核心著者和著作、核心期刊等的测定,并有助于通过文献现象,进而了解一个国家、一个地区、一个知识部门的知识生产、传播、吸收以及学术界整体素质等更普遍性的情况。然而,文献计量学毕竟是以文献单元包括其中的标引项作为统计单位的,而不是以文献中的知识单元为单位的,因此,这种计量分析显得较为粗泛。电子出版物作为一种全文数据库,其文本中的任何知识单元甚至每个单词都是可以检索和统计的。这样,就有可能使文献计量学的计量单元从一篇篇文献而深化到文献中的各个知识单元,甚至单词一级。与此相适应的是,基于这种文献内容细节的计量分析可以达到一般文献计量所达不到的深度[38],这种一般文献计量所达不到的深度也就是本文反复强调的信息计量分析深度。信息资源的电子化、数字化发展无疑使信息计量分析成为了可能,使得情报学的数学计量化研究达到了新的深度。它表明文献计量学已经发展到文献信息计量阶段,并继续向着信息计量学境界发展。

至于信息计量学的研究现状,总的来说,研究成果不多,进展不大,难以有根本上的重大突破,尚未真正摆脱已有的文献计量学研究范式框架,其研究主要还停留在文献信息计量分析阶段,远没有上升到真正意义上的信息计量分析阶段。对于这一点,邱均平教授曾撰文明确指出:“在(信息计量学研究)这方面,我们的研究进展不大。据目前见到的报道来看,国外学术界也还没有解决这一关键问题。正如最近国内翻译出版的比利时专家Egghe,L等人的《情报计量学引论》一书的副书名所示,主要是‘图书馆、文献和情报科学的定量方法’,并没有触及上述根本问题(即在文献[37]中所特别强调的那些观点内容),也没有提出‘情报计量学’的合理而完整的学科结构。因此,我们自己更应该花更大的精力来研究和促进信息计量学的迅速发展”。邱均平教授2000年和2001年在《情报理论与实践》杂志上所做的12次名为“信息计量学”的专题讲座,也是基于传统的文献计量范式和已有的文献计量学学科体系框架,围绕着文献信息的计量分析而展开和进行的,这可以从它所涉及到的主题内容中得到充分的反映。这些主题内容包括:文献信息增长规律与应用、文献信息老化规律与应用、文献信息离散分布规律、文献信息词频分布规律、文献信息作者分布规律、文献信息分布的集中与离散规律、文献信息引证规律和引文分析法、计算机辅助文献信息计量分析方法与工具、信息计量学在图书情报领域中的应用、信息计量学在科学学与科技管理中的应用等[39]。对此,邱均平教授特意在这次专题讲座中的第一讲“信息计量学的兴起和发展”中作了专门解释:“从讲座的内容来看,也必然会同时涉及到三计学,文献计量仍然是基础,讨论的重点主要是文献信息的计量问题。这是目前的研究现状和事实所决定的。这一点希望得到读者的理解,不要产生误会”,“但经笔者和编辑部商定,还是采用‘信息计量学’作为这次讲座的名称。这主要是从以下4个方面考虑的:……”,“我们确定这个讲座的名称,主要是面向未来,强调信息计量学是今后的研究重点和发展方向,但并不意味着信息计量学已经成熟和完善,而正好从另一个角度说明当前信息计量学更需要得到更多的重视”[40]。除了邱均平教授所做的“信息计量学”专题讲座之外,近几年国内情报学界在这一研究领域所取得的另一项重要成果就是马费成教授所主持的国家自然科学基金项目“科学信息离散分布分散的机理与模型研究”,该课题旨在将用于描述文献分散的布拉德福定律上升到在微观意义的内容单元(信息单元)层次上对科学信息离散分布机理进行研究,其研究成果以文献[41]与[42]的形式在学术界进行了公布。虽然当前信息计量学的研究进展不大,突破不多,成果有限,但是我们相信随着数字化、网络化信息技术的发展,尤其是“网络信息计量学”研究的兴起,这方面的研究必将继续深入下去,成为新世纪情报学的重要发展趋势,最终真正实现“知识信息的计量必须从语法层次向语义和语用层次发展”这一飞跃[43]。

3 网络信息计量学阶段

随着网络技术的兴起,互联网的广泛普及和应用,人类信息资源已由早先的实物化、纸质化阶段,经过电子化、数字化阶段的发展,开始进入网络化阶段,原有的信息计量指标已不再适用于测度评估网络信息资源,建立新的适用于新形势、新发展的更为通用的信息计量指标已成为必然。在这种情况下,网络信息计量指标应运而生,其结果就是导致了信息计量学进一步发展成为“互联网上的信息计量分析(Webometrics)”[44]。“Webometrics”作为网络环境下信息计量学的新进展[45],理论界时常将其直译为“网络计量学”[46],但是由于其实际研究内容并不涉及网络与电脑的物理结构的计量,而主要是对网络与电脑上的电子信息资源或者说网络信息资源进行计量,因而意译为“网络信息计量学”[47]更为贴切。网络信息计量学并不仅仅是文献计量学方法在网络上的简单应用,不能将网络信息计量学像文献[33]那样简单地理解成“网络环境下的文献计量学”,认为“文献计量学的方法也可以用于万维网上”或者像文献[34]那样将其简单地视作是“互联网上的文献计量学”。网络信息计量学是以文献计量学为基础发展起来的,是信息计量学的新发展,但网络信息的特点决定了网络信息计量学具有不同于文献计量学的新的内容体系(包括理论基础、研究方法与应用),这就需要为网络信息计量学确定不同于文献计量学的新概念,制定新指标和新规则,摸索出不同于文献计量学的新规律。网上信息是以字节为单位的数字化信息,它使信息的表达和传输方式产生了质变,从根本上改变了原始信息的生产、采集、获取、提供和服务模式。信息技术的突破使得网络信息内容的加工将以单元化知识为单位,对包含在信息内容之内的“潜在知识”进行存储和加工,实现信息内容加工的自动化和智能化。因此,进行网络计量学研究的样本(数据)和进行文献计量学研究的样本(数据),无论是在收集内容和方法上,还是在加工处理方式上,均有不同之处。传统信息服务以书本型信息资源为主体,针对相对狭窄的信息需求,依照全球公认的标准,以手工方式对信息资源进行加工,加工手段和产品服务形式有限。因此,文献计量学的样本收集过程工作量大但操作简单,并且数据类型标准化,便于直接进行计量分析。收集加工网络信息计量学的样本则要复杂得多,一是海量的信息搜索具有一定难度,二是网络信息的组织和描述没有完全规范和统一。因此,必须制定新的规则,寻求新的方法[48]。网络信息计量学研究中需要制定的新规则或者说新方法主要是指利用网络机器人(也被称作Spider、Crawler、Web Worm、Web Wander等),从网络中的超文本标记语言HTML头文件中直接抽取出Dublin Core元素来满足网络信息计量的需要。Dublin Core即都柏林核心元素集,它是元数据的一种,建立它的目的在于设计一套描述网络电子文献的方法,以实现网上信息的辩识、查询和检索。由于网络信息具有数量巨大、类型多样、增长迅速、分布和构成缺乏结构与组织、信息的发布具有很大的自由性和随意性、信息污染情况严重等特点,给网络信息的计量带来了极大的不便,因此对于网络信息不能像传统的文献那样直接进行计量(这是因为传统文献的标准化程度高,计量标识清晰),而是必须应用一定的标准先对网络信息进行规范,元数据就是为此而设计的。具体地说,Dublin Core首先将网络信息进行规范化的组织,同时形成规范的标识,然后对这些标识进行计量。Dublin Core的15个基本元素都可以作为网络信息计量学的计量指标。由此可见,在网络信息计量学中应用元数据是必要的,网络信息计量学与Dublin Core都是环境下的新兴事物,在网络信息计量学研究中所需要制定的新规则将不可避免地涉及到“Dublin Core在网络信息计量学中的应用”[49]。除了主要靠人工抽取元数据DC来满足网络信息计量的需要之外,我们还需要其他计量指标来进行网络信息计量分析,例如文献[48]指出,利用网络中的URL(统一资源定位器)可以进行域名分析,利用网络机器人的爬行深度可以进行链接深度分析,利用网络信息引用的相关链接可以进行网络文献引文半衰期分析,利用网站的信息数量可以进行核心网站分析等等。

网络信息计量学研究除了具有上述新的计量指标、新的运作规则、新的概念之外,还具有不同于文献计量学的新的研究对象和所要探求的新的规律,它们一道构成了网络信息计量学的理论基础。从网络信息计量学的现阶段研究状况来看,其研究对象十分广泛,那种将网络计量学归结为是对网络文献规律进行分析,从而将其研究对象限定在网络文献范围内的观点[50]是极其狭窄的,甚至可以说是错误的。笔者赞同文献[47]对网络信息计量学研究对象的看法,即它的研究对象主要涉及以下3个层次或者说组成部分:①网上信息的直接计量问题。如对集文字、图像、声音为一体的多媒体数字信息的计量方法研究,对以字节为单位的信息量和流量的计量研究等。②网上文献、文献信息及其相关特征信息的计量问题。如网上电子期刊、论文、图书、报告等各种类型的文献,以及网上二次文献、三次文献的计量问题。③网络结构单元的信息计量问题。网络结构单元包括站点、布告栏、聊天室、谈论组、电子邮件等,对以上网络结构单元中的信息增长、信息老化、学科分布、信息传递,以及各单元之间的相互引证和联系等的计量研究,将是网络信息计量学研究的重要组成部分。在通常情况下,我们可以将网络信息计量学以上3个层次的研究对象予以简化,文献[46]就简洁地将它们称之为网络多媒体信息本身的计量、网络文献的计量、网络站点的信息计量。至于网络信息计量学所要探求的新规律则包括网上信息分布的集中与离散规律、著者规律、词频规律、增长与老化规律、引证规律、多媒体信息规律,以及这些规律的理论解释和数学模型研究等。

网络信息计量学除了具有上述不同于文献计量学的理论基础之外,还具有不同于文献计量学的研究方法,它们二者与网络信息计量学的应用一道共同构成了网络信息计量学的内容体系。关于网络信息计量学的研究方法,有研究者认为它包括理论研究方法与数据收集方法两大类,其中理论方法大体又分为以下4类:运用统计方法对数据进行分析研究、运用图论方法对数据进行可视化研究、运用揭示数据聚簇和分散的工具进行数据挖掘研究、运用模拟网络结构和增长理论工具进行模型研究;数据收集方法则包括网上日志文件收集数据、网上与网下调查数据、搜索引擎收集数据[51]。上述观点无疑极具启迪作用,引人思考,但是通常情况下我们都认为网络信息计量学的研究方法来源于两方面,一方面是对原有的文献计量学研究方法的改造和发展,另一方面则是自身所形成的特有的研究方法。在文献计量学中得到广泛应用的文献信息统计分析法、数学模型分析法、引文分析法、书目分析法、系统分析法等定量方法在网络信息计量学研究中也能得到广泛应用。当然,这种应用并不是简单照搬而直接加以应用,而是在特殊的网络环境下,在应用的过程中予以改造、修正、改进和发展,使之超越原有的文献计量学局限而能适应网络信息计量学的新变化。除此之外,网络信息计量学也具有自身所特有的研究方法,最常见的比如有“链接分析法”[52]等。

对于网络信息计量学的应用,文献[47]将其归纳为以下5个方面:①从信息组织的角度研究因特网的知识结构,探索网络信息的特点与组织方法,指导网络信息资源的组织建设。②研究网络环境下的科学信息交流,探讨各学科发展趋势,分析建立新的科学发展指标,为有关科技决策提供参考。③从应用角度出发,研究网络信息资源的评价指标,为信息资源的开发利用提供指导。④研究网络信息资源的挖掘、分类、过滤与排序等,从而指导网络搜索引擎的研究开发工作,推动网络信息检索技术的发展。⑤研究网络终端用户的信息需求和上网习惯,指导网络建设和网站管理。而文献[50]作为国内情报学研究的年度评论,则认为网络信息计量学的新应用包括:新环境下的知识评价与解读,指导因特网信息检索、看待信息资源多样性、指导网站建设人员建立网站、应用于信息资源建设、网络文献的处理等6个方面。总之,网络信息计量学将广泛地应用于图书情报工作、信息资源管理、网络管理、科学学、科学评价、科技管理与预测等多学科、多行业领域,推动上述学科领域向前发展。

当前有关网络信息计量的研究已经初具规模,网络信息计量学也已初具雏形,其研究进展涉及[53]:搜索引擎的覆盖范围和质量研究、网页类型和质量研究、网上知识发现和问题跟踪、网络影响因子研究[54]、网页链接动机和测度研究[55]等前沿热点领域。随着因特网的不断发展,网络信息计量学的作用与意义必将会日益显现,其研究也必将获得新的更大突破。

至此,我们沿着文献计量学到信息计量学再到网络信息计量学这条演进轨迹详尽地阐述了情报学数学计量化研究的主要领域。纵观其整个演进过程,不难发现情报学数学计量化研究这一主要领域之所以不断向前发展,其前提是满足了以下两个条件:①探寻到新的计量元素;②从新的角度研究计量元素间的相互关系。笔者坚信,随着情报学研究中新的计量元素的不断纳入和新的数学计量研究视角的不断发现,情报学的数学计量化研究必将继续沿着这一演进轨迹而掀起新的研究热潮,获得新的发展,最终取得新的重大突破。

4 情报学其他领域的数学计量化研究

4.1 情报学基础理论领域中的数学计量化研究

情报学基础理论领域中的数学计量化研究往往是同物理学、控制论,信息论的一些概念、方法乃至理论在情报学中的使用或者说移植、借鉴结合在一起的。例如,将缘于物理学的“熵”概念、“场”概念、“势”概念及其相关理论引入情报学理论研究中,建立起“情报熵”[56]、“情报场”[57]、“信息场”[58]、“情报势”[59]等概念及其理论与数学模型。又如,运用控制论中的黑箱模型对微观情报过程进行分析[60]等等。而文献[61]则干脆将控制论引入到整个情报学研究领域中,创建了情报控制论这一介于情报学与控制论之间的情报学研究分支,运用有关数学模型从定量的角度较为系统地揭示了情报、情报流、情报过程及情报系统的控制规律,介绍了控制论方法在情报工作中的应用。总的来说,当前情报学基础理论领域的数学计量化研究主要集中于以下4个方面:

4.1.1 情报概念的数学描述 情报概念是情报学得以安身立命、生存发展的重要基石,然而至今理论界也没有就情报的概念取得明确统一的认识,从数学计量化的角度描述情报无疑成为深刻认识情报概念、理解情报的本质的重要途径。例如,文献[62]就以热力学的数学理论为基础,讨论了情报的定义,阐述了情报产生的热力学过程及原理,描述了产生情报之情报分析的数学过程,并在此基础上明确指出情报科学与信息科学不宜“合二为一”。文献[63]从物理角度讨论了布鲁克斯的情报科学基本方程式,描述了布鲁克斯方程的物理形式,指出布鲁克斯方程是一种信息域与知识域的变换,并在此基础上进一步从定量的角度阐述了信息生成知识的机制,给出了信息与知识变换的数学形式。文献[64]则利用离散数学中的集合论,以及关系与函数等数学知识对包括情报定义在内的情报学的一些基本概念作了数学上的描述,并用数学方法对某些情报活动作了说明,而有关情报的数学定义问题在该文献中是探讨的重点。

4.1.2 情报的基本测度问题 例如,文献[65]提出了情报量的计算方法。文献[66]提出了一种基于申农信息理论之上的情报信息测度方法,即在首先分析情报活动中情报信息通信过程由文献事例集、情报问题集和情报人员3要件构成的基础上,应用申农信息理论的经典方法,导出单个具体文献事例与单个情报问题间的互情报信息量公式和情报的平均互情报信息量公式,并相应地给出了计算实例。文献[67]则认为,在对情报信息进行测度时,考察问题的着眼点不同,意味着测度空间不同,测度结果也不同;指出申农的信息测度是一般意义下的测度,具有客观性,而情报信息也具有客观性,因此申农的信息测度对于情报信息无疑也是适用的,它可以作为情报信息测度的基础,但是情报信息更具有其主观性的一面,这样仅用上述测度就不够了。在此基础上研究者进一步结合实例定量地介绍了不同意义下情报信息的多种测度类型:解除不确定性的测度、效用测度、决策信息测度、语义信息测度。文献[68]则对基于情报知识属性的情报测度基础进行了讨论,较为详尽地阐述了布鲁克斯的情报测度思想、基于知识结晶学原理的情报测度探索、基于“思想基因”理论的情报测度探索,从而使布鲁克斯的情报测度与知识结晶学理论、“思想基因”理论形成了有机的联系。

4.1.3 情报学学科研究对象、研究内容等的数学描述 例如,对情报过程进行定量化描述[69]、从物理学角度提出了(情报)信息交流的时空分析方法,认为在(情报)信息交流时,信息的传播接受与人或者说信息接受者的感觉、知觉息息相关,而感觉或知觉是将客观形式的信息主观化的过程,在这种转化过程中存在着一种转换原则——透视法则,即幂定律[70]。在引出情报信息交流中这一对数透视变换法则的基础上,又进一步阐述了情报信息交流中的各种对数变换。具体地说,就是分别用数学描述了情报信息交流中的时间对数变换形式、空间对数变换形式、学科(行业)对数变换形式或者说精神空间变换形式,相应地给出了有关数学公式[71],对情报检索进行模糊数学描述[72],运用模糊数学对情报研究活动进行数学描述,并对整个情报研究过程进行模糊控制方面的考查[73]及对情报机构功效进行定量分析[74]。在明确指出情报势和情报流构成了情报源的基本特性的基础上,对情报源进行定量化描述,并以层次分析法对情报源进行定量评定为例,阐述了情报源的定量(数学)评价方法[75],对情报流提出了情报流扩散数学模型[76]和进行控制问题方面的定量研究[77],运用情报势的数学模型定量描述文献情报的传播机理[78],通过将信息传播化解为载波模式、扩散模式和接触模式并分别以波动方程、扩散方程和接触方程描述其规律,从而定量化地揭示了信息传播的规律性[79],以及对信息传递质量进行定量化研究[80]等等。

4.1.4 情报学学科理论体系的定量化研究和数学描述 文献[81]指出成熟的学科都具有分析性研究分支,如分析力学之于物理学,分析化学之于化学,乃至经济分析之于经济学等。为使信息(情报)学获得一个强有力的理论支点,建立分析信息(情报)学势在必行,这是使信息(情报)学成为现代精密科学的必由之路。在此基础上该文献根据对一般信息系统的定性分析和定量分析,建立了以信息分析基本方程组为标志的信息学基础理论分析模型;通过对基本信息分析方程组的求解,从理论上说明了文献计量规律的动力机理,并通过信息价值分析,揭示出知识是有效信息的积分,最后探讨了信息的物理本质和哲学抽象。而文献[82]则在已有的“信息科学基础理论的分析构建”基础上,进一步阐述了“分析信息学的理论基础”,从具体到抽象依次用数学描述了分析信息学的物理基础和逻辑构成,相应地给出了有关的数量公式,最后探讨了分析信息学的方法论问题,指出分析信息学的提出并不意味着计量信息学的完全终止,而只是指包括布拉德福定律、普赖斯曲线等在内的一系列依靠实验数据方法从数据中获得的文献计量规律所代表的纯粹计量信息学的终结;分析信息学是对信息学的理论提升,是一种纯粹建构的信息学,它并非彻底取代或淘汰计量信息学,而是脱胎于纯粹计量信息学的信息学理论的新发展,它将以数学模型和演绎推理为特征,推演出新知识。

4.2 其他情报学分支学科领域中的数学计量化研究

4.2.1 情报检索理论(情报检索学)中的数学计量化研究 20世纪60年代以来,作为情报检索学重要构成的情报检索理论研究中呈现出的重大动向之一就是从定性研究走向定量研究,一些数学理论或者说数学工具开始运用于情报检索理论中[83]。情报检索学中的数学计量化研究主要集中于以下5个方面:①情报检索理论中的数学应用,如文献[84]开风气之先,介绍了国外情报检索理论中运用集合论、模糊集合论、代数理论、概率论与数理统计建立检索系统数学模型的概况。而在随后的国内研究中,诸如集合论[12]、数学最优化方法[13]、决策论[17]、模糊数学[85]等数学工具先后被引入情报检索理论中或者被进一步地阐述其在情报检索中的应用。②对检索效果评价指标的定量研究,如文献[86]对检索指标的关系作了数学解释,文献[87]对人们广为熟知的查全率和查准率这两个检索效果指标进行了数学探讨。③对检索系统模式的定量研究,如文献[7]对情报检索系统进行了模糊综合评价,文献[88]对多种(情报)信息检索的数学模型进行了评价。④对情报检索语言的定量研究,如文献[89]以模糊数学为主要工具提出了3种模糊检索语言,并探讨了实现这些语言的具体方案。⑤对情报检索服务的定量研究,如文献[90]对运用灰色聚类法评价计算机情报检索服务这一数学方法进行了探讨,指出该方法在情报学中是一种很有应用价值的分析方法。总的来说,该专著强调数学在情报检索中的重要性,强调“必须对数学方法进行有效的研究,如不通晓数学,就无法应用新技术使情报检索取得更大的进展”[91],并在文献内容的自动分析与自动标引、文档结构、代数检索、概率检索、模糊检索、布尔检索、文献自动分类、相关反馈检索、检索评价、多值相关性判定下的检索理论等领域也较为详尽地定量化阐述了现代情报检索理论。

4.2.2 情报心理学中的数学计量化研究 这方面的研究主要体现在对情报用户的情报需求、情报行为、情报吸收等情报心理学概念进行定量分析和构建数学模型。例如,对情报需求予以定量化分析[92]、运用决策论中的效用理论和模糊学原理对情报需求进行模糊决策研究[9]、运用模糊数学的模糊序贯决策方法对情报吸收过程进行研究[10]、依据对数透视变换法则这一感知心理学的重要原则,在阐述(情报)信息用户的(情报)信息吸收过程中,深入研究了感知信息的接受机理并将对数法则,即幂定律引入情报学研究中,提出了应用于情报吸收利用研究的情报对数律[93]、对情报行为进行数学模型建构[94]、对情报意识进行测度[95]等等。

4.2.3 情报研究学中的数学计量化研究 这一领域研究主要集中于情报研究方法的定量化研究[96]和情报研究成果评价的定量化研究[97-98]两方面。文献[99]就明确指出,(情报)信息方法一般分为3种:创造性思维方法、逻辑思维方法和数学方法。文献[100]则较为详尽地阐述了情报研究中的各种定量方法。文献[101]除了对文献计量分析法、特尔斐法、相关分析与回归分析、时间序列预测法、抽样调查与市场需求预测、灰色预测等这些情报研究定量方法作了详尽阐述、并给出相应的实例外,还对情报研究的成果及评价方面的定量方法进行了阐述。需要特别指出的是,除了上述情报研究的定量方法外,利用数学曲线的拐点进行情报研究也是一种极其重要的情报研究定量方法,如文献[102]就作了这方面的探讨,而文献[96]所阐述的广义量化方法也是一种新的情报研究定量方法。

4.2.2 情报经济学中的数学计量化研究 该研究主要涉及以下4个方面:①对情报价值或者说信息价值的数学计量方法与数学模型的研究及其表达[103-104],如文献[105]就分别阐述了西方经济学家、决策科学家、数学家和情报学家在“信息的价值”这一领域内的研究成果,相应地给出了有关数学公式;还特别指出,信息经济学对信息价值的研究是建立在经济理论、统计决策理论、排队论之上的,它是以数学公式来精确表述的,信息经济学和决策科学对信息价值的研究都有其数学表述。由此可见,数学对信息价值的研究是有重要贡献的。该文献还针对在西方学者的研究中,数学对信息价值的贡献主要是在统计决策理论领域,而基于统计决策理论的模糊数学对于信息价值的研究至今仍没有受到重视这一点,专门从模糊数学的角度对信息价值进行了研究。②有关(情报)信息产品定价的数学模型研究[106],如文献[107]就运用模糊数学的方法来解决信息产品定价的模糊性问题,提出一种等级价格思想,使定性评价与定量计量相结合,构建出一种可计算确定值的模糊综合定价模型。而文献[108]则进一步在已有的信息产品模糊综合定价模型的基础上,建立了专家定价能力测试模型,并用计算出的专家定价能力系数修正原模糊模型中的专家评价矩阵,构建出一个考虑专家定价主客观因素影响的信息产品模糊综合定价深化模型。③有关信息经济宏观测度的研究[109]、信息经济测度方法的数学模型建构研究[110],或者说包括信息化指数数学模型的构建和修正在内的社会信息化水平测度研究[111]。④情报经济或者说信息经济的经济效益数学评价研究[112-113],例如从定量角度对情报效率的计算研究[114]、对情报工作经济效益的数学评价[115]、对情报的经济效益的数学分析与评估[116]等等。

此外,在情报咨询学这一情报学分支中也往往涉及到数学计量化研究,例如在企业信息咨询业中应用解析结构这一数学模型对信息咨询企业所处环境中的影响因素进行运算分析[117]。而在情报学的另一重要研究领域——竞争情报领域,也经常地涉及到数学计量化研究,如运用包括解析结构模型等在内的多种数学方法进行竞争战略的环境信息的定量评估[118]等。本文对于这些领域的情报学数学计量化研究不再予以进一步阐述。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

论情报学的数学计算_数学论文
下载Doc文档

猜你喜欢