文献计量学与内容分析的比较与综合研究_文献分析法论文

文献计量和内容分析的比较与综合研究,本文主要内容关键词为:文献论文,内容论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1、引言

在文献情报研究方法中,文献计量法是一种基于数学和统计学的著名的定量分析方法,它以各种科学文献的外部特征为研究对象,以输出量化的信息内容为主要特点。经过数十年的发展,文献计量法的理论及其三定律已经成为情报学研究的重要基础和组成部分。同时,也形成了一些较为成熟的方法,如文献统计分析法、书目分析法、引文分析法等,其应用领域也由图书情报部门拓展到科学学、社会学、预测学、科学评价和科技管理等相关领域,为科学管理和决策提供定量依据,发挥着重要作用。随着大量的信息在网络上进行传播,人们开始将注意力转向对网络信息的计量研究,这就促成了网络计量法的诞生。通过对网络文献特征的计量统计,力求找出网络上信息分布规律,以求为网络信息的科学化、规范化管理提供理论依据,同时对网络信息服务业发挥一定的指导作用。

内容分析法是一种以定量分析为依据的定性分析方法,分析结果是从统计数据中得出的定性结论。从20世纪初提出思路开始,逐渐形成了比较系统的方法体系,包括确认并定义了内容分析法的研究对象、研究内容、研究性质,创建了内容分析法的基本研究模式、操作流程,并将此法广泛地应用于军事情报研究、新闻报道研究、教育研究等方面。如通过对不同国家、不同报纸针对同一事件的新闻报道的描述内容、方式等方面进行比较研究,以获得有价值的军事情报或是不同国家、不同报纸对同一事件的看法、立场等方面的差异性信息。随着信息内容表述多样化的发展,内容分析方法正在扩展为包括各种文本、图像、声音、影像、多媒体等信息的内容分析。

在文献情报研究中,目前研究者大多数只采用单一的分析方法,这样得出的分析结果难免会带有一定的偏颇性与局限性。为了克服采用单一研究方法造成的弊端,提高文献情报内容研究的效率,确保分析结果的可靠性与准确性,以适应网络信息环境下多元化与综合化研究的发展趋势,需要将文献计量法与内容分析法结合起来开展综合研究。

2、文献计量法和内容分析法的比较研究

2.1 相近性研究

2.1.1 在实现的研究目的上 文献计量法和内容分析法的研究目的都是经过对研究对象的特征分析,找出其发展变化的趋势和规律,以便对文献信息进行科学的、规范的管理与利用。

2.1.2 在使用的理论方法上 文献计量法要根据统计结果建立数学模型,就必须要应用数学与统计学知识;而内容分析法则需要数学和统计学知识来检验分析结果的正确性与有效性。在使用哲学方法方面,内容分析法使用推理和比较的方法对事物发展趋势进行研究;而文献计量法则在建立反映文献现象的数学模型之后,将其应用于实际环境时需要用推理和比较的方法对文献的分布规律性等进行分析。

2.1.3 在总体的研究流程上 两者都需要先搜集待分析对象,并在搜集过程中对其进行分类、聚类,接着确定分析单元(即明确研究的具体内容),然后,使用统计软件或通过手工对分析单元做量化统计,以建立分析的定量基础,最后根据统计结果建立反映文献现象的数学模型或取得反映其趋势变化的规律性结论。

2.1.4 具有共同的研究对象——文献、文本 早期的内容分析法主要是以报纸上刊载的文章为研究对象来研究社会现象的;文献计量法从产生的第一天起,一直以各种科学文献为主要研究对象,以研究文献各种外部特征的分布规律。

2.2 差异性研究(见表1)

表1 文献计量法与内容分析法的主要差异

比较内容文献计量法内容分析法

性质定量分析法定量基础上的定性分析法

研究对象文献用户、科学文献的外部 文本、图像、声音、影像、多媒体

特征 信息的内容特征

方法论基础 数学方法和统计学方法 推理方法和比较方法

理论分析(发现文献现象)确定分析主题→抽取文献样本

分析步骤→建立模型→估计参数→→确定分析单元→制定分析体

实际应用(修正参数)系→定量处理与计算→分析汇

对分析结果传统方式下常采用Kappa的测

的可信度测 将拟和公式应用到一批新评公式K=(P[,A]-P[,C])/(1-P[,C])

评方法 的分析数据中来检验其可进行计算,其中:P[,A]指两个研究

信度 者分析结果一致的比例大小;

P[,C]指预期两个研究者分析结果

达到一致的比例大小

特点

围绕三大定律展开研究、有

自己独特的分析方法、以定

研究对象范围广、时间跨度大、

量的形式输出、理论形成周

易进行重复分析、分析过程较为

期较长 客观、不受分析者影响

应用范围

科学评价、情报检索系统研

究、图书情报系统管理领 新闻学、传播学、情报学、教育

域、对信息用户的分析及在

学、经济学等多个学科领域

学科核心期刊测定中的应

软件工具

现有的文献计量软件较少,

多为针对某一定律而设计 现有的文本分析软件较多,功能

开发的,其功能主要是对文

较为强大,能够对各种文本信息

献特征的量化数据进行拟 中的信息元素进行统计处理

2.2.1 两者的方法论基础存在差异 文献计量法是以数学和统计学方法为方法论基础的,应用过程中再利用推理和比较的方法对文献的分布趋势进行预测;而内容分析法是先利用推理和比较的方法对研究对象的内容特征加以分析,再使用数学和统计学的方法对分析结果加以验证。

2.2.2 研究对象的范围不同 文献计量法的研究对象是以科学文献的外部特征为主,而内容分析法的研究对象范围较广,可以是在各类期刊上发表的文章,也可以是报纸上刊登的社论、新闻、报道,还可以是各类广告、大众媒体制作的各类节目,等等。由此可以看出,内容分析法的研究对象不仅是由文字组成的文件,还可以是由声音、图形、图像组成的文件,研究时是从多方面取材的,以提高研究的全面性与可靠性。随着互联网的发展,各种形式的信息层出不穷,内容分析法和文献计量法的研究对象也在不断地拓宽。例如,可以采用内容分析法分析现在BBS上的语言特征,也可以采用文献计量法对网络信息互相链接的情况加以分析。

2.2.3 分析侧重点不同 文献计量法侧重于分析文献外部形式特征的“量”,从定量的角度分析文献规律,间接反映内容的相关关系。它以布拉德福定律、齐夫定律、洛特卡定律等几个经验定律为核心,通过对文献形成方面的某种外部特征的统计分析,如统计特定作者在一定时间范围内发表的文章篇数、一定时间内特定期刊上刊载的文章所引用的引文总数及引文载体类型等等,从中得出结论,以探寻科学文献的生产、流通和应用的规律。虽然文献计量法中同样有词频统计,但其目的是研究词汇术语在科学文献中的分布规律以用于词表编制、词汇控制与自动标引等。内容分析法侧重于分析文献内容特征的“量”,其所研究的不仅是研究对象的外部特征信息,而且主要是对研究对象包含的语义信息量进行分析,如对报纸上的新闻报道进行研究,不仅要统计其形式上的特点——头条、字体加粗加大、用不同的颜色等,还要对报道中不同概念出现的频率进行统计分析,以了解报道的真正目的和实质。

2.2.4 具体分析步骤有所区别 文献计量法的具体分析步骤是:以某种文献外部特征为计量单位,对其进行统计和分析,建立适当的数学模型以揭示其中所包含的规律性内容,然后在实践检验中修正参数,使建立的模型更加接近真实情况。内容分析法的具体分析步骤:根据研究目的来确定分析的单元、建立类目计划,然后根据类目定义将分析单元编码归类,在抽取的样本中对分析单元进行统计与分析,最后得出研究对象内容上的某些规律性结论。

2.2.5 应用范围不同 内容分析法适应范围广,文献计量法仅适用于科学文献,而且每个经验定律都有特定适用范围,如齐普夫定律对高频词与低频词不适用,洛特卡定律是由物理化学两个学科文献统计推出,应用到其他学科必须进行修正。因此,文献计量法在从定量角度揭示文献内容的深度方面不及内容分析法。

3、文献计量法和内容分析法的综合研究

3.1 综合研究的优势与意义

通过以上比较分析可以看出,两者在实际应用中都有各自的局限性。文献计量法采用定量的分析方法,在拟合过程中往往要忽略一定的异常数据及真实环境中的一些客观因素,才能得到比较满意的结果;内容分析法能够做到比较客观地分析对象,但是在定量统计与数学模型的建立方面有所欠缺。将两者结合起来应用可以相互弥补各自的不足,使文献情报分析结果更加有效,在信息服务工作中更好地发挥方法论的指导作用,为用户提供更加准确的信息。

同时,两种方法的综合研究将会全面提升学科研究的水平和效率,有利于从文献计量的分析过渡到对文献中知识的测度与分析;有利于创新和改进研究方法,进一步完善方法论体系,使信息资源的开发和管理更加科学化与规范化,满足网络信息环境下文献计量学和情报学发展的客观需要。

3.2 综合研究的思路

文献计量法与内容分析法在研究目的、理论方法、总体研究流程与研究对象等方面存在着较大的相似性,这为两者的结合与应用提供了可能。经研究,笔者认为文献计量法和内容分析法的综合研究可以按照以下几点思路展开:

3.2.1 前提条件 充分研究网络环境下各种信息载体的特性,以探讨从数学和统计学角度对其进行计量分析的规律性,为文献计量法和内容分析法的结合应用建立方法论基础。文本信息、图像信息、声音信息及视频信息存储在不同的信息载体上,所表现的特征是有差异的,如何计量并分析它们在数量上存在的规律性,是开展文献计量法与内容分析法综合研究的前提。

3.2.2 理论基础 深入挖掘信息内容的表达形式和方法在语言学、行为科学范畴内的本质属性,以探讨文献计量法与内容分析法结合应用的理论基础。在网络信息环境下,信息内容的表达形式与方法呈现多样化,不仅融合了传统的信息表达方式,在技术的支撑下扩展了如超链接、超媒体的表达方式,而且信息内容被置于Web semantic、ontology、concept map等表达框架范围中。那么,如何从语言学与人类行为科学等角度研究与探讨信息内容表达的本质属性,是深入开展文献计量法与内容分析法综合研究的基础。

3.2.3 发展方向 分析用户的信息需求特征与规律性,并考察用户对利用不同加工方法生产的信息产品的偏好,以从用户角度出发探求文献计量法与内容分析法综合应用的发展方向。因为综合研究方法的目的是为信息服务机构和信息用户提供有效利用信息产品的工具,满足用户的信息需求是文献计量法与内容分析法综合应用的归属,网络环境为用户利用信息提供了方便而快捷的渠道,所以,对海量信息的提炼、加工,以满足用户获取要求成为了人们关注的焦点。只有充分地研究用户对利用不同信息加工方法生产的信息产品的需求特征,才能有的放矢地把握信息服务的发展方向。

3.2.4 通过比较分析,建立数学模型 选择各种不同类别、不同内容的文献信息,进行大规模的实验数据统计分析,并分别考察应用单个分析方法与两种方法结合应用的不同结果,再经过比较分析研究,以探索能够将两者结合起来的可行的数学模型。

3.2.5 开发两者相结合的软件 进一步探讨两者结合的应用流程,并结合现代先进的信息技术,尝试开发内容分析法与文献计量法结合应用的软件工具。

4、文献计量法和内容分析法综合应用的软件架构设计

4.1 现有软件的调查与分析

通过调查,笔者了解到现在较为常用的内容分析软件有20余种,其中ATLAS.ti、NUD * IST、WinMaxPro、KEDS/TABARI、DIMAP等软件的功能较为强大,主要提供文本输入和管理、文本信息处理(词频统计、词语类目统计与分析等)、文本信息检索、建立词典及类目并据其对文本进行编码、处理结果输出(具有可视化输出界面)五类功能。当然,目前还没有一种软件能够完全囊括上述的所有功能,每个软件对分析对象的类型、分析方法、分析过程、分析结果的显示方法都有自己的特点和侧重点,这在某种程度上也阻碍了研究者对分析结果的可信度与有效性进行测评。现有的文本内容分析软件按其预期的功能主要分为三类:①执行以词典为基础的内容分析,具有基本的分析功能,包括词语计数(word counting)、分类及简单的统计测试(simple statistical tests);②具有用户开发环境(development environment),在构建词典、语法规则及其他文本分析工具方面能够部分地实现自动化(半自动化),甚至可代替分析者完成这项工作;③可生成一些辅助的注释信息,它们更像是分析人员进行手工分析时生成的页边注释、交叉引用及简短笔记的电子版。

目前的文献计量应用软件有针对某一定律开发的公式拟和软件,也有辅助分析的聚类、分类软件及信息计量软件等。如在针对定律开发的软件工具中比较著名的是以洛特卡命名的软件,它是用来拟合如洛特卡定律一类的指数分布定律的软件,也可用于对齐普夫定律(Zipf' s law)进行验证,采用此软件只需将相关数据进行整理输入即可。该软件的原理是以尼科尔斯的最大相似法来拟合参数,用柯尔莫哥洛夫-斯米尔诺夫方法对得到的结果进行检验。该软件可以从网上免费下载,修改需征得软件制作者的同意。

在对辅助分析软件工具的查找中,笔者发现早在20世纪90年代初,中国科学技术情报所就在汉化的CDS/ISIS2.3版基础上开发了情报检索软件——ISTIC/ISIS,与CDS/ISIS2.3相比,ISTIC/ISIS有包括下拉式菜单和窗口在内的友好用户界面。从功能上看,增加了词表管理、TEXT文件转换、光盘数据处理等功能,其数据库安全性也有所提高。现在,该软件的Windows版——Winisis已经被开发出来,当前最高版本是Winisis1.4版,其特点在于:运行平台的可视化;可管理的数据库容量大大增加;具有多媒体文件的管理功能;超级链接功能;提供检索界面向导。除此之外,该软件还可进行各种信息的计量统计,如按各个字段来统计人名、作者、关键词、主题词等的出现频率,并可通过全文扫描来实现统计功能,以利于文献计量学(信息计量学)的分析。该版本已由武汉大学信息资源研究中心汉化成功,被命名为C_Winisis,可供国内图书情报档案机构使用。另一个辅助分析工具是可选择多种相似性测度的模糊聚类分析的Internet分布式计算软件Fuzzy Cluster

4.2 两者结合应用的软件架构

通过查阅各方面的资料,笔者发现目前还没有将两者结合起来应用的软件。因此,在对上述文本内容分析软件功能研究的基础上,笔者提出了将两种分析方法结合应用的软件系统构架。由于文本类型的数据是文献计量法和内容分析法共同的研究对象,设计软件系统的基本思路是:软件的功能包括上面所介绍的文本内容分析软件的各项功能,通过对文本信息的外部特征和内容特征分别加以统计分析,再借助于文献计量法的统计分析和数学建模方法与工具,对文本外部特征和内容特征的统计结果做进一步的分析处理,以得出规律性的内容。不仅可以指导信息服务工作,而且也可以作为建议性的信息公开给用户,帮助用户在最短的时间内找到准确的信息。该软件系统架构的具体组成部分包括:文本输入与管理,建立词典与类目等规则库,文本编码与统计,处理结果显示,数学模型建立与分析结论导出,如图1所示。

附图

图1 文献计量法与内容分析法综合应用的软件构架

文本输入与管理模块主要包括文本输入界面和文本预处理操作界面,以用于将研究相关的文本信息输入到计算机中,再作进一步的处理与分析。文本的输入采用文件导入或手工输入,在预处理时为保证输入的信息具有研究价值,对于零散的文本信息可进行训练处理和适当地给文本手工添加定界符,并根据需要设置不同的定界符文本结构、单元定界符和语法识别方法;词典与类目等规则库包括用户自定义的类目库、词典库、语境参数库和受控词表及禁词表,以及软件系统自带的受控词表及禁词表、类目库、词典库、语境参数库;文本的编码与统计模块主要用于对文本中的词语串、词语、短语、句子、行、段或整个文本根据不同的类目、词典、语境等标准指定一个或多个编码,给文本信息建立注释或合并编码,并根据编码计划进行词频统计或词语类别频率统计,或者输出到其他统计分析软件中;在处理结果显示模块中,根据用户的需要以各种表格、图形等形式显示出统计的数据结果,以便用户使用;数学模型建立和分析结论导出模块包括模型库、方法库及应用模型库,以存储常用的文献定量分析经验模型和数学、统计、推理、比较等方法。该模块的建立必须借助人工智能等技术,具体建模和结论分析时还需要专家人工干预。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

文献计量学与内容分析的比较与综合研究_文献分析法论文
下载Doc文档

猜你喜欢