基于网络的内容分析_文献分析法论文

基于网络的内容分析_文献分析法论文

基于网络的内容分析法,本文主要内容关键词为:分析法论文,内容论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1、网络内容分析法

什么是内容分析法?内容分析法是成形于第二次世界大战时期的一种新兴的社科研究方法。自20世纪50年代以后,随着内容分析法理论研究的开展,产生了许多关于内容分析法的定义。其中,最具经典意义的是1952年由美国传播学家伯纳德·贝雷尔森(Bernard Berelson)在其研究著作《传播研究中的内容分析》中对内容分析法的定义。他把内容分析法定义为“一种对具有明确特性的传播内容进行的客观、系统和定量的描述的研究技术。”[1]

我国学者也提出了不少的定义,较典型的如,“内容分析法是对文献内容进行客观、系统、量化分析的一种科学研究方法。”[2]“内容分析法是一种基于定性研究的量化分析方法。它将用语言表示而非数量表示的文献转换为用数量表示的资料,并将分析的结果用统计数字描述。通过对文献内容“量”的分析,找出能反映文献内容的一定本质方面又易于计数的特征,从而能克服定性研究的主观性和不确定性的缺陷,达到对文献‘质’的更深刻、更精确的认识”[3]。

具体来说,内容分析的内涵有这样几个特征:①研究对象的特征,是“具有明确特性的传播内容”。“明确(Manifest)”意味所要计量的传播内容必须是明白、显而易见的,而不能是隐晦的、含糊不清或没有明确表达出来的意思。如果对传播内容的理解在研究者之间、研究者与受众之间很难达成共识,则不宜作为内容分析的对象,因为对这类内容进行计量非常困难。②分析方法的特征,是“客观(objective)”、“系统(systematic)”和“定量(quantitative)”。③结果表述的特征,是“描述性的(Descriptive)”。内容分析的结果常常表现为大量的数据表格、数字及其分析。这是“客观”、“系统”和“定量”研究的必然结果。

内容分析作为一种正式研究方法自诞生并发展至今,已形成了较为成熟的模式和理论,并被广泛地运用于社会科学各学科中。1971年,哈佛大学的卡尔·多伊奇等人将“内容分析”列为从1900—1965年62项“社会科学的重大进展”之一。20世纪80年代以来,内容分析方法不断吸收当代科学发展的养料,用系统论、信息论、符号学、语义学、统计学等新兴学科的成果充实自己,在社会发展和国际政治等领域中业绩显赫。

随着计算机技术的引入,内容分析法的适用范围也更加宽广。本文提出“基于网络的内容分析法研究”。之所以如此提法,是基于以下两个客观因素的考虑:一是所统计分析的对象数量的庞大,二是网络及其网络技术的发展对内容分析法的影响。

作为一种基于定量分析的研究方法,内容分析法对文献资料的依赖性很大。这就给研究人员带来了极大的工作负荷。在从事内容分析的过程中,大量的文献、资料、信息的收集、整理、统计的工作是必须的、精确的,也是简单的、重复的、大量的,特别是网络信息的“爆炸式”的状态,往往使得对文献信息分析的过程长而费力。这种简单而重复的统计工作完全可以在计算机软件工具的帮助下变得轻松简单起来。技术与方法的有机结合可以提高分析统计的效率和分析结论的可信度。加强内容分析法的技术研究是解决内容分析法的信度和效度的最有效的办法。

网络内容分析法,应该有两层含义:一是对网络的内容分析,二是基于网络技术和网络环境来研究内容分析法。

网络时代给内容分析法提出的最重要的问题之一,是对于网上的交流信息的本质及其影响力的认识与思考。对网络进行内容分析将是一项极具挑战性的工作,这不仅是因为网络信息类型混杂,图文声并茂,动画、视频以及正待开发的触觉、嗅觉等多媒体信息,其处理难度前所未有;而且网络信息的非线性结构、交互功能、超媒体链接的广泛存在,使其长期处于一个庞大的无序状态,若要对其进行有序化,任务将极其艰巨。然而这项工作的意义却也十分重大,其研究成果将能解决目前网络信息开发、组织和利用中存在的各种问题,其研究前景将是出现一个数字化、多元化、个性化、实时化、互动化而又有序化的信息世界。正是基于对网络内容分析法的重要意义和美好前景的充分认识,各国学者就此积极开展了多方面的研究,使其成为目前内容分析法的主要研究发展方向之一。

2、基于网络的内容分析法研究目标

“内容分析法在20世纪40年代以前已成为一种经常用到的研究方法。一开始局限于词频统计研究,到20世纪50年代研究人员已经开始考虑更成熟的分析方法,关注概念而不只是单词,关注语义关系而不只是词频。这就需要有先进的技术手段的支持才能实现,计算机辅助内容分析(Computer-Aided Content Analysis:CACA)成为新的研究热点。”[1] 随着网络的发展,数据管理工具的量不仅大大增加了,而且数据管理的质也有根本性的变化。

基于网络的内容分析法的研究,我们以为应该达到两个目标:分析过程的客观而精确,分析结论的信度和效度。下面分述之。

2.1 基于网络内容分析的客观性和精确度

在对科学进行实证研究时,内容分析有其独到之处。首先,内容分析可以基于现存的资料,对大量的材料进行对比分析且成本较低,扩展了实证研究的范围。其次,由于多数研究项目不能直接跟踪人或组织的长期变化,当研究的主题涉及较大的时间跨度时,必须借助于有关的材料,内容分析能从大量的历史性资料中提取出与研究密切相关的信息。第三,内容分析可以对各种描述性的材料(包括调查问卷中的开放式问题)进行量化,在得到有明确意义的数据后,还可以与别的途径得到的数据相互印证或进行其他定量分析。

内容分析是从现在资料中识别和归纳出一些信息,在客观而科学的研究中应用这种方法就需要解决两个有效性方面的问题:①许多现存的资料是经过了多次加工的公开发表的材料,这些材料是否具有研究所具备的客观性和准确性;②内容分析的资料一般是非结构化的,需要研究人员通过解读来解释其含义并进行量化,能否保证解读过程本身不引入研究者的个人偏见。事实上,只要保证内容分析的材料尽量来自于研究的客体(企业或个人)或高质量的出版物,还要将多份相似的材料相互印证,内容分析的材料的客观性和有效性是能够得到保障的。

“对文献的内容分析一般有两个角度:概念分析和关系分析。概念分析通过发现文献内容中常用词最常表示的概念并统计其出现频率,从而对研究问题做出推断;关系分析更进一步的研究文献内容中各概念之间的关系、与上下文之间的关系、概念的组合及其涵义等。”[1] 可以看出,概念分析侧重于运用定量方法计算词频,关系分析则侧重于定性推导。定量要求做到准确,定性要求做到客观,这是不言而喻的。

基于“文献”的内容分析的客观性和准确性的目标,在网络环境下,由于网络信息的特殊性和不稳定性,对网络信息内容分析的客观性和准确性更是我们所追求的目标。

2.2 基于网络内容分析的信度和效度

“信度是对文献编码一致性、分类准确性和方法稳定性的检验:效度是指结论和事实的相符程度,以及理论研究结果的适用度,包括概念效度,即类目的定义是否准确反映实际情况;实验效度,即是否有更多的外部依据来证实内容分析的结论;以及现象效度,即研究人员是否真正理解了研究内容所表达的意思及方式。”[1] 可见,内容分析法的信度和效度是非常重要的,因为内容分析法就是通过所掌握的信息、文献来推断社会、历史、文化等方面的实际状况,它的结论及研究结果的客观性和真实性,与事实是否相符,对我们进一步认识事物,开展科学研究是至关重要的。

理论上,在对资料进行解读时,如果采用的是词频统计等方法,其计量操作可以达到很高的精确度。但在实际的研究中,由于材料中可能会有大量的流行词汇,词频统计不一定能得出有效的结论,往往采用其他相对模糊的标准进行分类编码,则会出现不同的编码者对同一份材料产生不同理解的情况。不过,通过事先准确地定义编码的原则,以及要求多位编码者独立地进行编码,然后再将结果进行一致性检验,是能够保证编码过程的客观性、有效性和可重复性的。

3、基于网络的内容分析法的特征和优势

计算机技术、网络技术的发展及其应用于内容分析领域,对内容分析法的发展产生了根本性的影响。基于网络的内容分析法较之基于文献的内容分析法有哪些优势?

3.1 定性分析和定量分析的差距在缩小

定性研究方法是对事物质的方面进行分析研究的方法,一般着重于对研究客体整体特征的把握;而定量研究方法将研究客体的特定属性和关系采用一定的方法进行量化分析,使研究成果更加精确。通常,定性研究是定量研究的基础,定量方法的运用是对定性研究成果的深化。

内容分析法的特征为客观、系统、定量。内容分析法是一种基于定性研究的定量化分析方法,定量是其显著特征。它是将用语言表示的信息内容转换为用数量表示的资料,并将分析的结果用统计数字描述。它通过对信息内容“量”的分析,找出能反映信息内容的一定本质的又易于计算的特征,从而克服定性研究的主观性和不确定性的缺陷,达到对信息“质”的更深刻、更精确的认识。由于计算机技术和网络技术的运用,内容分析过程中一些原来定性分析的过程也由计算机和程序来实现,内容分析的主观性在减少,而客观性在增强,定量分析的成分增多。当然,在选题、定义分析、制定定义框架等环节中仍少不了主观的作用。只是主观性与客观性、定性与定量的界限不再明显,或两者之间的合理使用的程度增高。而且,可以肯定的是,随着网络技术及数据技术的进一步发展,内容分析过程中的定性和定量间的差距会越来越小,两者之间的融合会更强。

3.2 数据库的发展提高了内容分析的效率

传统的内容分析在进行数据分析时,要进行大量的数据计算,效率很低。而在网络环境下,在基于数据库或基于数据仓库进行计算和分析时,效率则会显著提高,因为数据库或仓库所存储的数据是经过预先计算的汇总数据,是有规律的数据集合,基于这样的数据集合的样本抽取、内容抽样、定义单元分析和统计计算等工作自然会节约大量的时间,而且结果的客观性和精确度高。基于内容的数据挖掘和知识发现技术的应用也给内容分析法研究带来了生机。

3.3 网络使得内容分析的层次得到扩展

用计算机分析网络信息文本,并不是要取代传统社科研究方法,如问卷调查、讨论、访问等,而是对这些传统方法的有益补充,有助于综合各类研究成果,从而加强分析的有效性。与传统内容分析研究方法产生结果不同是,网络内容分析法产生的趋势分析结果能更容易地进行迅速而有效的更新,而更新一次内容分析只需要下载最近一段时期内的信息文本并用原来开发的编码程序执行分析,趋势分析可以每年、每季甚至每周更新,即使发生突发状况,该方法也能及时得到关于公众意见和观点的信息。每当加入一个新的研究问题,网络内容分析都能延伸到之前研究开展的时期再次分析,不受时间限制,这也是文献条件下随机调查访问办不到的。而且,在第一次研究的基础上,可以根据需要从更深入,更细致的层面上进行扩展分析,从而对问题的关键得出更丰富的认识。

约翰·奈斯比特的畅销书《大趋势(Megatrends)》中讨论的“十个改变我们生活的新方向”,是在传统文献条件下,通过劳动量繁重的人工编码对新闻报道文献进行分析而得出的,还有其他研究者也采用了类似的人工编码方法来寻找和跟踪可能出现的趋势。网络环境下,我们有理由相信,利用计算机编码的内容分析法能更快更高效的反映社会、政治、经济、科学的现实、动态和发展趋势。

4、网络计量学与内容分析法的优势互补

4.1 内容分析法在网络数据分析中的局限性

计算机和网络不是万能的。众所周知,网络数据数量庞大,内容复杂,形式千差万别,编码及其传播方式也各不相同。面对纷繁的网络数据世界,一方面,内容分析法的客观性、系统性和精确度、效度都受到了影响,使得网络内容分析法的局限性暴露出来;另一方面,网络环境使内容分析法的运用和研究得到了深化和完善。新的网络技术和数据库技术在不断出现,网络内容分析法也需要不断的优化。

网络内容分析法的局限性主要体现在以下几个方面:

(1)由于网络数据的广泛性、多变性以及网络信息的虚假性,使得在内容分析过程中样本的选择的难度较大。

(2)内容分析是以人为主体,对客体进行分析和评价的过程,在进行内容分析时,是将用语言表示的文献转换为用数量表示的资料,并将分析的结果用统计数字描述。虽然,内容分析本身可以通过对文献内容“量”的分析,找出能反映文献内容的一定本质方面又易于计数的特征,从而尽可能克服定性研究的主观性和不确切性的缺陷,达到对文献“质”的更深刻、更精确的认识。但是,实际操作过程中,不论分析对象、分析过程和分析结果中都不可避免地存在确定和不确定因素。

(3)网络信息来源广泛,类别多样,表现形式多样,数据格式多变,信息的变动快,要想基于这样的数据来制定一个较完善的内容分析框架,使大多数的研究者都能达成共识去遵守这样的内容框架来继续内容分析法的研究,难度是很大的。

(4)内容分析法的效果较难评价。

(5)内容分析法实际运用的费用较高,软、硬件的投资大。

4.2 网络计量学与内容分析法的优势互补

随着信息科学和信息技术的迅速发展以及互联网的普及应用,信息资源由早期的实物化、纸质化阶段进入到了电子化、数字化和网络化阶段,网络信息交流活动迅速激增,原有的文献计量指标已不再适用于测度、评估网络信息资源了,其结果导致了信息计量学进一步发展成为“互联网上的信息计量分析”,这就是网络计量学(Webometrics)。

网络信息计量学是网络技术、统计学、文献计量学理论三合一的产物,从某种意义上来说,网络计量学就是文献计量学、科学计量学在网络上的应用的一门学科,因而在文献计量学、科学计量学中得到广泛应用的文献信息统计分析法、数学模型分析法、引文分析法、书目分析法、系统分析法、关键词统计分析法、关联数据分析法、计算机辅助文献信息计量分析法等定量方法将在网络信息计量研究中得到广泛应用;同时,为了适应网络信息计量研究的需要,计算机、网络、数据库、通信等相关领域的先进技术,如知识发现、数据挖掘、数据可视化、内容分析法、图论方法等技术和方法不断被引入到网络信息计量研究中来,这一切,最终将促使网络信息计量学和内容分析法的融合和互补。

首先,内容分析法本质上是文献计量学方法。内容分析中的“确定分析单元”过程实际上就是文献计量中的“确定计量单元”的过程;内容分析法的“编码”的过程实际上就是文献计量中“数量化的计算”过程。

第二,内容分析法侧重于分析文献“内容”特征的“量”;文献计量学方法侧重于分析文献“形式”特征的“量”,是从定量的角度分析文献规律,虽然是间接的,但也反映了文献内容的相关关系。文献计量学以几个经验定律为核心,如洛特卡定律、布拉德福定律、齐夫定律、普赖斯定律等,它们的计量单元虽是文献形成方面的某种特征,但同样有词频统计,如,齐夫定律研究词汇术语在科学文献中的分布规律,与内容分析只是侧重点不同而已。

第三,内容分析法适应范围广,文献计量学往往只适用于科学文献,而且每个经验定律都有特定适用范围,如齐夫定律对高频词与低频词不适用,洛特卡定律只是由物理化学两学科文献的统计结果导出的,对其他学科也有不适用情况。因此,文献计量学在从定量角度揭示文献内容的深度方面不及内容分析法。

第四,网络信息的计量主要涉及三个层次:①网上信息本身的计量,既包括数字信息或文字信息,又涉及集文字、图像和声音为一体的多媒体信息等;②网上文献的计量,包括著者分布规律、文献分散、增长与老化规律、引文规律以及对这些规律的理论解释和数学模型的研究;③网络站点的计量,包括万维网(引文网)中的Web网页(引文)之间的引用关系以及网络的动态性、高时效性等内容[4]。著名信息科学家Tagne.Sutcliffe则把文献计量学的研究内容归纳为六个主要方面:①关于语言、词和词组的频率统计;②根据论文数量或其他方法确定的作者生产率测度;③关于出版源,例如期刊论文,科技图书等的统计分布;④引文分析,包括对作者、论文、期刊、机构和国家被引用量的分析及效用评价等;⑤文献的增长和老化测度;⑥各种类型的经验公式和计量模型[5]。不论是文献信息的计量还是网络数据的计量,很多的统计对象和内容都是与内容分析法相交融的。同时,网络计量学扩大了内容分析法在网络环境下的研究对象和统计内容,如:对图像和声音的内容的分析和统计,对网络站点内容分析和统计等,将成为网络内容分析法的研究重点。

5、基于网络的内容分析的应用

邱均平等在其所著的《网络数据分析》(北京:北京大学出版社,2004)一书中,从网络数据的角度把内容分析在网络中的运用归纳为5个方面:描述网络传播的信息;推论网络传播主体的倾向和意图;描述传播内容的变化趋势;比较、鉴别、评价网络信息资源;网络传播效果的研究。可见,网络内容分析法的研究范围和应用范围是很广泛的。

网络内容分析法和网络计量法都是基于“对网络信息的计量”这样一个基础,且它们都是借助于网络技术来实现网络计量的,即所谓的计算机辅助计量。

在网络计量的应用软件方面,目前应用较多的主要有两类:①数据处理软件。这类软件主要用于数据的获取、分析和处理。②网上动态跟踪软件和交互式调查软件。这类软件主要用于网络用户行为的研究。在网络数据收集方面,目前采用的主要方法有:通过Web服务器日志文件收集数据、通过网上联机调查和网下抽样调查收集数据,通过搜索引擎收集数据等。通过选择某领域的若干代表性的网站作为数据来源和起点,获取大量网络信息数据和链接情况,然后对其进行内容分析、域名分析、链接分析、测定网络影响因子等研究,探求网上信息的分布规律,验证其是否符合文献计量学的经典定律,为网络信息计量学的研究提供实证检验和范例。可见,网络内容分析法和网络计量法是交融互补的。

内容分析法在网络上的运用,主要是应用在对网络的内容挖掘和对网络的使用记录挖掘上。

5.1 Web内容挖掘(Web content mining)

网络上的信息良莠不齐甚至是虚假、错误的,因此信息的可靠性、有效性、相关性以及真实性成为人们关注的一个重要方面,并由此引发了对网站质量的评估问题。目前,除了利用布拉德福分布定律和根据被引用情况来判断网站的品质外,网站的内容分析、内容评估也成为网站质量评价的重要手段。如,Allen等人采用专家评议法,调查生物科学网站的可信度。其研究结果显示:在生物进化方面的网站内容的错误与误导率达到了87.8%,基因改造的网站内容的错误与误导率达到了82.8%。这一结果使人们对网络信息的可信性产生怀疑,也使人们相信通过建立和发展科学的定性和定量的内容评议,能评价和提供即时、准确的链接网址的门户网站或数字化图书馆。[6]

还有学者应用数据和文本挖掘技术在网络上进行问题跟踪,从而获得了以前未知的有用知识,为信息内容分析提供了极大的可能性。如,Bar-Ilan以“informetrics” 为主题,在1999年,选择了6个主要搜索引擎进行了一段时间的搜索和跟踪,由于网络的动态性,随时间的变化有些文献消失了又有新文献产生了,表现出研究对象的不确定性及研究结果的不可重复性。2000年,他用同样的方法对同样的问题做了更为详细的跟踪,为了克服不确定性,并将网络环境下的问题跟踪模式与文献数据库和引文数据库的模式作了比较分析,在此基础上,进一步采用内容分析法分类了近800个独立的网页,从而得出了较为客观、有效的结论。[7]

5.2 Web使用记录的挖掘(Web usage mining)

Web挖掘的另一个重要内容是Web使用记录挖掘。因特网上的用户只要连接到一个网络服务器上,就已经在这个服务器上留下了“痕迹”,这就是服务器的日志文件等记录。Web使用记录挖掘就是将数据分析的技术应用于网络使用记录文件的分析中,以发现用户的浏览模式、分析站点的使用情况。通过对网络使用记录数据的分析研究,可以提取有关的用户行为特征,对用户的访问行为、频度、内容等进行分析,得到关于群体用户行为方式的认识,发现网络环境下用户的行为特点和规律,识别潜在的客户,增强对最终用户的因特网信息服务的质量和交付,提高用户服务的有效性。通过对网络使用记录数据的分析研究,还可用于协助管理者优化站点结构,提高站点效率,构造合理的Web服务器,改进Web服务器系统的性能,从而合理配置资源,提高网络信息资源的建设和利用水平。[15]

Web使用记录挖掘的通常实现方法是对Web服务器日志和Cookie等记录文件进行分析,发现用户访问行为频度和内容等信息,从而找出一定的模式和规则,主要包括统计分析、路径分析、关联分析、序列模式分析、分类规则分析、聚类分析等。

标签:;  ;  ;  

基于网络的内容分析_文献分析法论文
下载Doc文档

猜你喜欢