网络数据内容分析研究_大数据论文

网络数据内容分析研究_大数据论文

网络数据内容分析研究,本文主要内容关键词为:分析研究论文,内容论文,数据论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

信息技术的飞速发展,带来了全球信息资源不可逆转的网络化发展趋势,网络是一个开放的系统,随着社会网络化进程的深入,网上信息迅速增长,并表现出以下特点:(1)内容丰富,它几乎涵盖了人类知识的各个领域。互联网已经成为世界上最大、最开放的信息集散地。(2)类型多样,随着多媒体技术和数字通信技术的发展,图像、声音、软件、数据库等各种形式的数据在网上占有的比重越来越大。网络期刊、报纸、数字图书馆已经成为许多人必不可少的信息获取渠道。(3)数量巨大,互联网是由为数众多的共同遵循TCP/IP协议的网络构成的巨大网络空间。它联结着遍布全球的大学、研究所和图书馆、近万家杂志期刊和报纸出版机构,以及数不清的政府机构和公司,网上的信息资源已不计其数,时刻都在增长。(4)结构复杂,由于互联网是一个开放式的系统,联入网的每一个系统的系统构成不同、信息组织方式不同、数据类型各异,因而网上的数据结构极其复杂。(5)变化频繁,首先网络数据内容更新的速度快,如证券信息、在线交流和网上节目直播等,这类信息的老化周期一般只有几秒,最多几分钟。其次,网络数据的变化还可以表现在网络数据的载体——网页的更新上,6.89%的网页在1周以内更新。再次,网络数据的变化还反映在网址的变化和网站结构的调整上。(6)质量不一,网络信息的利用价值差异极大。信息质量良莠不齐,为用户选择、利用网络信息资源带来了不便,也给网络信息资源的开发、管理提出了要求。

目前各国学者对网络信息资源开展了多方面的研究,因为网络信息类型混杂,图文声并茂,动画、视频以及正待开发的触觉、嗅觉等多媒体信息,其处理难度前所未有;而且网络信息的非线性结构、交互功能、超媒体链接的广泛存在,使其长期处于一个庞大的无序状态,若要对其进行有序化,任务将极其艰巨。然而这项工作的意义却也十分重大,其研究成果将能解决目前网络信息开发和利用中存在的种种问题,其研究前景将是出现一个数字化、多元化、个性化、实时化、互动化且又有序化的信息世界。正是基于对网络内容分析法的重要意义和美好前景的充分认识,各国学者对此开展了多方面的研究,使其成为目前内容分析法的主要研究发展方向。

2 内容分析法简介

2.1 什么是内容分析法

顾名思义,内容分析法(content analysis)是一种对研究对象的内容进行分析,透过现象看本质的科学方法。内容分析法是一种主要以各种文献为研究对象的方法。内容分析法最早产生于传播学领域。第二次世界大战期间的美国学者H·D·拉斯维尔等人组织了一项名为“战时通讯研究”的工作,以德国公开出版的报纸为分析对象,获取许多军政机密的情报,这项工作不仅使内容分析法显示出明显的实际效果,而且在方法上取得一套模式。20世纪50年代美国学者贝雷尔森发表《传播研究的内容分析》一书,确立了内容分析法的地位。真正使内容分析法系统化的是J·柰斯比特,他主持出版的“趋势报告”就是运用内容分析法。享誉全球的《大趋势——改变我们生活的十个新方向》一书就是以这些报告为基础写成的,他的咨询公司运用内容分析法对200份美国报纸进行分析综合,经过几年的积累,在这部书取得成功的同时,众多的研究者开始关注内容分析法在社会研究中的巨大作用和潜力。

在一百年的发展历程中,内容分析法已经广泛地被运用到新闻传播、图书情报、政治军事、社会学、心理学等社会科学领域中,取得了显著的成效。随着信息时代的到来,内容分析法在计算机、网络技术研究中也将成为一个新热点。内容分析法可以用于多种研究目标的研究工作:趋势分析、现状分析、比较分析、意向分析等等。内容分析法主要类型有:解读式内容分析法(hermeneutic content analysis)、验室内容分析法(empirical content analysis)、计算机辅助内容分析法(computeraided content analysis)。

2.2 内容分析法的一般过程

内容分析法可以分为几个独立的阶段进行:(1)提出研究问题或假设,首先将研究目标加以清楚的表述。确定研究的最终目标并加以清楚的表述是十分必要的,这将有助于使资料的收集围绕确定的主题进行,尽量减少收集那些对研究无助的资料。建立假设,即确定分析目的。因为以下每一步骤的设计均取决于分析目的,内容分析首先要有明确的意图。(2)抽取样本,当分析某些资料时,对全部内容进行普查很难做到,在这种情况下,必须进行抽样,选择最有利于分析目的,信息含量大,具有连续性,内容体例基本一致的文献进行研究。(3)选择分析单元,即寻找分析所需的各项考察因素,这些因素都应与分析的目的有一种必然的联系,如单词或单个符号、主题、人物以及意义独立的词组、句子或段落及至整篇文献都可以作为分析单位。(4)建立分析类目,内容分析的核心问题在于建立分析内容的类目系统,这种系统的构成随着研究主题的不同而变化,就像贝勒逊所指出的·特定的研究必须建立起明确的类目并使之适用于问题和内容”。在有效的类目系统中,所有的类目都应具有互斥性、完备性和信度。互斥性是指一个分析单位可以且只可以放在一个类目中;完备性是指所有分析单元都应有所归属,类目中必须有适合每一个分析单元的位置;信度是指类目系统应具有可信度,也就是说,不同的编码者对分析单位所属类目的意见应有一致性。(5)定量处理与计算,在采用计算机处理数据的情况下,首先要对分析单元进行编码,把数字语言转换成计算机能识别的符号,再使用统计分析法统计各类别出现频数,语义强度或空间数额。一般认为频数计量法是文献定量研究中使用最广泛的统计分析法,即统计每一变量值的出现频数即所占百分比。(6)解释与检验,研究人员要对量化数据做出合理的解释和分析,并与文献的定性研究结合起来,提出自己的观点和结论,分析结果还要经过信度和效度的检验,这样才具有最终说服力。

2.3 内容分析法的主要特征

从科学认识的过程看,任何研究或分析一般都是从研究事物的质的差别开始,然后再去研究它们的量的规定,在量的分析的基础上,再作最后的定性分析,得出更加可靠的分析。内容分析法就是一种半定量的分析方法,界于定量与定性研究之间,能够找到纯定性、纯定量方法难以达到的研究思路与效果。内容分析法的特征可以概括为客观、系统、定量:(1)客观性体现在研究方法和研究结果两个方面。内容分析是研究者从现有信息出发,按设计好的程序进行研究,研究者的主观态度和偏好不应该对分析的数量结果造成影响。换言之,内容分析对变量分类的操作性定义和规则应该是明确而全面的,任何研究者重复这个过程都应该得出同样的结论。从研究结果来看,内容分析是以媒体所载信息内容为对象的,在进行内容分析的过程中,研究人员与被分析的对象之间没有任何互动,所以分析结果较为客观。(2)系统性主要体现在抽样和评价过程。在抽样过程中,内容分析的范围是根据研究需要确定的,应该包括全部样本。样本范围一旦确定,研究者必须采取科学的抽样方法,按特定的程序抽取,以使样本的每个单位都有同样的几率被计量。对于评价过程而言,研究自始至终使用的评价规则应当只有一套,所有被分析的内容应以完全相同的方法被处理,各个编码员接触研究材料的时长应相同,分析和编码过程必须一致,统计按预先设计的程序进行。从样本范围内随意选取可证明自己观点的分析单位进行阐述,或用不同标准和规则处理不同的样本,都会使内容分析丧失系统性。(3)内容分析法是一种基于定性研究的量化分析方法,定量是其显著特征。内容分析法将用语言表示的信息内容转换为用数量表示的资料,并将分析的结果用统计数字描述。通过对信息内容“量”的分析,找出能反映信息内容的一定本质的又易于计数的特征,从而能克服定性研究的主观性和不确切性的缺陷,达到对信息“质”的更深刻、更精确的认识。在内容分析法中常用的统计技术包括频数、百分比、卡方分析、相关分析以及T检验等。

3 运用内容分析法进行网络数据分析

3.1 内容分析在网络数据分析中的应用

近年来随着信息技术的全球化发展,以计算机和网络应用为代表的信息化潮流席卷全球,网络即所谓的“新媒体”。《连线》杂志给“新媒体”下的定义很简单:由所有人面向所有人进行的传播(communications for all,by all)。旧媒体使用两分法把世界划分为生产者和消费者两大阵营,我们不是作者就是读者,不是广播者就是观看者,不是表演者就是欣赏者。这是一种一对多的传播,而新媒体与此相反,是一种多对多的传播。它使每个人不仅有听的机会,而且有说的条件。内容分析法在萌芽阶段就已经被用于传播领域,目前内容分析法在分析网络数据方面更是大有用武之地。

(1)推论网络传播主体的倾向和意图。内容分析法在萌芽阶段就已经被用于分析媒体的传播倾向和意图。信息内容在一定程度上反映了信息生产和传播者的倾向和意图。特别是以传播社会信息为主的媒介,它所发布的信息都是由特定个人或组织有目的、有意图地制作发行的,在整体上代表了传播者的社会面貌、阶级地位和意识形态。因此,通过内容分析可以明确网络传播者的倾向和意图。具体地说,第一比较网络信息与社会现实,网络是一个开放的空间,目前,网络信息的发布缺乏有效的审核与监管机制,网络信息所传播的内容往往只是部分甚至歪曲地反映社会现实、现代社会的价值观念和科学观念,通过网络数据的内容分析,我们可以明确其中的差距,规范网络信息生产和发布者的行为;第二推论网络信息生产和传播者的态度。正是因为信息的生产、传播都是有目的、有意图的,代表了生产和传播者的社会面貌、阶级地位和意识形态,因此,我们认为网络信息在大多数情况下真实地表现出了信息生产和传播者的态度,如:通过网站所发布的对时政问题的讨论,可以推断其观点和立场,通过对不同网站的专栏设置和新闻内容等的分析,可以推断其信息传播倾向。

(2)描述、评价网络信息资源。网络信息不仅数量巨大,而且内容广泛、形式复杂,不同的网络用户具有不同的信息需求和行为。通过内容分析可以了解内容信息的分布情况和利用情况。与传统媒体研究相比,由于网络运营服务商能系统地提供特定内容的信息发布及用户使用情况,因此,在网络数据分析中运用内容分析法描述网络信息的传播情况具有更大的优势。通过此类研究,网络服务提供商能准确地评价各种类型的信息产品,为调整信息的内容及组合提供依据。内容分析法也可广泛运用于网络信息资源的评价。对网络信息资源的评价,内容分析法不仅可以在信息资源的科学性、真实性、专业性等方面做出翔实的判定,而且,还能从美学、政治性等角度,采用已经确定的标准开展网络信息行为和倾向的客观评估。

(3)网络传播效果的研究和变化趋势分析。传播学理论认为,人们长期接触某种媒介内容,就会受到某种媒介内容的影响。传播学的理论指出:媒介内容对受众的影响不是直接的,而是有条件的。受众接触该内容的动机、态度、原有认知结构以及其它因素也将决定媒介内容的影响。当受众大量接触与其原有态度一致、原有认知结构相同等内容时,才有可能增加受众认同媒介内容的机会,进而影响受众。随着第四媒体——网络传播的蓬勃发展,网络传播效果的研究吸引了众多的传播学研究者。内容分析在网络传播效果研究中的应用可以从两个方面展开:一方面预测网络传播信息中宣传、劝说和诱导性成分对受众的影响。另一方面评价网络传播效果。与前者相比,这种评价性研究是对预测或假设传播效果的证实。其中,培养分析是比较新颖的研究课题。对于网络传播效果受众的培养分析就是在对网络所传播的信息和受众进行系统地调查分析的基础上,检验经常接收这些信息的受众是否产生与传播者类似的态度。人们对客观事物的认识是一个渐进的、螺旋式上升的过程。事物自身的演化和社会的发展,都会使人们对事物的观点和态度发生变化,这些变化都会以各种形式通过媒体的报道反映出来,比如,研究者可以通过分析近5年网上关于对IT业的发展状况的讨论,研究IT的发展历程和趋势预测,这类研究常常需要分析5年、10年或更长时间的样本,才能发现其报道量和观点的变化。利用网络数据的内容分析开展此类研究具有覆盖面广、获取信息便捷等优点,尤其是对与网络有关的主题内容的分析,有着不可替代的优势。

3.2 网络数据的收集与内容挖掘

网络内容分析要以大量且无序的网络信息作为分析的基础,收集、分类、分析统计等工作单靠人工操作,不但会耗费大量人力和时间,而且达不到目的,因此要尽量借助一些技术工具,目前数据的收集、内容分析、内容挖掘等方面技术和工具的功能已经比较强大。

(1)数据收集技术。网络信息数量巨大、内容广泛、形式复杂,对网络数据的收集必须依靠技术工具。数据收集是网络数据内容分析的基础和前提。目前使用的数据收集技术主要有搜索引擎技术、Web服务器日志和Cookie技术、网络调查等。搜索引擎利用自动收集网页的Spider系统程序,收集了网络上几千万到几十亿的网页,并对网页中的每一个词进行索引,建立索引数据库。当用户查找某个关键词的时候,内容中包含了该关键词的网页都将作为索引结果被搜出来,在经过复杂的算法排序以后,这些结果将按照与搜索关键词的相关度高低,依次排列。搜索引擎是人们最常用的信息检索工具,能帮助数据收集人员迅速找到所需信息,提高效率。

Web服务器日志和Cookie技术,Web服务器日志文件用于实时记录Web站点被访问信息,如用户的ID、受访Web页的URL、用户的IP地址,访问日期时间等。Cookie是一种软件技术,能够在用户端存储用户访问服务器的信息。Cookie文件由响应浏览器URL请求的服务器程序发送的信息组成,是一个保存在用户端的文本信息。利用这两种技术能获得网络用户行为的原始信息,便于网络数据内容分析的开展。网络调查法,网络调查法是由传统调查方法发展而来,具有反馈速度快、覆盖面广、不受时间、空间限制的优点,可以用于收集用户对某一问题的评论。

(2)数据内容挖掘技术。数据挖掘(Data Mining,DM),DM就是从大量的、不完全的、随机的、模糊数据中提取人们感兴趣的知识的过程,这些知识是隐含的、事先未知的潜在有用信息,网络内容分析可利用数据挖掘技术从大量数据中发现和寻找规律,帮助数据收集人员根据网络数据本身的规律性,自动进行分析,挖掘数据潜在内容,经归纳总结,得出具有一定深度的分析结果。数据内容分析的另一种方式是联机分析处理(Online Analytical Processing,OLAP)。OLAP是数据仓库的前端支持技术,随着数据仓库的发展而发展。OLAP与网络技术的结合是它的一个新的发展方向,可利用它对数据的多维观察、复杂的计算能力、管理功能、时间智能等功能为网络内容分析服务。

数据内容挖掘技术的另一个重要内容是Web使用记录挖掘。因特网上的用户只要连接到一个网络服务器上,就已经在这个服务器上留下了“痕迹”,这就是服务器的日志文件等记录。Web使用记录挖掘就是将数据分析的技术应用于网络使用记录文件的分析中,以发现用户的浏览模式、分析站点的使用情况。通过对网络使用记录数据的分析研究,可以提取有关的用户行为特征,对用户的访问行为、频度、内容等进行分析,得到关于群体用户行为方式的认识,发现网络环境下用户的行为特点和规律,识别潜在的客户,增强对最终用户的因特网信息服务的质量,提高用户服务的有效性。通过对网络使用记录数据的分析研究,还可用于协助管理者优化站点结构,提高站点效率,构造合理的Web服务器,改进Web服务器系统的性能,从而合理配置资源,提高网络信息资源的建设和利用水平。

3.3 内容分析法用于网络数据分析的难点分析

尽管内容分析法在网络数据分析中的应用是十分广泛的,但由于其自身的局限性和网络信息资源的特殊性,使内容分析法在运用中表现出许多局限性。运用内容分析法进行研究,将面临以下几方面问题:

(1)研究的客观性评定。内容分析是研究者从现有信息出发,按设计好的程序进行研究,研究者的主观态度和偏好不应该对分析的数量结果造成影响。换言之,内容分析对变量分类的操作性定义和规则应该是明确而全面的,任何研究者重复这个过程都应该得出同样的结论。从研究结果来看,内容分析是以媒体所载信息内容为对象的,在进行内容分析的过程中,研究人员与被分析的对象之间没有任何互动,这样分析结果才能较为客观。但是,网络媒体的互动功能不仅提供技术性的工具,还能指引使用者加入互动的讨论,使用者与媒体工作者,彼此交换意见。互动功能在技术上的层次可分为人与人、人与机器、机器与机器等三个层次。人与人层次的互动,意指媒体工作者与多人(使用者)间,或使用者与使用者之间的互动,如e-mail、网上聊天室及讨论区等。人与机器的互动,为使用者与互动功能间的互动,如网络调查、数据库搜寻及订阅电子报等功能。机器与机器的互动,则为无需透过使用者中介可完成的功能,如超链接等。网络媒体的互动功能,使得研究人员与被分析的对象之间无法排除互动,网络媒体的互动,在目前尚无法有效管理。由于网络媒体互动功能的存在,违背了内容分析法研究人员与被分析的对象之间应该没有任何互动这一原则,因此研究的客观性很难评定。

(2)研究的系统性评定。系统性主要体现在抽样和评价过程。在抽样过程中,内容分析的范围是根据研究需要确定的,应该包括全部样本。样本范围一旦确定,研究者必须采取科学的抽样方法,按特定的程序抽取,以使样本的每个单位都有同样的几串被计量。内容分析是建立在对大量样本资料进行统计分析的基础上的,样本量过少或抽样不具有代表性都会影响内容分析的结果。由于网络覆盖面极其广泛、缺乏统一的管理,因此,收集到某一时间段内所发布的所有网络信息几乎是不可能的;其次,即使通过与网络服务提供商协作,获取了一些网络信息,但这些信息是否具有代表性,我们也无从判定。同时,由于在网上很难收集5年甚至10年以前的信息,因为网络数据更新周期短,使回溯分析和比较历史信息变得异常困难。对于评价过程而官,研究自始至终使用的评价规则应当只有一套,所有被分析的内容应以完全相同的方法被处理,各个编码员接触研究材料的时长应相同,分析和编码过程必须一致,统计按预先设计的程序进行。从样本范围内随意选取可证明自己观点的分析单位进行阐述,或用不同标准和规则处理不同的样本,都会使内容分析丧失系统性。

如何进行定量和定性的结合内容分析法是一种基于定性研究的量化分析方法,定量是其显著特征。内容分析法将用语言、文字、声音、动画、视频以及正待开发的触觉、嗅觉等多媒体表示的信息内容转换为用数量表示的资料,并将分析的结果用统计数字描述。通过对信息内容“量”的分析,找出能反映信息内容的一定本质的又易于计数的特征,从而能克服定性研究的主观性和不确切性的缺陷,达到对信息“质”的更深刻、更精确的认识。定量和定性问题主要表现在制定分析框架和计量单元的确定问题。制定分析框架是内容分析法中最重要的步骤,然而不同的研究者针对同一主题可能采取不同的分析单元和分析框架,因而得出的结论也会有所不同。并且网络信息纷繁芜杂,由于其内容涉及的行业、表现形式、所采用的技术等各不相同,因此,要制定一个完善的、能使大多数研究者达成共识的类目体系是非常困难的。一般来说,内容分析的对象必须符合形式化原则,即能从所研究的对象中抽出便于计量的分析单元。而网络信息发布采用的技术不同,表现方式多样,因而无法直接采用传统的词频和篇幅分析的方式。如何确定分析单元是对网络数据进行内容分析所必须解决的问题。

(3)费用、工作量和传播效果。内容分析以对大量信息内容进行系统分析为基础。研究所需信息的收集、分类、统计,不仅需要大量的人力和时间,而且还必须以充足的资金作保障。特别是对网络数据的分析,一方面设备上的投入必不可少,另一方面相当一部分网络信息的获取都是有偿的,因此,在开展网络数据的内容分析之前,应该在人力、物力和资金上做好充分的准备。媒体传播的信息内容会对受众产生影响,但这种影响是有条件的。这表明,内容分析不能作为媒体传播内容对受众影响的唯一依据。对网络传播而言,网络用户处于错综复杂的社会文化环境中,其自身的认识能力、意识倾向也各不相同,因此,在研究中不仅需要考虑信息内容,还要系统地对受众自身和社会环境进行研究,综合以上各方面的因素才能得出正确的结论。

4 结语

目前,对内容分析法的研究绝大多数只局限在理论层面的研究,把内容分析法应用于网络数据分析才刚刚兴起,但研究热度很高。对大量网络数据资料的内容逐一分析,是非常烦琐的重复性的工作,只靠人工统计分析是绝对办不到的。因此网络数据内容分析的关键是软件工具的研制和开发,目前国外已开发了几种软件工具。而且新品种和新版本不断推出。除了基本分析功能以外,还有简单的计算、分类和简单的统计检验功能。国内在这方面还处于空白状态。因此,笔者认为,内容分析法应用于网络数据分析的关键是分析软件的开发,只有应用功能强大的汉语内容分析软件,才能真正做到对网络数据的内容分析。

标签:;  ;  ;  ;  ;  ;  

网络数据内容分析研究_大数据论文
下载Doc文档

猜你喜欢