一项创新、系统、实用的网络数据分析工作_数据分析论文

一项创新、系统、实用的网络数据分析工作_数据分析论文

一部具有创新性、系统性与实用性的力作——评《网络数据分析》,本文主要内容关键词为:力作论文,实用性论文,数据论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

武汉大学信息管理学院邱均平教授和他的博士研究生黄晓斌、段宇锋、陈敬全合著的《网络数据分析》已由北京大学出版社出版。我欣然通读了全书,认为是一部具有创新性、系统性与实用性的力作,是国内网络信息计量学领域中的奠基性著作。

1 一部具有开创性的力作

《网络数据分析》一书是作者在长期从事文献计量学、科学计量学教学与研究的基础上,在国内率先开展“网络信息计量学”、“网络数据分析”研究的背景下,在2001年获准主持教育部“十·五”规划项目“网络信息计量研究(OIJA870009)”,2002年获得国家自然科学基金资助项目“网络信息计量学的理论、方法与实证研究”(70273032)的前提下,为适应网络数据飞速增加和社会的客观需要,撰著出版了具有理论指导与实践应用意义的此部著作。该著作的创新性主要体现在以下几个方面。

1.1 对“网络信息计量学”理论的创新

对网络信息计量学进行系统性的研究,邱教授是第一人,是此门学科的奠基人。在此书的“前言”、“网络数据分析与网络信息计量学的关系”、“网络信息计量学概述”中,对网络信息计量学的定义、对象、性质、与网络数据分析的关系等,都有创造性的见解。对于信息计量学定义,该书从其研究的对象、方法、内容与目标上,将其定义为“是采用数学、统计学等各种定量方法,对网上信息的组织、存储、分布、传递、相互引证和开发利用等进行定量描述和统计分析,以便揭示其数量特征和内在规律的一门新兴分支学科”。[1]显然这比国外学者认为:“是对互联网上的文献进行统计分析的一门学科”,“是一门研究互联网上数据之间相互引用的学科”,“是一门关于计算机软件的学科”等诸种观点要科学、完整、易于正确理解。对于其研究对象,邱教授认为:“网络信息计量学具有独特研究对象与领域——网络信息”。[2]它“涉及三个层次:‘网上信息的直接计量问题’,‘网上文献、文献信息及其相关特征信息的计量问题’、‘网络结构单元的信息计量问题”。[3]可见这比有些学者认为是“网络信息”,而无具体组成层次,更显得深入、具体,具有创新性。对其学科性质邱教授认为:“是由网络技术、网络管理、信息资源管理与信息计量学等相结合、交叉渗透而形成的一门交叉性边缘学科。”[4]此观点是对网络信息计量学性质的科学概括,是对各领域知识交叉、融汇,深入分析的结果,在国内外具有创新性。对“网络数据分析与网络信息计量学的关系”,作者用辩证唯物主义的观点予以分析研究,并得出科学的结论说:“网络数据分析是网络信息计量学的研究内容与主要研究方法”,“网络信息计量学是网络数据分析研究不断深入的动力。”[5]

1.2 对网络数据分析观点与方法的创新

作者站在时代的高度,以开阔的视野和敏锐的洞察力,抓住网络信息计量学研究的前沿课题——网络数据分析,进行了深入研究。对网络数据、数据仓库、网络数据分析的特征、类型、结构、模式、技术方法与评价都有自己的独创性见解。

关于网络数据内容分析特点的论述。作者在对传统内容分析研究的基础上,结合国内外网络数据内容分析的实际,创造性地提出:客观、系统、定量的特征。特别是对定量的探讨,可以将用语言表示的信息内容转换成用数据表示,以反映信息内容一定的本质与特征,具有创新性。

关于网络数据类型的划分。作者打破了传统的“三分法”,将元数据和流媒体数据突出来[6],划分为元数据、结构化数据、半结构化数据、非结构化数据和流媒体数据等,实属一种创新。

关于空间数据挖掘系统的体系结构。作者将比较通用的多组件体系结构,改造成适合空间数据挖掘的体系结构:数据库接口、聚焦、模式抽取和评估。此四个模块通过控制器进行交互,确系一种创新。

关于数据仓库建立的模式。作者概括为三种:“自顶向下”式、“自底向上”式、“平行开发”式,具有新意。

关于技术方法。其创新体现在:一是将传统比较分析法应用于网络数据分析。如OLTP与OLAP间的比较、数据挖掘与OLAP区别、网络数据类型的比较等。通过文字、图表等多种形式的比较,可以一目了然地了解彼此间的优劣与异同。以OLTP与OLAP的比较为例,虽然其数据来源都来自于底层数据库系统,但二者在面向用户、功能、DB设计、数据、存取、工作单位、用户数、DB大小上是有明显区别的。[7]这从表上一见便知;二是对网页链接数据分析法,邱教授等采用分步分析法,即第一步选择检索工具;第二步分析链接特征,具有新意。

关于网络数据分析系统的评价。作者在国外学者研究的基础上有新的发展。如Two Crows Corporation在《Introduction to Datamining and knowledge Discorery》一书中提出了评价数据挖掘工具优劣的5项指标,邱教授根据不同工具的特点提出了“可产生的模式”、“解决复杂问题的能力”、“扩展性程度”、“可视化程度”、“易操作性”、“数据存取能力”、“与其他产品的接口”等具体的网络数据分析系统的评价标准应考虑的方面,具有创新性。

2 一部具有系统性的力作

《网络数据分析》脉络清晰,结构严密,是一部系统性很强的力作。

2.1 总体上系统性

纵向有一根贯穿全书的各章节的主轴:网络数据分析。横向有相互联系、层次分明的模块结构。此结构含理论模块(由网络数据概论、网络数据仓库组成)、方法模块(由网络数据流量分析、网络数据定性分析、网络数据的多维分析、网络数据的挖掘分析、网络复杂数据的挖掘分析组成)、应用模块(由网络数据分析系统的开发、网络数据分析的应用与实例组成)。此三大模块分别以“理论一方法一应用”进行了系统、严谨的架构。

2.2 局部上系统性

纵向也基本上是以其主线贯穿全章各节的。横向也是按“理论—方法—应用”组织材料的。如第5章“网络数据的多维分析”中的“多维分析定义”、“发展”、“特点”等多属“方法模块”中的理论层;“OLAP数据的实现方式”、“ROLAP与MOLAP的比较”、“OLAP数据库设计”、“多维分析的基本操作”及其“工具”等多属其模块的方法层;“网络数据多维分析方法的应用”属其应用层;“联机分析的发展趋势——联机数据挖掘”,则是此模式中三层发展的综合体现。

2.3 观点论述系统性

对于某观点的论述,其论据是充实的,也体现出系统性特点。如对“内容分析法”的概念的论述,邱教授等在介绍贝雷尔森、华里泽和韦尼(Wailger and Wienir)、克立本道夫(Krippendorf)、柯林杰(Kerliger)及戴元光、苗正民、卢泰宏等专家的观点的基础上,得出对论性的新见解:“这些定义揭示了内容分析的对象和特征”[8]、“任何有交流价值的、被记录的信息都能成为内容分析的对象”[9]、“内容分析法的特征可以概括为客观、系统、定量”[10]

3 一部具有实用性的著作

理论与实际密切结合,注重实际、强调应用是《网络数据分析》显著的特色之一。

3.1 对社会经营管理的应用性

网络数据分析与网络信息资源管理、在线股票分析、企业经营与市场预测、电子商务和网络营销、网络传播等都有着密切的联系,在这些社会经营管理中有着广泛的应用前景。邱教授等对各领域成功的应用以不同的方式作了阐述,提供了可行性的案例。有的对所采取的方法给予阐述后,列举案例予以说明。如对企业在线经营分析,先介绍几种主要分析方法:比率分析法、趋势分析法、差额分析法、雷达分析法之后,再举“利用雷达对某企业做经营分析的案例”予以说明;有的对所应用的范围作必要的论述后,再列举案列加以说明。如对国家网络信息资源建设、宏观控制和管理,在论述其机制、模式与政策后,列举“从CN域名注册量看我国的域名注册政策”,给以说明;有的则运用工具、专用软件给予分析。如对在线股票的分析,就用了Excel、专用软件工具做了分析;有的用文图并举的方式进行分析。如用Netcraft公司关于网络服务器使用量与市场占有率的分析,就是采用文图并举的方式进行分析的。

3.2 对科学研究的应用性

网络数据分析与网络行为学、网络信息计量学研究的关系十分密切。邱教授等在论述其学科理论基础、研究方式方法、工具与应用的前提下,列举案例具体给予分析说明。如网络数据分析在网络信息计量学中的应用,在概述网络信息计量学的理论、研究方法、工具与应用后,列举了“中国人民大学网站链接分析及其网络影响因子探讨”的案例作了说明。

3.3 《网络数据分析》所谈的方法、流程、工具有很强的应用性

此书的应用性,不仅集中体现在第9章,而且反映在第1-8章之中。该著作对各种网络数据分析的理论、方法、流程的阐述十分透彻,具有可操作性。如对网络流量的流程、方法、实施与应用就是如此。对其基本流程,将其分为数据预处理—模式识别—模式分析等。对其方法,则阐明了统计分析、路径分析、关联分析、序列模式分析、分类规则分析、聚类分析等。对其实施,介绍了4种解决办法:自己开发有关分析软件、购买相关软件、购买相关服务、使用免费服务等。对其应用,主要用于4方面:WWW服务器的选择与调优、网站管理和维护、用户调查和市场营销、网络广告发布和广告效果评估等。

3.4 对高等学校教学的适用性

《网络数据分析》由于既有理论的严密性、方法的科学性,又有实践的可操作性,做到了理论、方法、应用的高度统一,因而对高等院校的信息管理与科学评价、信息计量学与科学计量学、网络设计与管理、管理科学与工程、新闻与传播、电子商务、网络营销等专业的师生有实用价值,可作为教材使用。

收稿日期:2005-06-21

标签:;  ;  ;  

一项创新、系统、实用的网络数据分析工作_数据分析论文
下载Doc文档

猜你喜欢