基于计量方法的学科信息门户资源收集与选择机制_信息门户论文

基于计量方法的学科信息门户资源采选机制,本文主要内容关键词为:学科论文,机制论文,方法论文,资源论文,门户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 学科信息门户及其资源采选

学科信息门户是一种整合学科领域的文献信息资源和服务,对特定学科领域网络资源提供权威可靠导航服务的系统[1]。学科信息门户的形式多种多样,但其核心内容都是网络学术信息导航,它是目前数字图书馆虚拟馆藏建设的主要形式。由于网络信息资源的庞杂性,特别是网络学术信息本身质量难以控制的问题,学术信息门户对网络学术资源的筛选过滤机制是其服务质量的关键所在,必须依据可靠的选择评价标准与方法,才能从繁杂的网络中采选出有价值的学术信息资源。因此,这里所说的学术信息门户的资源采选,就是从网络中采集特定的学术网络信息单元,如学术网站、研究机构、教育机构、学术团体等,并对其进行质量和效用评价,遴选出有价值的网络资源提供给用户使用的过程。这其中包括的核心内容是资源的采集、评价和选择。

目前,学术信息门户资源采选一般是通过人工方式进行的,即由学科专家或图书馆专业人员根据事先制定的资源选择与评价标准,从大量的网络资源中搜索和筛选出他们认为有价值的学科信息资源。这里的资源选择与评价标准一般只限于规定学科的范围、涵盖资源类型范围、资源搜索策略,以及从定性角度规定的评价标准等。其中的评价标准包括形式特征的规范性,内容特征方面的权威性、准确性、稳定性、可靠性及可获得性等方面[2]。表1所示的是著名的学科信息门户SOSIG的资源采选标准,其资源的采选机制包括内容、形式和加工程度三个方面[3]。

表1 社会科学信息门户SOSIG资源采选标准

内容标准:

●有效性(validity)

●信息源的权威性和声望(authority and reputation of source)

●真实性(Substantiveness)

●准确性(accuracy)

●综合度(comprehensiveness)

●唯一性(uniqueness)

●组织化程度(composition and organization)

形式标准:

●易导航(ease of navigation)

●提供用户支持(provision of user support)

●采用主流标准(use of recognized standards)

●采用适当的技术(appropriate use of technology)

●设计优美(aesthetics)

加工标准:

●信息完整性(information integrity)

●网站整合度(site integrity)

●系统整合度(system integrity)

可以看出,这些指标仅仅是从定性角度制订的,也就是说资源本身的学术及实用价值之评判仅依靠资源采选者的主观判断,带有很大的随机性,那么我们考虑可将上述定性指标映射为具体的可测度指标,进而从定量的指标测度中去对资源的质量进行控制,再结合定性的分析,这样可以大大提高学术信息门户资源的系统性和可靠性。因此,本文试图借用文献计量学等方法和思路,从定量的角度探讨学科信息门户资源采选中的质量控制。

2 计量方法应用于学科信息门户资源采选的思考

2.1 基于计量方法的学科信息门户资源评价理论探讨

学科信息门户资源采选的主要对象是学术网站、研究机构组织的网站等,其质量控制的实质是对网站质量及其学术性的评价、对网站上发布的信息学术性的评价和对机构本身学术研究的评价。其中对学术机构本身的评价可以使用一般的学术机构评价中的理论与方法,只要把它融入学术信息门户资源评价的过程即可。

网站本身质量及其学术性的评价可以借鉴搜索引擎统计法、用户调查统计法、网络计量学等定量方法来实现。如借鉴Google的网页级别评价方法,可以对学术网站进行网页的等级评价;在对用户特别是学科领域的学者、专家调查的基础上,结合层次分析等方法可以得出定性与定量相结合的评估结果。另外,其他网络计量学的方法对于网站评价也有很大的借鉴意义,如用类似传统引文分析方法的网络链接分析法得出的网络影响因子,可以作为网站质量的测度指标等[4]。关于网络计量学对网站评价的方法问题,已有很多的论述,它完全可以运用到学科信息门户资源网站的评价当中,这里不再赘述。

在网站评价的基础上对于网站本身的学术性,及网站上发布信息的学术性的评价涉及内容层面的评价,很难以特定的指标来测度,这样就需要采用适当的替代方法来完成。我们知道,学术文献之间的引用关系反映了引用者对被引用者的认同,对被引频次等引文指标的统计分析可以用于文献等的评价。借鉴这样的思想,我们注意到学术论文对网络文献进行引用的现象,它恰好反映了论文的创作者对网络学术资源的认同情况,那么对这种认同的程度进行总结分析便可以用于网络学术资源的评价。由此,我们引入网络引文分析方法。作为介于网络计量学和传统引文分析之间的一种新的分析方法,网络引文分析法可以从更加合理的角度确定网络资源在学术研究中的有效性,从而对网络资源进行更加确凿的学术性评价,为学科信息门户建设中的资源采选提供可靠基础,以下将主要从理论和实证角度论证网络引文分析应用于学科信息门户资源采选的可行性和实用性。

2.2 网络引文分析及其评价依据

网络引文就是将网络文献作为学术论文参考文献的一种引文形式[5]。它是网络资源应用于学术研究的最直接的表现,是学科专家对网络学术资源进行的一种变相的同行评议,说明了学者对网络资源学术价值的认可,因此可以认为被学术论文引用的网络文献具有较高的学术价值[6]。那么对网络引文做类似于一般引文的分析,也可以用于网络信息资源的评价,而且网络引文作为一个不同于一般引文的研究对象,蕴涵着丰富的网络资源利用特征信息,对这些信息进行深入的统计及数据挖掘分析,都可以得出网络信息资源评价结果,尤其可以为学科信息门户中的资源采选提供可靠的依据。

一条著录规范的网络引文包括的基本信息要素包括:文献的著者、题名、来源网页地址等,它区别于一般引文著录信息之处在于来源字段,网络引文的来源信息——网页地址包含更加丰富的信息,从网页地址的路径标注中,可以分解出引文提供的来源机构或组织,以及内容特征等。借鉴传统的引文分析、文本处理及各种统计方法,对于这些信息进行挖掘分析,可以为网络信息资源的选择和评价提供借鉴,分析和应用的角度主要在以下两个方面:

(1)统计规律:从网络引文的外部特征如数量、著者、语种、时间、网站、文献类型、主题特征等的分布状况中分析学术研究中网络资源利用的统计规律,进而反映网络学术资源的分布和利用特点等,为资源的采选提供基本依据和思路,确定采选的大概范围。

(2)评价指标:从来源网站的分布特征中可以总结出提供相关主题的网络文献的“核心站点”,从网站的标注信息中分解来源机构和组织信息,并对网络文献(或网站)的被引频次进行统计分析,作为评价网络学术资源的依据等。

3 网络引文分析用于学科信息门户资源采选的实证分析

在理论分析的基础上,下面结合实验数据验证网络引文分析用于学科信息门户资源采选的可行性。实验数据选择的学科为情报学,期刊为情报学领域公认的核心期刊《情报学报》和《情报理论与实践》,统计得到两刊1998—2002年载文共289篇,及其网络引文991条进行相关分析。

3.1 可靠性实证——网络引文主题特征的挖掘分析

网络引文分析可否用于学科信息门户资源的采选,首先取决于网络引文对学科领域主题的覆盖度和对热点问题的把握程度,以说明网络引文提供的评价信息的可靠性、实用性与时效性。因此,以下从主题特征角度分析总结网络引文反映的学科主题的特征,进而证实用于学术信息门户资源评价的可靠性。

为此,本文从具有网络引文的文献的主题和网络引文本身的主题两个方面分析网络引文反映学科研究主题的程度。对具有网络引文的文献主题进行分析时,考虑到可操作性,文献的主题我们用文献本身给出的关键词来代替,进行统计分析,分析数据中,出现5次以上的关键词列表如表2。

表2 含网络引文的文献主题分析

频次

关键词

64Internet

25digital library

22information retrieval

21database

19search engine,information service

18network

17information resource

15metadata

14competitive intelligence,knowledge management,WWW

11electronic commerce,XML

10data mining,information technology

8 library,retrieval strategy

7 China,Dublin Core,information organization,website

6 enterprise,information management,retrieval method

5 development research,Z39.50

其次,对网络引文本身进行主题分析。网络引文主题特征分析是从网络引文条目信息出发,选取其表征主题特征的标引字段进行分析。由于目前网络引文著录十分不规范,有的只提供主页地址,给再次检索、内容分析造成了很大困难,因此本文只选择除了地址字段,仍有表征主题特征相关信息的网络引文(572条)进行了主题分析。主题分析的方法是通过自动抽词、统计词频来实现的。对能表达情报学相关主题或相关领域的关键词进行分析,出现次数较多的关键词依次为:digital library、metadata、Dublin Core、XML、retrieval、searchengine、mining、RDF、dialog、ontology、ERP等。

由上述结果可以看出,不管是含网络引文的文献主题还是网络引文本身的主题都涉及当时情报学领域的几乎所有前沿及热点课题。这首先说明网上情报学相关学术资源是非常丰富的,涉及的内容广泛,而且越是热点的问题网络资源越丰富;其次,说明这些资源已经被成功地应用于学者们的学术研究;再次,说明从网络引文的角度可以反映学者们利用网络资源的主题倾向性;最后,从两者主题分布中可以发现网络资源主题的先进性、全面性和前沿性。从而证实了从网络引文分析的角度进行学科信息门户资源采选是可靠的。

3.2 可行性实证——网络引文来源信息挖掘分析

网络引文的来源分析,是对网络文献所在的网站、所属网站类型、网站所属机构等信息的分析,以上信息可以从网络引文所标引的链接路径中进行文本挖掘得到。从中可以分析得出网络引文的来源特征、来源分布的集中程度等,进而证实这些来源作为学术信息门户中的导航内容的可行性。

3.2.1 网站被引频次分析

学术期刊中文献的集中分散导致了核心期刊的出现,引文在期刊中的集中与分散强化了这种核心趋势的可信度,从而启示我们,网络引文的来源网站是否也呈集中分散趋势,集中部分是否能指引我们发现提供学科网络信息资源的核心网站,从而为网站评价提供依据?因而,据占有的资料进行了网站被引频次分析,见图1。

图1 网络引文网站分布图

可以看出网络引文的网站分布也基本上呈现集中分散趋势,而且集中程度非常高,可以认为这些被引频繁的网站集中了情报学研究的核心网络资源,而且具有比较高的学术性,是情报学的核心网站,为将它们作为学科信息门户中资源的首选提供了可靠的依据。但从图中也可以看出,只是少部分引文集中于少数网站中,大部分分散于大量网站中,这说明学者们对网络资源的利用程度还不高,远没有像利用普通期刊那样具有规律性。再者,网络资源本身具有分散的特点,给利用者带来很大不便,造成利用中的分散程度加大。因此,学科信息门户建设也应在核心网站的基础上整理加工分散的网络资源,促成学科真正的学科核心网络资源的形成。

3.2.2 网络引文来源网站及机构分析

上述分析中,网络引文的来源网站虽然没有特别规律的核心趋势,但明显的有少数网站利用率较高,可以认为他们对情报学研究具有重要价值,因而我们把利用频率大于4次的网站统计列表如表3。

表3 情报学常用网络资源来源网站列表

利用频率网站域名

28 http://www.w3.org

27 http://www.dlib.org

15 http://sunsite.berkeley.edu

10 http://www.cnnic.net.cn,

http://www.ukoln.ac.uk

9

http://ai.bpa.arizona.edu

http://memory.loc.gov,

8

http://www.nlm.nih.gov,

http://www.oclc.org,

http://www.yahoo.com

http://lcweb.loc.gov,

http://purl.org,

7

http://www.ala.org,

http://www.brint.com,

http://www.sina.com.cn

http://www.amteam.org,

6

http://www.dialog.com,

http://www.nlc.gov.cn

http://purl.oclc.org,

http://www.acq.osd.mil,

5

http://www.bsti.ac.cn,

http://www.isinet.com,

http://www.istis.sh.cn

http://www.calis.edu.cn,

http://www.cnri.reston.va.us,

4

http://www.infoseek.com,

http://www.pcworld.com.cn,

http://www.sccu.edu,

http://www.slis.indiana.edu

从表3可以看出,情报学常用网络资源的来源以英文网站为主,大都是图书情报学领域的相关组织、具有一定学术研究基础的权威机构,或者是在相关技术领域具有相当影响力的组织。这些组织确实都是学科中的权威,并且提供的信息的可靠性、真实性、权威性和前沿性都是公认的。这说明网络引文分析作为学科信息门户资源采选的依据是可信可行的,我们可以将这些网站作为学科信息门户的首选资源。

4 网络引文分析用于学科信息门户资源采选的设想

4.1 应用层面

基于以上理论与实证分析,可以确认网络引文分析对学科信息门户资源采选中的质量控制具有很大的借鉴意义,可以从多个层面完善资源的采选机制,具体如下:

4.1.1 资源需求的评定,进而指导资源的合理配置

学科信息门户资源建设首先必须考虑是否符合本馆服务任务和服务对象的实际使用需要,这就需要准确确定用户的现实需求,从而保证服务的针对性。对著者进行网络引文状况分析可以得出:哪些著者常利用网络资源,利用网络资源的主题范围、特征等,这些都可以作为学科信息门户中资源采选的依据,提高资源提供的针对性。

如同传统图书馆的馆藏分布需要合理配置一样,学科信息门户也应注意合理和科学地配置资源。在上述网络学术资源需求评定的基础上,根据网络引文分析可以得出不同学科、专业对网络资源的依赖程度的不同,可以规划学科信息门户中资源的配置比例。

4.1.2 资源的选择评价

学科信息门户资源质量的定量测度,对于服务的保证无疑具有重要意义。如同引文分析可以用于文献、著者评价一样,网络引文的分析可以对网络文献进行更加客观准确的评价,可以为网络信息内容控制提供可靠的线索。例如对网络文献被引用频率、被核心著者引用的频率等指标进行更深入的分析,可以确定其内容质量的高低。如在上述例证中,已经发现了若干情报学研究常用的网站及其所属组织等,其中聚集了丰富的学术资源,其权威性、可靠性是不言而喻的。在资源开发者对专业本身了解不足,很难把握选择标准时,利用网络引文的定量分析方法可以客观地把握学科的网络资源状况,发现学术资源集中的网站和组织、专家等。

4.1.3 资源的动态更新与信息推荐

通过上述主题分析,可以确定专业目前研究的热点领域和网络资源提供的核心内容,对它们进行综合跟踪分析,可以把握学科发展的脉络,指引学科发展的路向,以给出完善的专业信息提供路径,对学科信息门户中的资源动态更新提供线索。此外,根据上面的被引频次等指标,还可以对学术信息网站重要性进行排序,在信息提供的基础上完善推荐机制。

另外,从著者的网络引文分析中,可以反映出学者们的研究动态及其信息利用规律,进而反映出读者的真实需求,用这些现实性可靠性很高的数据建立用户信息库,可以准确地把握用户的个性和需求,及时调整学科信息门户中的资源内容,保证资源提供的真正有效性。

4.2 应用过程

网络引文为网络学术信息评价提供了一个非常好的量化统计对象,网络引文分析方法可以为学术信息门户资源采选的各个方面提供可靠支持。借鉴学术评价的思想,可以设计一定的技术路线来将网络引文分析方法应用于学科信息门户的资源采选机制,拟应用的步骤为:(1)依据一定的标准,确定某专业领域的核心期刊集;(2)从核心期刊集若干年所刊载论文中收集网络引文及其来源文献;(3)参照文献计量学中的核心期刊评价方法,选择学科核心网站,评价核心网络资源;(4)对核心网站给出的学术资源的其他特征进行综合评判,决定是否入选学科信息门户的资源库;(5)将上述核心网站作为初选的种子网站,在此基础上采用链接分析法等进行多步复选,进一步扩充学科信息门户资源采选的目标;(6)从著者、主题、来源等角度统计分析网络引文及来源文献数据,得出主题分布等指标,结合专家的定性判断,对学科信息门户资源采选的范围等进行补充完善[7]。

学科信息门户建设中资源的采选机制是保证信息质量的首要环节,目前资源采选的标准和方法是以定性为主的,评价测度手段的可靠性不足,因此必须建立一种切实可行的“滤波机制”对网络信息进行筛选过滤,即要建立基于计量方法的学科信息门户采选机制,从定量的角度对网络学术资源进行更加客观的评估。除了用网络计量方法对网站进行评价外、网络引文分析方法可以从更客观的角度对网络学术资源的权威性、稳定性、可靠性及可获得性进行评价。因此,将网络引文分析融入到学科信息门户资源采选的机制中,将实现信息筛选的真正优化,并且面向用户、面向利用。

标签:;  ;  ;  ;  ;  

基于计量方法的学科信息门户资源收集与选择机制_信息门户论文
下载Doc文档

猜你喜欢