中外网络资源收集信息服务模式研究与建议_网页存档论文

中外网络资源采集信息服务方式研究与建议,本文主要内容关键词为:信息服务论文,网络资源论文,中外论文,方式论文,建议论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      修回日期:2014-05-04

      DOI:10.13266/j.issn.0252-3116.2014.10.014

      信息时代,网络资源是一个国家文化遗产的重要组成部分,具有重要的历史价值和学术价值,但却具有易逝性。为了保存这些互联网上的人类记忆,从20世纪90年代中期开始,便有很多国家开展了网络资源存档(即Web Archive,简称WA)项目,采集并保存了海量的互联网资源。经过近20年的实践和研究,网络资源采集与存档技术已经日趋成熟,但是各国却又面临着一个新的问题,即:如何有效利用那些被静静地存放在服务器中、数量巨大的存档资源,并向用户提供科学合理的服务的问题。

      本文调研了各国WA项目的资源服务特征(包括服务对象定位、服务类型选择、服务中遇到的困难、解决策略等),介绍了我国公共图书馆采取的网络资源采集服务形式,以深入了解WA资源的有效服务方式,促进相关服务的开展。

      1 国外网络资源采集应用与服务状况

      1.1 国外WA项目简介

      欧洲、美洲及亚洲发达国家的网络资源采集项目起步较早,从20世纪90年代中期就开始了相关研究和实践,对反映各国政治、经济、文化、科技等诸方面的重大事件的信息资源进行采集与存档,并制定了相关的国际通用标准,发展比较成熟。表1列出了国外具有代表性的15个WA项目的基本信息。

      

      欧洲、美洲及亚洲发达国家的网络资源采集项目起步较早,发展相对成熟,具有多机构合作采集、法律法规健全、标准规范成熟、采集流程规范、采集方式综合、服务类型多样等特点。网络资源的采集机构一般由各国的国家图书馆、档案馆或著名大学的图书馆负责。由于网络资源存缴和保存面临着复杂的知识产权约束和商业利益冲突,为了保证网络资源采集与保存工作无后顾无忧,欧美各国均制定了与数字资源呈缴相关的法律或法案。

      网络资源的采集方式主要有批量采集(将目标网站上的所有信息都采集下来)、选择性采集(根据网络信息的历史、文化、研究和经济价值,有选择地保存Web信息)、专题采集(针对国内、国际重要事件或某一主题进行的有针对性的信息资源收割)和混合式采集(综合运用前面3种采集方式,使资源采集达到最优化的一种采集策略)4种,各国的WA项目均根据自身实际需求选择了合适的采集方式。采集的资源大多提供互联网公开访问服务,也有部分国家限制馆内获取(如捷克和冰岛),或不对外公开(如埃及、西班牙、斯洛文尼亚和挪威)。国外开放的WA项目网站大都提供了完善的检索(可通过URL/关键词/高级/全文进行检索)和浏览(可按字母顺序/学科/专题进行浏览)服务功能。

      相比而言,亚洲在WA方面的研究起步较晚,目前有日本国立图书馆开展的WARP、新加坡图书馆理事会资助的Web Archive Singapore等。中国国家图书馆、北京大学和中国科学院也都在进行相应的研究,努力推进亚洲WA研究进展,但在标准化、知识产权以及系统的研发,特别是国际国内合作等方面还有许多需要完善的地方。

      1.2 国外WA项目的服务特点

      1.2.1 服务对象 各国WA项目因其具体国情不同,存档资源的服务对象也不尽相同。主要分为以下几类:

      (1)全球用户。大多数国家的WA项目网站通过国际互联网,向全球用户提供免费的访问和查询浏览服务,如法国的INA[1],冰岛的ISWA[2],西班牙的PADICAT[3],英国的CEDARS[4]和UKWAC,加拿大的GCWA,美国的IA、LCWA、WAS和WAX,澳大利亚的PANDORA,韩国的OASIS等。日本的WARP项目虽然也通过互联网提供公开访问服务,但是其主要用户还是国会议员。

      (2)本项目的网络存档团队。仅有一小部分国家的WA资源没有公开或者尚未公开,只有网络存档团队的成员可以访问,如挪威的PARADIGMA[5]、斯洛文尼亚的SLOWA[6]、埃及的BAWA以及魁北克国家图书馆和档案馆的WA项目。

      (3)研究人员。还有一部分国家的WA资源主要面向研究人员提供服务,如:丹麦皇家图书馆的Netarchive项目要求其用户至少拥有硕士及以上的学位,法国国家图书馆的BnF WA项目要求使用者必须是研究型大学图书馆的认可用户,而且必须是年满18周岁的成年人。

      1.2.2 服务类型 使用是资源存档的最终目的,为用户提供科学准确的资源访问和认证服务也是各国WA项目的重要任务。为满足用户多样化的需求,各国的WA项目均提供了丰富的资源访问功能。主要包括:

      (1)检索功能。WA资源的检索方式主要有:URL检索、关键词检索、高级检索、全文检索等几种,存档日期和资源格式可以作为限定词辅助查询。大部分WA项目只提供简单的查询功能,如冰岛、瑞典、丹麦、奥地利等国家的WA项目只提供URL检索功能;只有少数WA项目提供高级检索功能,如西班牙的PADICAT和英国的CEDARS项目。

      (2)浏览功能。WA资源的浏览方式主要有:按照标题字母顺序浏览、按照学科主题浏览、按照资源格式浏览、按照存档机构浏览等,这就要求WA项目要对其存档的资源按照相应方式进行组织和分类。很多WA机构利用WayBack Machine之类的工具软件,对同一个URL在不同年份/月份/日期/小时等时间点的不同版本之间提供了浏览服务。

      (3)专题功能。有些WA项目按照事件或专题来组织采集的网络信息资源。例如:美国国会图书馆的Minerva项目,该项目的网站将所有存档资源按照内容分为2006年苏丹达尔富尔冲突网页存档、2009年印度大选网页存档、2003年伊拉克战争网页存档、美国2000年大选网页存档、美国第107届国会网页存档等17个大类。专题服务将存档资源按内容分成若干准确围绕某一事件或专题的资源集合,能够大大提高读者的查全率和查准率。详见表2。

      (4)数据挖掘功能。将WA中的存档资源应用于学术研究(尤其是数据挖掘)是网络采集资源的一项重要应用。WA项目存储了海量的累积性信息数据,为数据挖掘提供了充足的研究基础,例如:康奈尔大学的网络图书馆利用互联网档案馆的存档数据进行了数据挖掘的研究,而日本则基于网页存档进行了社会感知系统方面的研究。然而,由于数据挖掘要求WA项目提供编程和自动化的应用程序接口(API),致使这类研究仅局限在小范围内开展,而WA中仍有大量珍贵的资源尚未得到充分的发掘和利用。

      (5)网络考古功能。Web Archive项目可以利用其存档资源,帮助用户对同一个URL不同时期的网站版本进行比较分析,也可以帮助用户查找一个URL在某一个特定时间点的样貌和信息内容,还可以帮助网站建设者恢复其丢失的网站版本,如Internet Archive项目就曾经利用其存档的网络资源,实现了很多网站的恢复工作。

      (6)统计分析功能。国外很多WA项目都会定期发布“资源采集状况”的统计数据和“用户使用情况”的分析报告。例如:澳大利亚的PANDORA项目每月都会发布一系列的统计报表,包括:存档数据规模、月增长量、与上月相比的新增资源以及用户使用情况等方面的统计信息。而英国的WA项目除了每月提供一次资源统计数据外,还利用数据挖掘技术提供3项可视化服务:为WA资源中的短语或词语生成N-gram、标签云和3D墙[22]。

      1.2.3 服务中遇到的主要问题及解决措施

      (1)问题。网页存档机构在为目标用户服务时,遇到的困难主要有:一些国家对用户“到馆访问”的限制;各国法律法规对知识产权方面的保护和限制;缺乏市场营销和资源推广策略,社会关注度不够;WA网站建设者与研究人员没有直接接触,无法了解其真实需求;大多数WA项目网站的用户界面并未考虑残疾人的需求;少数WA项目尚无用户界面;缺少大量的API等问题。

      用户在使用WA资源后,经常投诉的问题主要有:①归档文件存在差距和不一致性,页面不能完全呈现(例如:链接无效,JavaScript丢失或无效,图片丢失,由于机器、文本等原因导致的材料丢失等现象);②存档资源只能到馆访问;③没有存档网站的列表或目录;④资源难以下载获得;⑤无法找到“我自己的网站”;⑥没有全文检索;⑦没有任何数据挖掘工具;⑧关于采集的网站版权问题和读者访问存档内容时侵犯隐私的投诉(例如,未得到网站内容所有者允许即可访问的网站);⑨实时网站与存档网站混淆;⑩网站存档不及时等。

      (2)解决措施。用户搜索的最受欢迎的网络存档主题包括:政治网站、网络活动、政府和官方出版物、文学资源、媒体、社会和技术科学领域内的网站、专题集合(如:信贷紧缩、博客、加利福尼亚的水资源)等。而且,最流行的网站被搜索的频率也最高。为了确保自己的网络存档资源始终满足用户的需求,大多数WA机构采取了定期举行会议讨论、定期行为调查、紧跟网络发展步伐、与外面的研究人员共同开发专题或事件集合、与研究生等研究人员共同工作以发现其需求等措施,同时由于未来的需求是未知的,所以很多WA机构还将今天看起来不太必要的内容也都平等地收集了起来,以备不时之需。

      WA机构通过以上措施,希望存档资源展示网站的用户界面能在以下几个方面得到改进:①实现一个网站不同版本之间的时空导航;②实现根据加权排名的全文检索;③提供数据挖掘的应用软件和服务;④提供主题范围的搜索结果;⑤注释和个人存储的改进(如“我的Web存档”);⑥使用语言过滤器(例如:英语/威尔士语);⑦将管理者拥有的一些网站分析功能推送给公众(例如“显示一个特定网站上,某一特定日期之后的所有PDF文件”);⑧提供原始WARC格式文件的下载,既允许合作组织保存其网站内容的本地副本,也为研究者提供访问服务的数据集;⑨将元数据记录导人其他知识库,从而使指向网络存储内容的指针可以通过扫描材料而互相发现[23]。

      

      2 我国网络采集资源应用与服务实践

      我国也早已认识到互联网信息保存与保护的重要性,从2002年就开始了相关的实验和研究。其中,中国科学院主要进行了WA相关的技术、理论、实践等方面的研究性工作,并未实际开展网络资源采集工作,更没有提供对内/外的网络采集资源展示平台。

      北京大学于2002年开发了Web Infomall系统,选择性地保存互联网上的文本信息,该系统目前已保存了85亿多个网页,每天还以约100万到200万的数量增加[24]。对于存档的信息资源,Web Infomall网站提供“网页回放”、“事件搜索”、“数据分享”等服务。然而,由于该项目采集的网络资源没有采用国际通用的WARC格式予以保存,而且不保存图片、视频、音频、流媒体等文本以外的网络资源,所以在应用中有很多局限性。

      2009年我国成立了国家图书馆互联网信息资源保存保护中心,专门致力于中国互联网信息资源采集与长期保存方面的研究工作。该中心自成立以来,已建设了42.2TB的网络资源存档库,并开通了多个服务项目,为用户提供存档资源的浏览与检索服务。服务形式主要有:

      2.1 “中国事典”

      “中国事典”以中国发生的重大历史事件为线索,通过选择性地对我国每年发生的重大历史事件的追踪、调查、选择、采集、存储、标引和发布,实现了对这些珍贵文化遗产的保存和应用。这些事件包含了从自然灾害到灾后重建,从经济危机到文化繁荣,从社会万象到国家规划的数十个主题、数千条目,并在持续增加中。“中国事典”自2006年开始实施以来,每年采集10余个重大历史事件,每个事件采集20个以上的专题网站。通过“中国事典”网站,用户可以按照年份或专题浏览资源,也可以按照题名、摘要、主题词、年份来检索存档的专题网络信息资源,每一条检索结果均提供名称、责任者、摘要、时间等元数据信息,点击信息页下方的网址,可以打开存档的网页,查看网站被保存时的面貌。

      2.2 “在线读报”

      在线读报系统是一个实时的电子报纸阅读平台,该平台包含电子报纸的阅览、下载、检索、剪报、数据管理、访问统计等功能,图书馆实时采集的电子报纸经过该系统处理、加工及整合后,可通过局域网统一发布,并提供给用户使用。目前,已提供电子报纸200多种,大部分报纸可实现当日更新。通过“在线读报”的主界面,用户可以按照推荐顺序、热门报纸、字顺、内容分类、地区分类等方式查阅近两年来的报纸。在阅览界面,用户可以进行页面放大、缩小、翻页、全屏阅读、剪报、历史数据查询等操作。

      2.3 “政府公开信息整合服务平台”

      我国公共图书馆联合建设的中国政府公开信息整合服务平台为社会提供政府信息查阅服务,通过全面采集并整合我国各级政府公开信息,构建了一个方便、快捷的政府公开信息整合服务门户,使用户能够一站式地发现并获取政府公开信息资源及相关服务。

      2.4 “网络信息采集知识库”

      “网络信息采集知识库”是对国际网络采集领域的重要信息的收集、整理之后的结果展示。其建设目标是为国内该领域的研究者提供一个可以对领域内研究内容进行全面了解的平台,同时尝试挖掘资源内容之间的关联,为研究提供新的线索,推动网络资源采集与保存工作在中国的研究与实践。中心收集了历年来有关网络信息采集与保存的内容,将其整理为人物、会议、项目、机构、作品、软件、标准7种内容,对资源进行了深度标引,提供各种数据的中英文两种元数据,并在网站上进行了多种方式的展示。

      2.5 代存档服务

      代存档服务就是为用户(机构和个人)免费代理存档网络资源的服务,用以帮助用户长期保存其希望保存的、具有自主知识产权的网页或网站。用户在申请代存档服务之前,需要保证自己对所提交的URL或URL列表所指向的网页或网站资源拥有完全的著作权,由于著作权不明而引起的侵权风险由用户本人承担。同时还要保证代存档资源内容不侵犯他人的隐私,不触犯相关法律,不使用或存储他人信息,不侵犯著作权、商标、专利以及其他专有权利。

      3 对今后工作的建议

      网络信息资源是一个国家的珍贵文化遗产,我们应该及时对其进行采集和保存。保存的最终目的是为了应用,所以应积极向用户提供对存档资源的访问和使用服务。我国针对存档网络资源的利用大部分是基于原始信息单元的,资源展示与服务还不够科学合理,搜索方式不够丰富、导航分类尚不完善,而国外从事WA的实践和研究较早,已积累了丰富的经验,我们应该好好学习,充分借鉴,丰富我国用户使用WA资源的方式。今后,可以从以下几个方面来完善我们的服务:

      3.1 信息发现服务

      目前,各国WA项目网站所提供的检索功能大都比较简单,很多国家仅提供URL检索,提供高级检索的国家寥寥无几。然而实际上,信息检索领域拥有丰富的高新技术和有效方法(如多媒体检索、智能检索、自然语言检索[25]、根据加权排名的全文检索、主题范围的搜索等),各国的WA项目网站均尚未充分应用。这些新技术的应用可以提高WA网站的信息发现能力,帮助用户迅速找到自己需要的资源,因此,在以后的建设中我们应该充分采用。

      3.2 整合展示服务

      将存档资源从主题、年代、类型、地点、字顺等不同角度,对同一个资源集合进行重新组合,便于用户更快捷地从多角度查找和发现资源。此外,还可以通过相关技术,实现一个网站不同版本之间的时空导航。同时,应充分应用资源关联、标签云、资源可视化等技术。

      3.3 个性化服务

      WA项目网站还应根据注册用户的专业、爱好、点击习惯以及其他预设属性,向用户提供个性化的服务,包括个性化的界面、“My Archive”、个人学习和科研社区等,来提升用户体验。系统还可以通过e-mail、短信、RSS等方式向注册用户提供信息推送服务。此外,WA网站还可以将管理者拥有的一些网站分析功能推送给公众(例如“显示一个特定网站上某一特定日期之后的所有PDF文件”)。

      3.4 信息增值服务

      对资源使用情况(如点击率、下载数、特定资源使用率等)和用户行为(用户IP、最常访问资源等)进行统计分析,并生成报表或图表,还可以提供多项增值服务,包括自动翻译、主题标引、名称规范、利用分析和评价等服务[26]。此外,WA网站还可以提供原始WARC格式文件的下载,既允许合作组织保存其网站内容的本地副本,也为研究者提供了访问服务的数据集,并将元数据记录导入其他知识库的服务,从而使指向网络存储内容的指针可以通过扫描材料而互相发现。

      4 结语

      在信息时代,网络存档资源是我们国家一笔巨大的无形财富,但是,目前我们对存档资源的开发和利用还不够充分,服务方式也不够多样和完善。今后,应团结协作、再接再厉,更加深入地挖掘和展示存档资源,为公众提供更为科学和完善的存档信息服务!

标签:;  

中外网络资源收集信息服务模式研究与建议_网页存档论文
下载Doc文档

猜你喜欢