图书馆统计云服务技术及应用_图书馆论文

图书馆统计云服务的技术与应用，本文主要内容关键词为：图书馆论文,技术论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 引言

“图书馆统计云服务”是一种利用大规模的低成本计算单元，通过IP网络相连，为多个用户提供的统计服务[1]。目前图书馆的“云”概念已经腾空而起，“雨”是靠无数云相互碰撞产生的。“云”和“雨”形成的气象现象也可以用来解释图书馆的“云服务”形成过程。OCLC已经将图书馆的“云”形成了“雨”，着陆到我们图书馆世界的地面上，图书馆的上空究竟还有多少“云”能够形成“雨”？这不能以人们的主观意愿为转移，这与自然界中“云”的形成过程十分相似，至于“云”是否能够形成“雨”取决于许多客观条件。图书馆“云”和“雨”的形成与着陆是有过程的，需要图书馆人在无数“云”朵中穿行与相互碰撞才能形成。

“全国高校图书馆事实数据库”系统（以下简称事实数据库系统），就是一个典型的“统计云服务”的成功应用，只不过我们过去没有用“云服务”的理念去定义这种服务。事实数据库系统是在教育部高等学校图书情报工作指导委员会的领导下，2005年以来采用“统计云服务方式”在全国高校范围内实施。全国各高校图书馆都能够通过互联网，登录并使用安装在北京大学图书馆计算机服务器上的事实数据库系统，只要认真及时填报相关数据，就能检索并统计高校图书馆的建设、管理与服务情况，为各高校图书馆提供本统计与评估服务，从1999年至今，全国高校图书馆的统计数据主要来源于该系统。

在“统计云服务”的过程中，我们经过多年与各种“云”的相互碰撞，受到商业智能(BI，Business Intelligence)的启发，使我们想到商业企业统计可以有专门的统计分析工具，图书馆统计工作为什么不能有专业的统计工具呢？我们从事实数据库系统的建设与应用中看到了“统计云服务”所具有的实际应用价值和发展空间。

云计算给图书馆管理带来了诸多挑战，如统计数据的保密和隐私；数据的有效迁移；统计结果的获取方式及存储方式；数据的知识产权等等。“图书馆应用云计算并没有现成的道路可走”[2]，对于不同的云服务会有不同方法、不同的解决方案。本文通过事实数据库系统的开发与应用实例，结合用户实际需求，对云服务所面临的挑战，从技术、应用层面进行研究和探讨。

2 “统计云服务”的系统构架

“统计云服务”的系统构架必须建立在开放、稳定、整合的平台之上。该平台应该具有提供多层次的用户管理、安全性控制、连接数据源以及访问、分析和共享信息的功能。系统构架犹如建房子的地基，从构建系统那一刻起，就要考虑为满足系统功能与性能指标，需要构建什么样的地基。在C/S系统构架的图书馆管理集成系统中，系统构架注重的是模块的科学划分及模块之间的耦合度，以及对图书馆工作流描述的细腻程度。在“云”服务时代，我们不是一步就登上“云”端，而是一步一步走上“云”端，“全国高校图书馆事实数据库”毋庸置疑是一种“统计云服务”模式，从1999年的单机版系统，到2005年的网络版系统，从其发展历程可以清楚地描绘出其步入“云”端的轨迹。因而那些在C/S系统构架设计方面积累的经验仍然是我们直上“云”端的宝贵财富。

“统计云服务”的开放性是其生存、发展与应用的基本保证。开放性的云服务系统应该采用B/S(Browser/Server)结构进行开发与设计，同时应解决好系统构架设计中可能存在的问题。

2.1 “统计云服务”的云层级管理

“一朵云”是由N个云片组成的，我们假设“一朵云”是由N个图书馆组成的一个区域性图书馆；“一层云”是由N朵云组成的，我们假设“一层云”是由N个区域性图书馆组成的；显然云层越厚，云朵聚集与碰撞的机会就越多，形成雨的概率就越大，即图书馆管理层次越多可供聚合的数据就越多，信息生产量就越大。因而，可以说“云”是“云服务”的基本元素。一个“统计云服务”系统至少应设计为三层用户管理，即基础层、区域层和主控层。基础层提供每个图书馆的统计服务管理，区域层不但能够提供基础层服务，还能够对本区域内所有图书馆的统计数据进行统计服务管理，主控云层不但能够提供辖区内所有区域图书馆的统计服务，还能够对辖区内所有区域图书馆的统计数据进行统计服务管理。即基础层是区域层的子集，区域层是主控层的子集。从目前的需求来看，暂时各层之间没有交集，但并不意味今后各层之间没有交集，OCLC的客户云组织，由于图书馆属性的多元化，使各层级之间具有典型的交集层结构。例如：事实数据库系统的云层管理分为三层：基础云层是由经教育部注册、登记、批准的普通高校和高职院校图书馆，利用该系统填报本馆统计数据组成的云层；区域云层是由各省、市高校图书情报工作指导委员会，利用基础云层提供的数据组成的云层；主控云层是：教育部高校图书情报工作指导委员会，利用区域云层提供的数据组成的云层；我们通过多云层多用户权限管理的方法，根据工作需要授予各云层用户不同的权限。主控云层具有编辑系统重要的配置参数的权限，如：统计项目名称和统计代码名称、编辑数据字典、定义统计公式等权限，并具有按院校分类或省、市检索和统计全国各高校图书馆不同年度的馆舍建设情况、设备与设施情况、馆员年龄与学历结构情况、读者年龄与学历结构情况、文献资源分类与数量、读者服务情况等，并可按照院校分类与统计项目分别列出统计数据排行榜，也可按照省、市与统计项目分别列出统计数据排行榜等。区域云层没有编辑系统重要的配置参数权限，但具有主控云层除此之外的其他权限。基础云层除具有区域云层的权限之外，还具有填报和编辑本馆统计数据的权限。通过分析我们认为多层、多用户管理的系统构架是“统计云服务”的基本构架。

2.2 “统计云服务”数据的保密和隐私管理

层级管理为系统权限管理的科学性与安全性奠定了基础。处于基础层的图书馆通过系统授权可以完成对本馆数据的迁移或录入，但是不能对其他图书馆的数据进行上述操作，从而解决了图书馆统计数据的保密问题，由于统计数据不涉及到读者个人的阅读隐私，因而无须担忧个人隐私的外泄。

2.3 “统计云服务”系统的安全性和可靠性

各图书馆把本馆的数据迁移到“云”中管理，总不像放到“家”中管理那么放心。其实，能够提供“云”服务的公共事业单位或企业，都比每个图书馆更注重系统的安全性和保密性。他们所构造的“云服务”平台，无论在系统的硬件设施方面还是在软件方面都会采取一系列安全措施。在中国提供“云”服务的企业与用户之间要建立一种完全信任机制还有一段漫长的路要走，主机托管的信任机制在中国已经逐步形成，但是软件系统的托管机制即云服务的信任机制还需要通过政府或者群团组织进行推动。

对于本地图书馆管理集成系统安全性和可靠性管理所采取的措施是基于局域网范围内的，对于广域网来说，“开放”的服务模式将使更多的图书馆受益，同时对系统的防护也带来了更多的挑战。在系统构架设计中，值得注意的是要充分利用互联网的优势，实现系统安全可靠运行的动态管理。例如：加强系统操作日志的动态管理，提高查询系统操作记录的时效性，跟踪和防范可能进行恶意攻击的隐患；数据的备份机制要实现动态管理，对系统数据备份的数量和主要内容进行动态通报，尤其是对系统重要数据库数据容量的变更、系统运行状态异常信息等进行实时、透明的提醒处理甚至可以提供短信提示等等。

2.4 “统计云服务”系统的可用性

从操作层面上来讲，对“云服务”系统的易操作性要求很高，不需要人们刻意地进行应用指导服务，就可以操作自如。从应用层面上来讲，对系统的可替代性要求很高，用户要能够利用原有系统的数据而又摆脱原有系统的束缚轻松应用云服务。这就需要系统构架设计在智能化方面多动脑筋，注重系统在应用层面参数配置的灵活性，在提供核心功能服务的同时，使系统又具有个性化，为图书馆提供基于本馆统计工作定制的统计工具，使系统具有更大的灵活性和使用范围。“云服务”必然要走向自然应用的道路，才有生命力和市场价值。

2.5 “统计云服务”系统的实效性

B/S系统结构的潜在问题是系统的运行效率会受到网络环境的制约，为此在应用技术领域，网上已经公开了许多成熟的技术，不过我们除了在编码方法上采取措施之外，还要在系统构架上对关键性的功能在数据结构、编程方法、输出方式、数据迁移方式等方面的技术问题进行优化，以提高系统运行效率。

3 统计云服务数据的标准化

“云服务”应用的特点是图书馆可以跨行业、跨企业自主选择和应用用户所需要的内容、工具和作业平台，其应用价值在于提供“云服务”的系统是否能够实现零成本的数据迁移。数据迁移最大的问题在于数据的标准化，商业利益与零成本数据迁移是一对永恒的矛盾，这是构成“云服务”应用价值的最大障碍。我国图书馆所使用的自动化管理集成系统软件比较杂，没有一个像微软那样在市场占有率中有绝对优势的软件供应商能够自然形成数据迁移的标准，值得庆幸的是，在我国市场上流通的主流图书馆自动化系统所采用的著录标准是国标，书目数据通讯格式是CNMARC、USMARC格式，这些软件基本上都具有书目数据和馆藏数据输出接口，比较麻烦的是文献采访和文献流通等数据没有标准的数据通讯格式，这对“统计云服务”带来了困难。在短时间内，我们不可能通过图书馆行业组织或多家企业联合制定图书馆数据迁移标准，按照《云计算权利宣言》对云计算标准提出的四点要求，我们应尽可能使用现有标准，避免使用具有垄断性质的专有标准[3]。今后图书馆应该与企业沟通，作为一种商业合作条件，让其对图书馆系统管理员开放本馆系统数据库操作，并提供适当的技术培训，使用透明的数据格式并开放系统数据库设计标准，让系统管理员能够及时掌握系统核心数据库的数据结构和数据库容量的变化，以便有效管理和利用本馆系统所产生的数据资源，逐步实现图书馆自动化管理集成系统部分功能的云服务。

事实数据库系统统计数据标准化的问题，是通过主控云层的有效管理实现的，在该云层定义并规范统计项目名称、统计项目代码、统计分类名称和分类代码，即基础云层填报的相关数据项是由主控云层进行管理并控制的，基础云层只有使用数据标准的权限，没有定义和规范相关数据标准的权限。区域云层在满足主控云层要求上报的统计项目之外，可以对本区域内的图书馆增加统计项目，其相关统计名称规范标准可由区域内的相关人员统一制定。

“统计云服务”的数据迁移问题是数据标准化的重要组成部分，图书馆的历史数据需要迁移到“云端”才能利用统计云服务的统计功能，这必然要进行数据迁移。数据迁移分为动态迁移和静态迁移。动态数据迁移是指“云”与“云”之间能够相互操作共享数据库资源，或者“云”能够与地面上的数据库进行实时的互操作，因而数据迁移的数据量不受系统客观条件的限制，即可以说是无条件的数据完全迁移；静态数据迁移是指“云”与“云”之间相互操作共享数据库资源，是受用户选择条件限制的固定数据字段的内容和数量，即可以说是有条件的数据部分迁移或者增量迁移。动态数据迁移需要企业之间完全达成默契，完全或者部分开放各自系统的数据库操作，这对异构系统来说，可望不可即，只有当“云”中所有用户使用的是同构系统的时候，才能实现动态数据完整的迁移。因此，我们可以借助静态数据迁移的方法，通过用户对统计数据字段的选择和统计内容时间段的选择来确定我们需要迁移到“云”端的数据，再通过增量数据迁移的方式不断充实和完善“云”端的数据，从而，通过云服务特定统计数据结构的获取方式及存储方式获取图书馆所需要的统计结果。

“统计云服务”数据迁移接口没有统一的标准，但是要满足三个基本条件：一是要有可读取的关系型数据库，如通过ODBC连接的数据，接收TXT文本文件、EXCEL文件、Access格式文件等[4]；二是允许系统管理员通过数据迁移窗口对迁移数据进行条件过滤、控制冗余数据进入“云”数据库；三是要做好数据迁移的断点保护，防止网络中断给数据迁移带来损失。数据迁移的内容主要涉及文献采访数据、文献编目数据、文献典藏数据、文献流通数据、读者数据等。满足上述条件，则可实现零成本数据迁移。所谓零成本，是指不需要企业提供数据迁移的相关操作，而是由本馆系统管理员通过本地系统的数据输出接口和“云”服务数据接口的相关操作，完成数据迁移工作。

4 统计参数和统计条件

统计参数主要包括统计所需要的统计输入项目管理、计算公式管理、数据字典管理、系统配置参数管理、权限管理等，由系统主控云层统一管理。

统计输入项目是统计输出的原始数据，完整、规范、灵活的输入项目界面是统计输出内容完整、准确、灵活、多变的基本保证。

事实数据库系统的统计输入项目参照《普通高等学校本科教学工作水平评估指标和等级标准》，主要涉及八个方面的统计类别：A图书馆基本情况，B年度经费，C文献资源积累量，D当年新增文献量，E阅览室情况，F开馆时间，G电子资源开发情况，H资源利用情况。每一统计类别，可以细分为二级、三级类目。通过统计类别的定义，规范了统计项目名称、统计项目代码、统计分类名称和分类代码，具体内容请登录“全国高校图书馆事实数据库”[5]。各高校图书馆必须采用教育部高校图书情报工作指导委员会通过主控云层制定的统计输入项目填报，在保证必须填报的数据之外，可根据本馆或本区域的需要，自行增加经过定义并规范的统计输入项目，但是不能减少或删除主控云层已经制订的统计输入项目。

计算公式管理是统计数据运算的必要元素，是统计输出项目的科学依据，不同的统计项目，计算公式可能是不一样的，为了保证系统应用的实用性和灵活性，事实数据库统计所需要的计算公式可根据统计工作需要自行定义。

数据字典是保证系统输入项目使用规范词的有效工具，是防止垃圾数据进入系统的重要手段，是规范统计条件并确定检索关键词的必要措施。

系统配置参数是系统运行所必需的参数，不同的用户系统运行参数可能是不一样的，为了保证系统应用的实用性和灵活性，系统配置参数可在系统参数管理中统一管理。

权限管理是统计云服务安全应用的重要保证，统计云服务要根据不同云层的角色进行权限配置，并对各云层中的各种角色进行权限配置。

统计参数的统一、有效的管理，极大地增强了统计服务的实用性和灵活性，使之适应各种环境下的统计需求。

统计条件主要包括统计数据输出的限定条件，如统计数据的时间、区域、值域等范围的选择，统计项目、输出项目的选择与匹配。

灵活的统计参数配置和科学的统计限定条件选择，使用户能够比较完整、准确、清晰地表述自己的选择，建立统计条件与统计需求之间比较完美的内在联系。在事实数据库系统中有效注册的图书馆，只要填报了本馆的数据，就可以查询并统计其他有效注册图书馆的相关统计数据，可以根据本馆统计需要，选择某段时间范围内、再选择某个区域内、再选择某些统计项目、再选择统计输出方式，系统即可输出符合检索条件的填报数据。

图书馆“统计云服务”要与时俱进，我们不能停留在事实数据库系统现有的服务水平上，应该在以下六个方面进一步充实和完善图书馆统计服务，即图书馆业务统计、图书馆馆藏建设统计、图书馆读者服务统计、图书馆人事管理统计、图书馆资产管理统计、图书馆运行管理统计等。通过事实数据库的统计服务实践，我们在技术上采用科学的统计参数确定方法，灵活的统计条件选择界面，简易高效的操作方式，丰富多样的输出内容，使系统的实用性能得到了基本保障。

5 统计结果的输出及存储方式

统计结果是依据统计条件的选择和统计参数的设定所输出的各种统计数据，它获取方式是通过云的服务方式展示在网页上，并可通过用户所选择的输出方式获取并存储统计结果。统计云服务应采用先进的软件设计技巧并充分利用数据字典的优势，使服务界面设计能够充分考虑用户的使用习惯，仅用鼠标选择操作，就可得到满足个性化需求的统计报表，使统计结果的获取方式及存储方式，统计项目的参数配置，数据字典的管理更加灵活便捷。

统计输出方式是满足用户多种需求关系的重要手段，统计云服务应具有宽泛的统计时间选择和统计输出方式选择，通常应具有如下统计输出方式：

1)统计输出的报表维数可根据用户的选择自动生成二维或三维统计报表。

2)统计输出的数据格式可根据用户的选择自动生成EXCEL/HTML/PDF／等格式。

3)统计输出的图形式样可根据用户的选择自动生成直方图、饼型图、折线图等格式。

4)统计输出可生成图文并茂的报表式样，在图形界面上配有表格输出，既满足了图书馆统计数据的微观需求，又满足了图书馆统计数据的宏观需求。

5)统计输出的数据去向可根据用户的选择发送到指定部门的指定个人。

事实数据库基础云层的统计数据集中统一存储在北京大学图书馆机房专用服务器上，统计结果的获取与存储方式是通过层级权限管理来实现的，统计结果可下载到本地电脑中进行存储。

结语

“统计云服务”关键在于要寻找一种能够适应“统计云服务”技术、应用和管理的解决方案。“统计云服务”的价值，不能用传统的、平面的、本位的眼光去考量，降低服务和管理成本这是社会永恒的主题。“统计云服务”不是一个“无中生有”的创新性服务，而是从孕育滋长在“地面”几十年的图书馆统计工作中提炼、升华出来的一种新型的服务模式。通过“云”的品质和服务能力的不断提高，人们对“云服务”的方式也会逐步适应，进而产生新的需求，并将逐步发展成为图书馆的专业统计云。通过事实数据库系统的开发与应用，我们总结出“统计云服务”之所以在没有“云”概念诞生的时候就成功地施展了“云”的魅力，关键不在“技术”，而在于有效地发挥了教育部高校图书情报工作指导委员会的组织与管理作用，各省高校图书情报工作指导委员会逐层发挥作用，各高等院校积极响应，有效的组织行为是“统计云服务”成功的关键。OCLC若没有在全世界范围内各层级的图书馆团体会员，没有这些团体会员所提供、整理并汇集的海量级的基于WorldCat的书目数据与馆藏数据，它推出的WEB级协作型图书馆的管理与服务是不会引起图书馆界强烈关注的。虽然本文重点阐述的是“统计云服务”的若干技术问题，我们还是要强调，在中国现行体制中，“公有云”、“私有云”、“混合云”的成功开发与应用，绝大多数要优先有占有“云”的资源并且具有构成“云”的组织结构，其后才有“云服务”。技术永远是为市场服务的工具，无论IT企业想出什么样的高招充实和完善“云”服务的技术，都要回到市场这个主题上来，回归到研究图书馆相关组织行为学的轨道上。“云”组织管理与“云服务”通常不是一个机构，通常由图书馆的协作组织或者区域行政主管部门构成，而云服务机构通常是一个IT企业，他们之间会自然形成默契的分工，一个侧重应用的组织与管理，一个侧重技术开发与服务管理，这是一个完美的结合。只有充分发挥图书馆协作组织的作用，提高政府或事业单位的行政效能，有效利用区域经济所构成的市场氛围，才能建立比较完整的“云服务”体系结构，才能使图书馆放心地将自己本馆所拥有的数据聚集到相关云端，使各馆的数据资源最大限度地发挥作用，同时通过相关的“云”组织与管理机构限制数据资源及其衍生产品的生产与应用，这会有效地规避由于“云”服务而引发的数据的知识产权问题。

科学的系统构架，零成本的数据迁移方式，灵活的参数配置与条件选择的方法和丰富的统计结果获取和存储方式，有效的组织与管理，是图书馆“统计云服务”逐步形成、发展与完善成为图书馆专业统计工具和服务平台的必备条件。

收稿日期：2009年10月7日

标签：图书馆论文; 数据迁移论文; 数据库论文;

图书馆统计云服务技术及应用_图书馆论文

猜你喜欢