高校共享数据中心平台的设计与实现_大数据论文

高校共享数据中心平台的设计与实现,本文主要内容关键词为:数据中心论文,高校论文,平台论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G43

随着高校信息化的发展,学校里面各类数据、信息急剧增长,给数据的传输、存储带来了许多新的问题,特别是不同事务产生大量不同类型的数据,这些数据分别被许多不同时期建立以及具有不同功能的应用系统所使用。高校中各职能部门已有的系统,不利于集成不同系统中数据以提供新的信息,而使用数据的人希望能够看到所有数据和信息的综合情况。

当然,存在这样的现状实际上是有一定历史原因的,由于在相当长的信息化建设过程中,对信息化的重视和认识不足,没有意识到整体规划的重要性和必要性,没有考虑整个学校的统一的信息系统,而是各个部门根据自己需要进行部门级的信息系统建设开发,而各部门的信息化程度各不相同,所用的开发环境和数据库也各不相通,既造成了资源的浪费,数据也无法共享。具体的说有以下问题:

(1)由于各个业务部门对信息化建设需求不同造成有的部门已经使用了比较完善的业务系统,比如教务、财务等,有的部门则未使用任何业务系统,如校长办公室等;

(2)各个业务系统都是独立的,各自维护自身需要的数据信息,业务部门之间的交互还是通过传统的单据报文传递。这样整个校园中形成很多信息孤岛,造成数据信息的大量冗余和不一致,同时很难在这些信息集上进行整个学校的全面信息查询和决策分析;

(3)由于已有信息系统的不完善,很多信息的存储都被分布存储到不同的数据存储载体上,有些存储在数据库中,有些存储在数据文件中,还有些是用文本文件进行保存的;

(4)各个部门采用的信息编码不一致,各自使用自己的编码规范;

(5)校园中存在一个综合信息查询的需求,比如校长办公室需要统计各个部门的数据,但不存在这种面向特定用户角色的全面信息服务的应用。这些信息服务所需的数据存储在不同部门的应用系统,分布在不同的存储源中,而且这些数据存在重复、冗余、不一致等情况,为了满足信息服务查询或者决策分析,需要将这些数据进行集成处理。

上述这些问题在各个高校中或多或少的都存在着,作为高校数字化校园建设亟需解决的问题之一,如何解决,正是大家共同关心的问题,通过在数字化校园多年的研究与实践,笔者认为可以选择在门户层针对表现做一些集成,但关键还是在数据层通过建设高校共享数据中心平台来解决这些问题。本文在进行简要系统概述后,从高校数据标准建设、共享数据中心系统架构、系统解析及功能方面对高校共享数据中心平台的设计与实现进行了一系列的研究和探讨。

1 系统概述

共享数据中心是收集、处理和存储各类共享数据,并为全校提供信息共享服务的平台。为实现系统的集成和各个系统之间的数据共享,提供有效的决策支持数据,需要建立基于数据管理和利用的综合性技术方案的共享数据中心,用以存放大量数据的同时有效地将数据管理起来,并提供数据访问的手段,为系统集成和各个系统之间的数据共享提供平台,保证数据的及时性、完整性和一致性。但是为何不是大集中的数据中心而是共享数据中心呢?首先高校的各类数据纷杂繁多,并非每一类的数据都是有必要收集处理存储到数据中心中的,学校业务关心的是真正核心的数据,可供进一步共享和利用的数据,这时就有信息标准、筛选、集成等问题了;再者大集中的数据中心投资大,也并不是每个高校都有这样的需求,而共享数据中心完全可以解决基本数据的抽取、利用、表现等基本要求,是一种投资回报率较高的解决方案。

共享数据中心作为校内基本数据的共享平台,将各个业务部门的基本数据进行集中整理,实现统一管理,保证数据的权威和准确,为各个业务应用系统和各类服务系统提供数据支持,承担着数字化校园中的大量数据、信息、流程以及处理结果,系统功能包括:

(1)数据的采集更新:所有数据来源于各个业务系统,通过通用的数据抽取或同步方法将数据采集到共享数据中心,同时做出数据更新报告。

(2)数据的组织整理:按照学校的信息标准对各个部门更新的数据进行整理,要报告数据异常,保证数据的一致性和准确性,保留历史数据。

(3)数据的共享利用:通过授权,可以对数据中心的部分或全部资源进行共享和利用。共享数据中心实时做出数据使用情况报告。

(4)数据的挖掘分析:通过对共享数据和历史数据的OLAP分析,形成各种报表或根据需要展现分析结果,为决策者进行决策提供参考。

2 高校数据标准建设

构建高校共享数据中心伊始,首先要关注的便是信息的标准化问题。整个高校的数据表示需要按照一定的标准编码,方便校内数据和行业之间数据流通。目前存在国家标准、行业标准、市级标准和高校内部自己标准,各个标准也不能完全的一致。如何根据这些标准,兼顾各个标准之间的兼容性,和标准的一致性,以及标准的可扩展性,给出具体高校的信息分类编码规格说明书成为高校共享数据中心建设的前提[1]。

高校数据标准建设参考的标准集包括作为国家标准的教育部《教育管理信息化标准》(第一部分:学校管理信息标准)和教育信息化技术标准委员会(Chinese e-Learning Technology Standardization Committee,CELTSC)出台的标准,地方标准包括省教委相关标准和DLTS标准,还包括IMS的学习资源元数据规范(Learning Resource Metadata,LRM)、学习技术标准委员会(Learning Technology Standards Committee,IEEE LTSC)、学习对象元数据模型(Learning Object Metadata,LOM)、OCLE(Online Computer Library Center)Dublin Core的Dublin Core元数据标准、可共享课程对象参考模型(Sharable Content Object Referenle Madel,SCORM)等规范、模型和标准。

目前在建数字化校园高校的数据标准一般分为基础代码数据标准、学校各信息子集信息标准、部门数据信息标准等。基础代码数据标准主要记录一些基础代码表,例如民族、籍贯等,这些通常有国家标准或相关权威部门的标准,这部分改动的可能性不是很大;学校各信息子集信息标准主要以教育部标准为主;部门数据信息标准是根据学校各信息子集标准然后结合学校的部门业务所产生的,该部分集中反映了学校各部门的业务信息标准,是信息标准的核心部分,各学校的差异比也较大。

一般的实施做法是建立了一套以国家教育部信息标准为基础的数字化校园建议标准,在经过充分的实际调研工作之后,将根据学校的实际情况进行删减,并形成最终的某个高校的事实信息标准[2]。信息标准的导入即在此基础之上建立事实的中心数据库数据结构,信息标准导入工具模块可以将指定路径特定格式的数据标准生成SQL脚本进行批处理执行,自动建立生成数据库表结构。

3 系统架构

为达到全校信息编码的统一和一致,保证“谁产生、谁维护”,保证提供反映整个学校的全面信息并为以后开发学校决策支持系统积累分析数据,我们设计出如图1所示的高校共享数据中心系统设计图。

图1 共享数据中心系统设计图

4 系统解析和功能

4.1 数据源及中心库

数据源是共享数据中心的数据抽取来源,我们把学校所有的应用系统的数据库称为数据源,这其中包括两方面内容,一是现在学校已有的应用系统数据库;二是后续建设的各个应用系统的数据库。

已有应用系统数据库是已经建成并投入使用的应用系统的数据库。因为这些应用系统的建设在共享数据中心之前,其原有数据库设计一般情况下不可能与共享数据中心的总体设计相符,所以对其必须利用数据集成工具和数据同步工具来解决全局共享问题。对于后续建设的应用系统,他们的数据库将采用全校统一的信息标准来设计,即符合共享数据中心的总体设计,对于此类数据库的数据共享将不是问题。

共享数据中心库是所有共享数据的集成地,所有应用系统的共享数据在这里集成。它向下从数据源集成数据并保持更新同步,成为各个应用系统之间的共享数据通道;向上作为统计分析服务的数据源,向统计分析服务提供从各个应用系统集成过来的共享数据。共享数据中心库的数据来源于数据源,它通过数据集成工具从数据源的各个应用系统数据库抽取数据,并根据数据类型分类存储。另外,共享数据库与数据源的各个应用系统数据库保持更新的同步,共享数据库的数据同步分为自动同步和手动同步两种,自动同步主要针对后续建设的应用系统数据,其同步工作通过数据访问层实现;手动同步主要针对原有应用系统数据,其同步工作通过数据同步工具实现。

在共享数据中心库的建设中,还牵涉到高校数据的组织问题:如何有效地组织高校里的各类数据;如何有效地建立数据的索引;对于大容量数据是否有必要建立索引的索引;这些都关系到共享数据中心平台的使用效果。因为构建中心库的过程就是了解用户需求,了解学校资源情况,确定和实现共享数据的过程。

4.2 数据集成

共享数据中心库的数据来源目前来说主要是由国标即基础代码表的数据和从已有的应用系统中集成过来。这个过程就是数据抽取的过程,已有的应用系统的数据是不符合数据规范的,抽取的过程就是实现从不规范的数据源内通过整合转化成规范的数据保证数据的准确[5]。

数据集成的前提条件是对于要接入的每一个应用系统的数据源进行调研,应用系统应该确保提供一定程度的数据接口。这是个从应用系统往共享数据中心上行的过程,首先需要确定要从应用系统抽取哪些数据,这些数据的含义是什么?即提供相应的数据字典,并且确定对应于数据中心的哪张表,可接入的数据接口模式分为:

(1)直接开放数据库:只需要只读的账户权限即可,需要在绝对保证原有系统数据安全性和完整性,不影响原有系统运行的基础上建立触发器。

(2)中间文件数据源:如应用系统不能对外开放数据库,则可以导出差异数据文件到指定的目录,这些文件可以是Access文件数据库模式、Excel文件模式。

格式在实施时共同商定。数据集成如图2所示。

图2 数据集成示意图

具体而言需要提供的功能包括:

(1)数据源接入:通过透明网关或者ODBC进行连接,对于市场上比较流行的主流数据库Oracle、SQL Server、Sybase和DB2直接通过透明网关进行配置,对于其他的数据库可以采用ODBC连接的方式接入。

(2)导入元数据并进行数据映射:在完成数据源接入后将需要的应用系统的元数据进行导入,并和中心数据库的相应内容进行数据映射,产生一对一的匹配。

(3)数据清洗:数据清洗是完成类型转换和过滤的步骤,应用系统的数据源大多数本身是不符合数据标准的,要通过数据清洗完成转换工作,并过滤掉一些不必要的历史数据。

(4)制定流程:将多个数据源的接入形成相应的JOB,并制定出流程,让其按照预先制定的流程周期性的执行。

4.3 元数据管理

首先需要强调的是,此处讨论的元数据并非一般意义上所指的构成数据的数据,而是指数字化校园建设中的一系列原始的基本的数据。元数据也是指管理系统中各数据表及字段的真实涵义,元数据管理完成对共享数据中心的数据库结构的管理维护工作,即对共享数据中心中的标准表的元数据进行登记,以方便日后的数据管理。

元数据管理包括:

(1)表的注册。对表名进行中文注释,并对该表进行详细的描述。共享数据中心中的表数量非常之多而且涉及到学校的每一个方面,表的注册就是为共享数据中心建立档案,供访问者查阅。

(2)字段注册。和表注册一样,字段注册也是为共享数据中心的数据结构建立档案,供访问者查阅。

(3)更新数据库结构。为了适应学校信息化的发展做到与时俱进,还有面对数据标准的错误或者误差,更新数据库结构是必要的,但因为更新时牵连极大,须万分的小心,不到万不得已不能更改,更改的原则是对于未使用的表可以更新、新增、删除字段信息,对于已经使用的表只能做新增操作。图3是一个元数据管理的示意图。

图3 元数据管理示意图

另外,在元数据的管理中还涉及到元数据的分类,根据信息子集的分类可以将标准库分成让业务人员熟悉的分类以方便查找。再有,对于某些需要特别关心的数据可以进行CheckPoint记录,以便跟踪和统计,这主要是针对一些敏感数据,需要知道其的来龙去脉,有哪些人在哪些时间进行了哪些操作,记录下来以便后查。

4.4 主题管理

主题管理包括主题库的建立和主题对象的管理,我们知道针对某一主题,其相关信息一般并不是从唯一的一个库里面获取的,要全面利用信息就需要构建一个综合性的主题库。比如说对于一个教师来说可形成一个数据主题,即与该教师相关的信息集成。例如:人事管理系统中有基本信息、档案信息、工资信息、异动信息等信息与该教师相关,可以将这些信息数据归入教师主题之中,以此类推,科研管理系统和教务管理系统中的教师相关信息数据也可集成过来,最终形成一个用户自定义的完整的教师主题,如图4所示。上面的例子是以人为例,换个视角,我们同样可以将事件作为主题的中心。

图4 应用主题示例图

下面给出的是某一高校在完成标准库的建立之后,根据学校要求建立相应的主题库:

①财务库(含科研经费、教职工工资、学生缴费贷款信息)

②成绩库(学生各门课成绩、辅修课程成绩、第二专业课程成绩)

③课表库(各专业教学计划、本学期开课计划、本学期排课列表)

④学生库(本科生、专科生、成人学生、基本信息表)

⑤教职工库(在职教职工基本信息、离退休职工基本信息)

⑥学籍变动库(学生所有学籍变动、奖惩信息)

⑦科研成果库(论文、专著、专利、鉴定成果等信息)

⑧科研项目库(申请、在研、完成项目的信息)

⑨教学资源库(教室、多媒体教室、课件、精品课程讲义等信息)

⑩设备库(大型仪器设备基本信息及使用情况)

(11)代码库

对于主题对象的管理包括:

(1)主题对象生成。根据应用的访问权限,对于其可以访问的表的操作进行封装,建立成对象以后对数据库的访问都通过对象实现,对象最终关联到SQL语句。

(2)对象权限管理。划分用户对主题对象的访问权限。

(3)主题对象查看。查看对象对应的应用、对象名,对象对应的SQL语句,对象对应的XML文件格式,访问WebService的WSDL地址等。

(4)主题对象展示。根据用户的访问权限,图形化的展示对象和对象查看的内容。

(5)我的数据库。根据用户的访问权限,展示元数据表、字段,以及表里面的数据,Checkpoint记录,并且可以导出数据库里面的数据。

4.5 数据访问接口

数据访问接口是针对应用对中心数据库访问的,一般提供一组标准的访问中心数据库表和视图的访问接口。下面先以基于XML的Web服务接口方式为例加以说明。可扩展标记语言(eXtensible Markup Language,XML)具有良好的可扩展性,遵循严格的语法要求,便于不同系统之间的信息传输,可以使用户与应用程序之间文件交换更容易,将文档结构与显示内容分开,具有较好的保值性。例如:

〈?xml version="1.0"encoding="GBK"?〉

〈DEPTS〉

〈!—部门组织字典—〉

〈DEPT〉

〈DEPT_NAME〉deptl〈/DEPT_NAME〉

〈DEPT_SHORTNAME〉d1〈/DEPT_SHORTNAME〉

〈DEPT_CODE〉codel〈/DEPT_CODE〉

〈DEPT_LEVEL〉1〈/DEPT_LEVEL〉

〈DEPT_PARENT〉dept0〈/DEPT_PARENT〉

〈/DEPT〉

〈DEPT〉

〈DEPT_NAME〉dept2〈/DEPT_NAME〉

〈DEPT_SHORTNAME〉d2〈/DEPT_SHORTNAME〉

〈DEPT_CODE〉code2〈/DEPT_CODE〉

〈DEPT_LEVEL〉2〈/DEPT_LEVEL〉

〈DEPT_PARENT〉dept0〈/DEPT_PARENT〉

〈/DEPT〉

〈/DEPTS〉

Web服务即通常所说的WebService技术,Web服务可以适用于开发和部署多层结构的、分布式的、面向对象的Java应用系统的跨平台的构件体系结构。Web服务体系的优势是平台无关性;可扩展性强;可分布性强;具备很高的可靠性;可以实现动态负载均衡。其针对共享数据中心的表和视图可以提供标准的WebService访问接口,为用户的Select、Update、Insert、Delete操作提供服务,并对提交的数据的合法性提供校验。

4.6 数据管理工具

如何快速的高效的在共享数据中心平台上处理各类数据,需要一些工具的支撑[6]。

(1)数据集成工具

数据集成工具是共享数据库对数据源(各业务系统数据库)进行数据抽取的工具。它使用户可以方便的通过设置,让系统自动从各个业务系统数据库中将数据提取到共享数据库中,其主要工作流程包括:选择数据源,即源数据库;选择数据库中的表;设置各个表之间的关系;设置目标数据库;设置目标数据库行和列;设置字段映射关系;设置是否需要通过审核;设置数据集成调度,即数据集成的周期和操作。

(2)数据同步工具

数据同步工具是针对已有业务系统数据库与共享数据库之间的同步。因为原有业务系统的数据库建设较早,其设计与共享数据库的总体设计一定有所不同,从技术角度来说很难做到象数据访问层那样使后续建设的业务系统数据库与共享数据库之间保持自动的实时同步。所以,必须兼顾已有业务系统的数据库,采用数据同步工具来保持已有业务系统数据库与共享数据库之间的数据同步。

(3)元数据管理工具

元数据管理工具是共享数据中心的数据库的重要管理工具。它主要对数据库的描述、分类、有效性进行管理。对于数据库中的描述,包括数据库名、字段名、行列名等全部采用中文注释的方式,使其展现在用户面前时全部是中文表达,而数据库后台定义仍然不变。另外,对数据库中不同来源的数据进行分类管理,向下方便数据抽取,目标明确,向上形成数据集成的不同主题,方便上层数据抽取。

(4)数据一致性检查工具

数据一致性检查工具在共享数据中心中,对数据来源和数据目标进行逻辑错误和数据规则的检查或比对,一旦发现有关联错误或违反规则的情况发生,系统立即向相关数据库管理员发生间断性警报,直到错误更正为止。对于大型共享数据中心来说,从数据库逻辑安全角度考虑,一旦发生错误,关联众多影响面广大,所以数据一致性检查工具采用实时监控的方式不停的对各个数据库进行扫描,保证数据库正常运作。

(5)数据导入导出工具

数据导入导出工具为共享数据中心提供与外部数据进行交互的接口,它可以将共享数据中心中的数据根据外部数据规则进行数据转换并导出;也可以将外部数据根据共享数据中心的规则进行数据转换并导入。例如,学校可以将共享数据中心中的数据根据教育部的年报规定将所需数据进行抽取,并转换为规定的格式导出文件并提交。

5 结语

在现阶段的高校共享数据中心平台的建设中,对于具体高校数据标准的确立以及中心数据库的建立已经有了一些成功案例,前者主要是基于教育部的信息标准,而后者则着力于在该平台的管理端上开发大量的工具,除了本文上面涉及的一些工具外,共享数据中心还应提供一些相应的管理机制以确保该平台系统的顺畅运行,如系统管理机制,系统管理主要包括应用用户管理和日志管理,其中应用用户管理涉及应用管理(对应用系统进行增删改操作)、应用权限管理(划分应用对元数据表的访问权限,可将访问权限分为只读式访问和独占式访问)、用户管理等;日志管理除了管理常规的查看、删除、备份和导出日志记录等功能外,还管理日志审计功能,即管理员可以通过设置选择较为关注的的日志信息项,着重管理一部分日志。

在下一阶段可以进一步研究和建设的数据中心领域包括如何在现有的共享中心库的基础上形成历史数据库,逐步实现由数据中心(数据库)向数据仓库的过渡,并在高校的数据量达到一定的程度以后开展数据挖掘,并在此基础上形成符合高校需要的决策支持系统[7]。另外一个需要强调的是共享数据中心的安全问题,虽然已经有一些专家学者在数据中心的安全策略、安全技术和安全管理等领域做了一些研究,并在高校数字化校园的实际应用中也有所体现[8],但还远远没有达到理想的状态,构建完整意义上的校园数据中心安全防范体系架构仍然是我们需要进一步深入的工作。

相信不久的将来在绝大多数高校中都将建成自己的共享数据中心平台,形成一个唯一的可信数据源,使整个新系统、不同时期已经存在的已有系统能进行有机的集成,保持整个数据的统一和一致,并为整个学校的信息查询和决策分析提供可靠的、足够的、全面的数据保障,为数字化校园的进一步建设奠定平台基础。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

高校共享数据中心平台的设计与实现_大数据论文
下载Doc文档

猜你喜欢