数据挖掘技术在电子文档管理中应用的必要性与可行性_数据挖掘技术论文

数据挖掘技术在电子文档管理中应用的必要性与可行性_数据挖掘技术论文

论数据挖掘技术在电子文件管理中应用的必要性与可行性,本文主要内容关键词为:必要性论文,可行性论文,文件管理论文,数据挖掘论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

电子文件的数量在办公自动化的带动下呈几何级数增长,今后将逐渐成为档案的重要组成部分。作为信息管理自动化进程关键技术的数据挖掘技术在电信、石油、金融等领域得到了广泛的应用,为相关领域的自动化和智能化作出了重大贡献。电子文件与数据挖掘技术的结合,弥补了现有电子文件管理中效率低和利用服务质量差的缺陷,在完善电子文件管理流程、提高管理效率方面具有较大的影响作用。

一、电子文件管理现状及问题

随着信息技术快速发展和电子文件迅速普及,档案部门需要考虑如何更好地利用电子文件带来的机遇适应社会信息化的要求,提高档案管理质量和提升档案部门形象。电子文件作为数字化信息技术的产物,自诞生之日起,其载体与信息的可分离性、系统依赖性、载体的不稳定性等特点,让档案部门从纸质文件管理到电子文件管理这一转换过程充满了“艰辛”,并且在电子文件管理中表现出对新生事物不适应的现象。

1.采用“双轨制”管理方法,电子文件保管无保障

目前,我国多数地区对电子文件管理实行双轨制,而长远来看,双轨制并不适用于电子文件的管理,只是纸质文件管理向电子文件管理过渡的特殊背景下的权宜之策,其实质就是统一用纸质文件的管理方式来管理电子文件。但毕竟电子文件的属性与纸质文件大有不同,电子文件的特点决定了电子文件管理的前端控制要求是实质性的,甚至是强制性的。纸质文件的管理方式未对电子文件的形成单位进行必要的约束,也未对电子文件携带的信息进行规范,只是简单的接收和目录信息的录入,无法保证电子文件的凭证价值。据调查表明,10.3%的档案馆已经出现电子文件无法读取的问题;近三成的档案馆可以推断正处于风险之中;至少有37.9%的机构已经发生或者存在影响电子文件长期可读性的风险。①

2.电子文件管理系统的应用存在缺陷,管理处于低层次水平

电子文件管理系统是电子文件管理的重要工具,但电子文件管理系统并没有统一的规划标准,造成市面上推行的电子文件管理系统品牌多、质量参差不齐的现象,不利于地区的统一管理和区域性的数据共享;另一方面,因为软件端口模块设计不一,一些软件开发商退出档案管理软件市场后,系统无法升级,新系统数据无法拷贝识别,需要重复低层次的数字化劳动。面对这些阻碍,目前电子文件管理系统更多地只能以单机版为主,以满足眼前的电子文件管理工作,但单机版电子文件管理系统缺乏同办公自动化软件进行衔接的接口和网络拓展模块。随着档案信息化的深入,越来越多的文件和数据需要通过网络来传输和管理,若只是把原有手写工作转变为简单的电脑输入,并不能满足电子文件自动化与智能化的管理要求。

3.电子文件开发成果单一,服务水平较低

电子文件开发方法的类型主要有整理加工型开发、翻译转化型开发、研究评价型开发三种类型。这些方法的开发对象主要是停留在对档案本体的开发,目的是更好地为档案部门的管理工作提供便利,便于对馆藏进行综合开发或是研究档案工作状况,并未从档案利用者的角度来思考馆藏信息资源的开发。另一方面,电子文件数字化程度与其他商业领域的数字化资源相比,质量还有待提高。传统纸质档案的数字化大部分是通过扫描仪进行扫描,为公众提供扫描件全文以满足对档案信息资源的查阅需求,但无法对扫描的文件进行进一步的内容挖掘,无法更好地满足用户日益增长的信息需求。在检索方面,目前我国省级档案馆网站上提供的检索方式总体上检索功能低、易用性差,仅仅通过题名检索往往会得到过多不相干的检索结果,降低了检索的查准率和查全率。

二、数据挖掘技术在电子文件管理中应用的必要性

数据挖掘是从大量的集中数据中,发现隐含在其中规律性的,人们事先不知道的,但又是潜在有用的并且最终可被理解的信息和知识的非平凡过程。数据挖掘技术融合了数据库、人工智能、统计学、知识工程以及可视化等多个领域的理论和技术,它以一种全新的形式改变着人们利用数据的方式。数据挖掘技术应用于电子文件管理可完善电子文件管理流程,提高管理效率,更好地满足社会公众对档案的需求。其必要性主要表现为以下几个方面:

1.扩大收集范围,优化馆藏结构的需要

信息服务是档案工作的重要内容,信息资源是信息服务的基础,而信息技术是信息服务的保障。档案工作者可以通过用户的利用反馈信息,对用户在利用过程中发现的资源问题、提出的要求、意见、评价以及查询中被拒绝的情况进行关联分析,挖掘发现相关用户的兴趣点和相关领域的信息资源建设情况,并通过挖掘的结果来扩大档案信息资源收集范围,优化馆藏结构与质量,满足用户不同的档案需求。利用数据挖掘技术还可以很好地解决电子文件收集不到、收集不全、收集不实等问题,为接下来电子文件档案化管理提供结构化的文件集合。

2.提高整理效率,挖掘文件间联系的需要

数据挖掘技术在电子文件整理方面可以发挥其对数据自动分类、标引、联系等特长,还能通过自我学习根据实际接收到数据进行调整,最大程度挖掘电子文件间的联系。首先,通过数据的预处理来消除噪音,去除重份文件,对文件属性缺失、不一致和异常进行补充修正,对电子文件信息质量起到很好的控制作用。其次,通过关联分析进一步挖掘文件间的事由联系和历史联系,提取关联标识,自动赋予文件分类号和文件编号。最后,通过建立检索模型来描述文件间的关系,建立检索数据库。这样的处理节省了大量人工时间,并能有效地发现文件间的联系,为后面的鉴定、利用等环节提供支持。

3。提高鉴定效率,减少鉴定工作量的需要

电子文件的鉴定工作内容包括文件内容鉴定和技术鉴定。在电子环境中对文件的内容鉴定时,若按传统的方法直接对文件进行逐份审查,会使对单份文件的微观鉴定方法操作繁琐以及鉴定速度有限,加之文件太多,文件丢失风险大。数据挖掘技术可以根据整理阶段对文件提取的属性数据库和反映文件形成单位的职能、业务活动以及同其他文件联系关系的直观图表,来帮助档案工作人员初步判定文件价值;同时也可以通过挖掘软件对文件内容进一步提取文件摘要,从而更直观便捷地判断文件价值。在技术鉴定方面,整理阶段的文件属性的提取、补充、修改和对文件内容的提炼,可有效地检验文件的可读性、完整性和有效性。

4.提供个性服务,争取潜在客户的需要

档案工作者通过数据挖掘技术,可以收集用户的背景资料以及用户利用时的档案查询内容和浏览习惯,进行交叉对比,挖掘出相关背景用户、具有何种的查询内容及爱好,建立用户兴趣模型。同时对用户查考内容进行聚类和分类,按用户兴趣大小有次序地排列,并给出用户查找问题的相关内容以及感兴趣的文件。根据排列内容进行信息推送,为用户量身定制个性化的信息服务和提供高质量的电子文件,让用户足不出户就能享受档案部门的优质服务,从而为档案部门争取更多潜在的档案用户。

三、数据挖掘技术在电子文件管理中应用的可行性

经过多年的累积,我国各级各类档案馆在长期的业务工作中已经积累了相当多的电子文件,这为数据挖掘技术在档案管理中的应用奠定了坚实的基础。特别是经过多年的档案自动化、信息化建设,初步形成了档案馆馆藏及提供利用等方面大量的结构化或半结构化数据,克服了数据挖掘时须对大量不规范数据进行长时间的转换和整合这一障碍,使数据挖掘技术在电子文件管理中的应用成为可能。信息源的保证,让数据挖掘更集中于对数据进行分析,而不仅仅局限于对信息的清理和集成。这是数据挖掘技术在电子文件管理中应用的基础。此外,其可行性还表现为以下几个方面:

1.数据挖掘技术与电子文件管理发展趋势相符

随着我国现代化建设水平的不断提高,对于档案信息的需要不仅仅停留在现有层次(即以事务型信息为主,只能实现简单的检索和统计功能)。为了让现有的馆藏发挥出更大的经济价值和社会价值,就必须以电子文件为核心,充分利用现有档案信息数据,挖掘出这些数据中的隐含价值,把档案数据利用水平提高到更高的层次。这一目标的实现,仅靠普通的数据库技术应用是远远不够的,而数据挖掘技术正是一种深层次分析数据内部结构,更充分发挥数据作用的技术。数字档案馆作为在信息时代管理电子文件的新型组织形式,要求基于知识管理拓展档案馆各项功能,满足用户需求,并提供多样化、个性化的服务,这是未来档案馆发展的趋势。数据挖掘技术作为知识发现工具,在数字档案馆中不仅仅是一个数据分析工具,更是一个对各种信息技术进行协调、管理的方法和策略。数据挖掘技术能有效组织和发现数字档案馆所保存的电子文件中的各类知识,为数字档案馆的知识管理提供方法和途径,并整合各项信息分析技术为数字档案馆的各项决策提供支持。

2.数据挖掘技术日趋成熟

自1989年8月举行的第11届国际联合人工智能学术会议上出现KDD(Knowledge Discovery in Database)② 一词,经过多年的发展,数据挖掘技术已经成为一个相对成熟的技术体系。数据挖掘系统设计方面,从当初只能单机进行几个算法的独立应用,到现在数据管理和预言模型无缝集成具有高性能接口和良好的扩展性,并能够在网络环境下对高度异构性数据进行有效的多算法操作。实际应用方面,数据挖掘技术在银行业、零售业、电信业、保险业等行业有着深层次的应用,并取得了可喜的成绩。在图书情报领域,图书馆应用数据挖掘技术对用户借阅行为进行分析,为图书采购数量和分类提供依据。同时针对特定用户提供个性化服务。情报学界应用数据挖掘技术自动采集分析竞争情报信息,共享有价值的情报和解决方案,达到辅助决策的目的。这些成功的例子以及电子文件相关理论研究和实践经验,为数据挖掘技术的应用提供了可供借鉴的宝贵经验。

3.数据挖掘技术应用的探索已经开展

经过多年的探索实践和研究,我国的电子文件管理已取得一定的成就,但仍处于理论研究和不断尝试阶段。可以说,我国电子文件管理实践的发展道路就是对各项技术和理论的不断探索应用的过程。数据挖掘技术作为一门先进数据分析处理技术,已经被纳入电子文件研究者的视野,提出数据挖掘技术可用于解决电子文件管理中存在的技术问题,包括档案信息资源建设及其数字化、存储、压缩等等。在档案信息资源建设中,可通过数据挖掘技术分析馆藏数字资源体系构成,提高电子文件管理效率,并通过对电子文件利用率、有效性等指标的深入分析,帮助档案馆建立具备科学性、合理性的电子文件资源体系。在电子文件储存方面,数据挖掘技术作为一门数据分析处理技术,它能对各种大型数据库数据进行抽取、转换、分析和其他模型化处理,从中对关键数据进行管理,保证电子文件管理的有效性,如元数据管理就是数据挖掘技术在电子文件管理中的重要应用。

通过分析我们可以知道,电子文件在日常工作中起着举足轻重的作用,档案部门在电子文件管理中存在的矛盾急需解决。而数据挖掘技术为电子文件的全程管理提供了技术支持,能够很好地满足档案部门科学管理电子文件的需要,并能解决电子文件管理中存在的实际问题。档案部门也正开始积极探索数据挖掘技术在电子文件管理中的应用。我们有理由相信,今后数据挖掘技术会很好地应用于电子文件管理中,电子文件的管理也将会更加规范和安全。

注释:

① 张宁.我国电子文件管理现状调查与思考[J].档案学通讯,2008(6)。

② Fayyad U.Piatesky-Shapiro G,Smyth P.The KDD Process for Extracting Useful Knowledge Form Volumes of Data[J].Communications of the ACM,1996。

标签:;  ;  ;  ;  

数据挖掘技术在电子文档管理中应用的必要性与可行性_数据挖掘技术论文
下载Doc文档

猜你喜欢