基于变换流程的ECTL工具实现

基于变换流程的ECTL工具实现

张晓红[1]2004年在《基于变换流程的ECTL工具实现》文中研究表明近年来,随着全球性行业竞争的加剧,越来越多的企业对信息的需求不再满足于表面的数据参考,而需要在整合企业全部信息资源的基础上,获得数据的深层含义,来指导领导者的决策分析。但绝大多数企业目前最大的问题就是数据集中利用存在很大的困难,这主要集中表现在数据存储过于分散,形成很多信息孤岛;数据存储格式种类繁多,统一格式困难;历史原因遗留的数据冗余、沉淀、错误等不易将数据进行整合分析……企业只能处于管理数据的状态,不能上升到数据的深层挖掘来提取对企业发展有用的信息,而浪费了宝贵的信息资源。可见,数据源的整合是数据仓库、联机分析、数据挖掘的基础,数据整合的质量直接影响到上层数据利用的正确性,是数据综合利用中非常关键的一环。由于数据源的整合涉及到数据量非常大,我们无法完全依赖手工完成,这就需要一种数据源整合的工具来批量完成处理。但不同企业的数据资源状况都不同,如何能设计出一种以不变应万变的通用工具就是我们本文所要研究的问题。我们把数据源整合过程分解为数据的抽取(Extract)、清洗(Cleaning)、转换(Transformation)、装载(Loading)四个过程即ECTL过程,由于清洗和转换过程可以结合在一起完成,很多书籍和刊物,也将清洗过程并入转换过程,称之为ETL过程。这就是我们这个工具的名称ECTL工具的来源因由。ECTL产品在国内研发领域极不成熟,而且大都局限在数据库之间的数据转换方面,并无处理数据清洗的过程。国外产品不论从功能方面还是集成方面,都有了成熟完善的体系,但对于国内市场而言,国外产品应用过于复杂,很少有企业能够培养出灵活应用国外产品的专业技术人员,而多半需要依靠国内的项目实施商家提供整体打包服务;价格过于高昂,达到了国内商家无法承受的程度。因此,对于国内而言,迫切需要一种功能相对完善、可扩展性强、便于操作、价格适中的ECTL产品,来填补国内企业对数据整合的需求。从数据整合的技术方面来看,由于需要整合的数据源多种多样,处理过程也是千变万化,我们抛开以往的设计思路,不将系统的流程框架定死,因为如果将流程定死,首先我们不能穷极所有的需求组合,就会局限在一个固定的功能范围内,就走了目前国内一些ETL产品的老路子,只能实现某些功能,扩充的时候受到局限。我们的思路是设计出一个可以随具体情况进行变化的流程,这样就可以适应各种数据源的整合需求,形成一个真正通用的ECTL工具。具体实现中,我们将数据源整合的过程分解、细化,采用变换图来定义每次具体实现的流程,变换图中的节点用来进行数据的处理,边用来进行节点间数据的传输,采用变换类来实现节点的不同数据处理作用,这样一个可以随时定义装配的流程就实现了复杂的具体情况应用。在运行变换图的时候,我们采用流程驱动引擎来驱动运转,整体监控各个节点的运转状态,采用元数据来跟踪数据流的格式控制,产生日志文件以便校验整个过程的正确性。综合来看这种设计具有以下特点:1.ECTL过程是通过流程定义产生的;2.ECTL过程是由流程驱动引擎驱动运转的,前两点就决定了产品的灵活性、可重用性、扩展性;3.对数据的操作是基于元数据定义的;4.采取面向对象的设计方法可以方便的定义新的节点类,易于扩展节点实现的功能;5.每个节点都是独立的线程,流程驱动的线程与数据处理的线程相隔离,互不干扰运行稳定性好。这种设计不但可以适应复杂多变的数据源整合,更有意义的是我们对这个工具功能的扩展工作,只需依照规则添加不同的类,而不需要修订整个流程。对于用户来说,他们也将体会到工具的灵活性,因为在处理过程中用户的需求是不断增加的,当他们的需求有了变动的时候,只要通过修改变换图,增加变换类,就可以继承以前的所有工作成果,而不需要完全推翻旧有的工作重新开发。以上是本文对基于变换流程的ECTL工具实现的研究设计工作,目前这个工具已经可以实现简单的数据处理工作,实践检验,这个理论是可行的。这个基于变换流程的ECTL工具一旦通过扩充变换类添加了一些常用的数据转换功能,将马上可以应用在具体的数据仓库建设的项目中,我们可以通过项目继续扩充功能类,这样就可以在工程中不断完善产品,最终形成一个体系完善的通用ECTL产品。由于我们的产品可以随着数据仓库项目建设而在应用中进行,投入相对少,所以价格将会很有竞争力,而在服务方面由于产品本身的特性,可以继承用户的前期工作,避免了重复建设和投资,将会更受用户的欢迎,在经历了不断完善的过程之后,我们的产品将会有难以预料的市场竞争力。

万明成[2]2009年在《图像型垃圾邮件过滤技术研究》文中认为持续增长的垃圾邮件已严重威胁到人们的正常交流,为遏止垃圾邮件进一步扩散,学者们已提出大量垃圾邮件检测算法。目前,利用文本内容特征识别垃圾邮件是主要的检测手段,并被广泛应用于各种反垃圾邮件系统。为逃避此类系统的检测,垃圾邮件制造者将垃圾信息嵌入图像并以附件形式发送。导致几乎所有基于文本内容的反垃圾邮件工具失效,该类型垃圾邮件被称为“图像型垃圾邮件”。本文详细分析了这种新型垃圾邮件的特点,并深入探讨其检测方式。首先,对图像型垃圾邮件检测技术的现状作了综述。包括图像型垃圾邮件检测的难点、用于识别图像型垃圾邮件的图像特征、机器学习算法及算法性能的评价标准。利用图像特征识别图像型垃圾邮件是目前的主要途径,但已分析出的图像特征并未取得理想的识别效果。因此,本文主要工作在于挖掘出更理想的可用于识别图像型垃圾邮件的图像特征。含有大量文字是垃圾邮件图像的重要特征,为提取文字角点信息,提出一种适合于垃圾邮件图像的角点检测算法。首先利用彩色边缘检测算子和阈值分割算法获取图像边缘,然后采用一个圆形模板提取文字角点信息。边缘检测和阈值分割可以去除大部分干扰,圆形模板对文字方向不敏感。实验表明,新算法具有比SUSAN算法更好的角点定位效果,并可同时获取角点的近似角度值。利用所获取的角点信息,本文进一步提出一种改进的文本区域定位算法——ECTL。其核心思想是利用角点等边缘特征识别并去除非文字边缘,降低干扰边缘对文本区域定位的影响。实验表明,ECTL算法能够定位图像中96%的文本区域,精确率超过97.6%。最后,本文提出并实现了两种有效的图像型垃圾邮件检测算法。算法一利用ECTL算法定位图像中的文本区域从而提取文本区域特征,结合图像属性特征能够识别超过98%的图像型垃圾邮件。算法二无需定位文本区域,利用颜色和角点特征识别图像型垃圾邮件。实验表明,其识别精度略低于基于文本区域特征的图像型垃圾邮件识别算法。但提取每一幅图像的文本区域特征和属性特征约需400ms,而提取颜色和角点特征仅需112ms。相比之下,算法二的实时性更好。目前,两种算法均已作为重要的功能模块集成到自主研发的AONE反垃圾邮件原型系统中。

汪奇[3]2007年在《数据挖掘在笔记本电脑BTO生产计划中的应用研究》文中研究指明随着移动计算技术的发展,笔记本电脑应用日趋广泛,市场规模也不断扩大。影响笔记本电脑品牌竞争力的两个重要因素:面向客户个性化与需求快速响应成为笔记本电脑制造企业关注的焦点,由此笔记本电脑BTO制造模式应运而生。在实际情况中,由于受制于行业特有的不利状况,笔记本电脑BTO生产是通过一种“推拉”结合的生产模式来实现的,因此生产计划的准确性对该模式的正常运行至关重要。本文对某笔记本电脑制造企业的实际状况进行了调查,分析了该企业生产计划制定中的难点以及实现方式上的特殊性,提出了一种新思路,即用关联规则数据挖掘方法从企业ERP订单模块与PDM数据中提取有关电脑组件配置选择关联度的信息,辅助生产管理部门制定生产计划的思路,帮助企业改变过分依赖个人经验的状况,制定出更为科学、合理的生产计划。具体的工作有:1、根据笔记本电脑BTO生产计划的特点,对经典关联规则挖掘算法——Apriori算法进行了分组启发式改进并结合多最小支持度、增量更新改进,最终组合形成了一种综合算法,提高了实用性。2、设计实现了笔记本电脑组件关联规则挖掘系统,并对数据仓库的建立,数据ECTL以及数据挖掘结果的展示做了详细的阐述。3、结合实例解释了关联规则挖掘结果对生产计划的作用和意义,并介绍了一种基于马尔柯夫链的预测方法,用于电脑配置关联度变化趋势的预测。

卢兆辉[4]2005年在《大坝安全监测信息的数据挖掘应用平台技术研究》文中研究表明利用计算机实现大坝安全监测信息的智能管理和分析是大坝安全监测系统发展的趋势。数据挖掘是从大量的数据中提取隐藏在其中的有用的模式和知识的过程。本文结合国家自然科学基金重点项目“重大水工混凝土结构隐患病害检测与健康诊断研究”(50139030),对如何应用数据挖掘技术处理大坝安全监测信息进行了研究。主要研究内容如下: (1) 分析了大坝安全监测信息的数据挖掘处理过程和数据挖掘系统的结构特点,构建了大坝安全监测信息的数据挖掘应用平台,对系统的主要构件进行了探讨。 (2) 研究了大坝安全监测信息的数据仓库的体系结构、数据建模方式和实施方法;探讨了监测信息的数据预处理技术,在此基础上,设计了规则过滤算法,实现了监测数据的初步筛选;此外,为有效地减少待处理的数据量,还研究了特征选择技术中的Chi2算法。 (3) 研究了时序数据库的相似序列挖掘方法,并根据待处理的大坝监测信息特征,提出了子序列匹配的极值匹配法。结合具体工程,对改进的挖掘算法进行了验证。 (4) 探讨了数据可视化和可视化数据挖掘技术,给出了多维数据可视化的箱式图和平行坐标表示法;同时研究了大坝安全监测信息的实效图的绘制方法,并研制了相应分析程序。

陈俊[5]2009年在《基于DSP的汽车视觉系统研究》文中研究表明作为一种融合多学科知识的新技术,计算机视觉技术随着计算机技术和数字成像技术的发展,正广泛应用于科学技术、国防建设、航空宇航、智能交通以及国民经济的各个领域。视觉技术在汽车上已成为智能感知车况最重要的技术手段之一,视觉技术在汽车上的应用将是近两年的热门课题。本文首先论证了基于DSP的汽车视觉系统研究的必要性,技术可行性和发展前景,结合DSP技术和机器视觉技术基础理论知识,介绍了系统的组成和实现方案。根据视觉系统的性能要求,选取了TI的最新Davinci系列芯片TMS320DM6437为核心处理器。本文在视频图像处理方面,对比分析现有的图像处理技术,结合道路图像特点,并通过编程实验结果对比,研究适合满足我们所需要的算法,或者是基于现有经典算法上的改进。结果表明,在识别结构化道路车道线时平均处理速度约为23.40ms/帧,算法具有快速、稳定、准确的特性。本文结合摄像机成像模型定义了自己的坐标系系统。为了简化模型,本文在研究的过程中假定摄像机安装时在汽车中轴线,并且没有水平偏向角度。在此基础上,我们实现了图像坐标系与世界坐标系之间的转换,提取了车辆在当前车道中的位置和方向参数信息、实现了障碍物检测与定位。最后具体就系统的硬件和软件的实现的各环节做了大致的介绍,其中还包括系统的引导方式、DSP程序优化、程序烧写等。

佚名[6]2001年在《德国标准(DIN)题录(中)》文中进行了进一步梳理J 机械 J01 技术管理DIN 32869-1998 技术产品文献.叁维CAD(计算机辅助设计)模式.图示要求DIN EN 61346-1-1997 工业系统、装置、设备和工业产品.组构原则和参考命名.第1部分:基本规则DIN EN 61346-2-2000 工业系统、装置、设备和工业产品.结构原则和参考命名.第2部分:物品分类和分级编码DIN EN 61355-1997 工厂系统和设备文献的分类及名称与符号DIN ISO 10209-4-2000 技术产品文献.词汇.第4部分:与建筑文献有关的条目DIN ISO 13567 Bb.1-2000 技术产品文件.CAD层的组织和命名.第3部分:ISO 13567-1和ISO-13567-2的应用DIN V 19259-2-1999 设备文献.调节阀用带分类示意图的数据类型

林蒋[7]2010年在《基于文字输入的叁维场景生成》文中研究表明自然语言是人类智慧和社会独特而重要的一部分。有理由相信对于自然语言自动处理和理解的技术将在人们的日常生活中起到极大的作用。并且目前确实存在这方面的大量应用。比如,语言自动翻译技术能够帮助人们获取用其本身不熟悉的语言表示的信息;语法自动分析技术帮助人们在写作时避免语法错误;自动摘要技术将大量的信息精炼为关键内容帮助人们节省阅读的时间。除了这些领域,自然语言处理技术在其它领域也有重要的应用,其中一个就是文字到叁维场景的自动转换。早期艺术家使用计算机创作艺术作品大部分是采用手工方式完成,这种手工方式可能造成艺术创作过程枯燥,费时和费力的。而基于文字输入的叁维场景生成正是将这种艺术创作过程自动化,使人们从繁复的软件学习和操作中解脱出来。除了在艺术创作方面,文字到叁维场景的生成在其它方面也有应用,如交通事故仿真,智能体在叁维虚拟世界漫游等。这种应用背景使得它不但对于娱乐业和广告业具有巨大的商业价值,而且今后将会成为在教育和交流方面有用的表达工具。当前,文字到叁维场景生成的难点其一是在于对文字的理解上,由于人类的语言丰富,往往一个单词或一个短语在不同的语境下有不同的词性和含义。因此,准确的理解文字需要结合文字所描述的上下文,而对上下文环境做出正确的理解又需要庞大的知识库。其二在于从文字生成可视化场景在于基本的思想简单,但是具体的方法和步骤不固定,每一个文字到场景生成过程中的算法和数据结构不明确,任何合理的做法都是可能的。其叁,由于现实世界的物体种类是丰富多样,物体的动作形态等也是差别很大,因此,要想精确的表达各类对象,在模型数据库中必须保存有大量的模型,并对模型进行预处理,这个过程工作量是巨大的。针对以上问题,本文对文字到叁维场景生成进行研究,以相关理论为依据,提出不同于前人的文字到叁维场景的实现过程,并在本系统中实现了它。在文本分析处理过程中,本文提出了上下位关系查询方式和指代词消除算法。在场景渲染中,定义了场景描述文件,收集3D模型,提出模型预处理步骤和方法,参照全文检索原理,提出获取属性信息的属性匹配度算法,并在场景组织中提出路径规划的方法。

宁会峰[8]2012年在《珩磨加工中在线气动测量与尺寸控制技术研究》文中进行了进一步梳理珩磨是磨削加工中一种特殊高效的精加工方法,国产珩磨机无论制造水平、加工精度、还是控制方式等与国外珩磨机相比都存在着较大差距,难以满足高尺寸精度、高形状精度和高度自动化的实际要求,高加工精度、高自动化的数控珩磨机研发及其关键技术的研究成为我国先进制造装备领域的重要研究内容之一。在线测量是数控珩磨机的重要组成部分,是形成珩磨机闭环控制系统的必需环节,也是控制珩磨孔加工尺寸分散度、提高形状精度,保证加工质量的有效手段。本文以流体力学理论为基础,结合珩磨加工的特点,提出了基于差压式在线气动测量的珩磨加工精度控制的思想,重点研究了测量元件及实际工况对测量精度的影响,在获得高精度测量结果的基础上,通过尺寸预报和在线圆柱度监控分别保证珩磨加工的尺寸精度和形状精度,实现珩磨加工全过程测量。主要研究内容如下:1.以流体力学理论中的流体运动基本方程为基础,针对珩磨气动测量的特殊应用条件,建立了曲面挡板机构测量模型,提出了当量间隙的概念,建立了差压式气动测量时测量腔的背压在四种工况下的数学模型;确定了当被测工件直径和测量喷嘴外径与测量精度在曲率阈值范围内时,采用本文推导所得方程能够有效提高测量精度;同时,从提高珩磨加工尺寸精度和形状精度的角度,制定了基于气动在线测量的加工尺寸控制策略,明确了将圆柱度作为珩磨加工中形状精度控制的指标。曲面挡板条件下的气动测量数学模型和珩磨加工精度控制策略的建立是本文后续研究的基础。2.以双进给珩磨头为研究对象,采用理论分析和FLUNT仿真相结合的方法,研究了珩磨头的结构参数和护板参数对测量精度的影响。研究结果表明,主喷嘴的直径影响测量范围,而测量喷嘴直径影响测量系统的分辨率;测量喷嘴外径和长度选择不当会造成测量不稳定,测量喷嘴下沉量与加工余量、测量系统的初始间隙有关;护板倒圆角后能够明显改善测量过程中流场的稳定性。本文提出的珩磨头测量元件结构参数的设计原则,为高精度测量珩磨头优化设计提供了理论依据。3.利用流体仿真软件FLUENT,对珩磨实际工况下气动测量的精度与珩磨液之间的关系进行了仿真研究,验证了在湿珩状态下,珩磨液在环形窄缝中为层流状态;通过仿真获得了珩磨液在不同温度和粘度条件下的△p-S曲线,确定了当工况温度小于35℃,珩磨液运动粘度在5-8cst(40℃)范围内,可以取得放大倍数和线性范围的最佳值;气动测量的精度与珩磨液参数之间关系的确定为珩磨加工中合理地确定珩磨液,提高测量精度提供了理论依据。4.从珩前工件宏观形状误差和粗珩加工中引起圆柱度误差的原因入手,研究了珩前工艺、加工余量、珩磨进给速度、冲程、工件装卡方式等因素对工件圆柱度的影响,提出了珩磨加工中控制工件圆柱度误差的整体策略;提出了叁截面法和斜率法判定珩前工件宏观形状;提出了在全行程珩磨中结合最小二乘法和二分法、基于投影的圆度最小二乘法两种圆柱度评定模型,并通过仿真验证了两种模型的优缺点和适用范围,确定了结合最小二乘法和二分法模型可以用于珩磨加工在线圆柱度监控。通过珩前宏观形状判定和粗珩中圆柱度监控实现了对珩磨加工中工件形状误差的有效控制。5.以珩磨加工中加工尺寸序列为研究对象,验证了等维递补预报的预报精度较高,并确定珩磨加工条件下预报模型的最优维数为15维;提出了采用去除畸数据的方法抑制维数对精度的影响,有效解决了灰色预报模型维数不易确定的困难;提出了基于灰色模型和时间序列预报模型的组合预报模型SGM(αt,S0,t,1,1),有效避免了单一模型的局限性,抑制了单一模型的参数对预报精度的过多影响。仿真结果表明在本文所列各种预报模型中,组合预报模型最具有实际使用价值,为珩磨加工尺寸预报模型的建立提供了理论依据。

田隆[9]2010年在《基于财务数据中心的商业智能平台设计与实现》文中研究指明商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力,促使他们做出对企业更有利的决策。随着信息技术和通讯技术的迅速发展,ERP已经应用到中国的许多企业中。中国航天科技集团在十余年的信息化过程中,ERP系统在业务处理过程中产生了大量数据,这些数据对指导企业发展有着巨大的应用价值。随着企业规模的不断扩大,市场竞争的不断加剧,企业的运营分析层如何把正确的信息、在正确的时机、提供给相应的决策层,以及决策层如何及时准确地获得必要的决策参考信息等问题将成为一个紧迫而复杂的课题。基于财务数据中心商业智能系统的建设,将改善财务分析深度与广度,实现对账务数据全面、准确的梳理和分析,辅助财务管理工作,加强财务内部控制,增强“信息的可视性”,以直观的方式将集团的经济运营情况从多个维度、多种数据综合程度展现出来,给决策层提供决策支持。本论文运用BI技术解决航天科技集团公司决策支持的问题。首先从商业智能在集团公司财务部门的应用背景出发,指出建设商业智能平台的必要性和可行性;其次,将ERP和其他事务处理系统中的原始数据经过抽取、清洗、转换,加载到数据仓库中,构成面向主题的、集成的、时变的数据仓库,有效地实现集团公司各级单位财务信息的整合、共享,实现及时准确的财务分析,为集团公司的管理决策提供及时可靠的参考信息依据;最后,根据集团公司财务分析的需求开展具体研究工作,运用数据仓库、OLAP和数据挖掘技术将集团公司现有的财务数据转化为知识,完成基于集团财务数据中心的商业智能平台的解决方案。

张俊泽[10]2007年在《数据挖掘在石油行业资金管理中的应用》文中进行了进一步梳理数据挖掘又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘方法有多种,其中比较典型的有关联分析、聚类分析、预测分析和相关性分析等等。本文重点研究了数据挖掘的原理和技术手段,以及其在中国石油天然气股份有限公司的应用。首先,文章对数据挖掘的基本知识进行了介绍,描述了数据挖掘的研究内容、功能以及数据挖掘的过程模型。并介绍了一些常用的数据挖掘工具。其次,文章对中国石油天然气股份有限公司资金管理分析系统进行了简单的介绍。包括了实施资金管理分析系统的背景以及资金管理分析系统的各个模块的基本功能。最后,文章具体介绍了数据挖掘在资金管理分析系统中的应用案例。具体包括:1介绍了聚类分析在票据管理分析系统中的应用,运用聚类分析对各个地区公司进行聚类,对那些信用度较低的地区公司提出预警,以此来规避资金运行的风险。2介绍了时序演变分析在资金计划中的应用,首先运用灰色预测、指数平滑和灰色马尔科夫预测等时序演变分析的方法对资金运行状况进行预测分析,而后为了提高预测的精度,本文最终采用了组合预测的方法对资金运行进行预测分析,并展示了预测分析的各种图表。

参考文献:

[1]. 基于变换流程的ECTL工具实现[D]. 张晓红. 吉林大学. 2004

[2]. 图像型垃圾邮件过滤技术研究[D]. 万明成. 电子科技大学. 2009

[3]. 数据挖掘在笔记本电脑BTO生产计划中的应用研究[D]. 汪奇. 浙江工业大学. 2007

[4]. 大坝安全监测信息的数据挖掘应用平台技术研究[D]. 卢兆辉. 河海大学. 2005

[5]. 基于DSP的汽车视觉系统研究[D]. 陈俊. 武汉理工大学. 2009

[6]. 德国标准(DIN)题录(中)[J]. 佚名. 世界标准信息. 2001

[7]. 基于文字输入的叁维场景生成[D]. 林蒋. 山东大学. 2010

[8]. 珩磨加工中在线气动测量与尺寸控制技术研究[D]. 宁会峰. 兰州理工大学. 2012

[9]. 基于财务数据中心的商业智能平台设计与实现[D]. 田隆. 北京信息控制研究所. 2010

[10]. 数据挖掘在石油行业资金管理中的应用[D]. 张俊泽. 天津大学. 2007

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于变换流程的ECTL工具实现
下载Doc文档

猜你喜欢