基于Hadoop大数据架构的论文_刘志宏1,马克2,邬馗星3,张继东3,傅晓军4,陈

1.国电电力发展股份有限公司 北京 1001012.国电内蒙古东胜热电有限公司 内蒙古鄂尔多斯 0170003.国电浙江北仑第一发电有限公司 浙江宁波 3158004.国电电力发展股份有限公司浙江分公司 浙江杭州 310007

摘要:针对燃煤火力发电厂,建设基于hadoop大数据平台的大数据中心,采集、整理、汇聚数据。在hadoop大数据平台的基础上,建设涵盖智慧型生产、经营、发展、党建等全领域的信息管控一体化平台和智慧管控中心,实现各业务板块的生产监视、智能设备状态监测、智能故障诊断、智能运行保障、生产数据分析等功能。结果表明,基于hadoop大数据架构的火电厂信息管控一体化平台包括大数据平台、消息中间件kafka、可视化BI报表、一体化软件开发平台、人工智能算法平台。基于hadoop数据库,融合来自不同已建信息系统的实时数据库(包括PI、EDOS、庚顿等主流实时数据库)、关系数据库(包括Oracle、SQLServer、MySQL等)、列式数据库、半结构化数据、Hive数据仓库,实现数据资产的集中统一管理,为大数据应用和数据分析计算模型提供标准化的数据资源。智慧管控中心采用大屏监视的手段,是大数据应用和各业务数据链条集中展示的平台,利用信息管控一体化平台对数据进行分析、挖掘和展示。

关键词:燃煤火力发电;hadoop大数据库;大数据治理;全过程智能化;信息管控一体化;智慧管控中心

1引 言

传统的燃煤火电厂信息管理为了充分利用和挖掘数据的价值,消除信息孤岛,一般采用不同信息子系统开放数据接口的形式来进行数据共享和调用[1-4]。事实证明仅仅开放数据接口,以期望打通不同信息系统、不同数据库之间的联系,实现数据的深度挖掘和利用,是一条失败的道路[3-6]。因为来自不同信息系统数据的类型、标准、格式、定义、单位、更新频率均有较大的差别,很容易发生数据的错误调用[6-8]。因此,有必要深度应用hadoop数据架构来兼容不同类型的数据,使用标准化、自动化、数字化、信息化、智能化等手段,打造涵盖智慧型生产、经营、发展、党建等全领域的综合平台,形成具有“自分析、自诊断、自管理、自趋优、自恢复、自学习、自提升”特征的以大数据为核心的智慧企业生态系统。

针对燃煤火力发电厂,建设基于hadoop大数据平台的大数据中心,采集、整理、汇聚数据。在hadoop大数据平台的基础上,建设涵盖智慧型生产、经营、发展、党建等全领域的信息管控一体化平台和智慧管控中心,实现各业务板块的生产监视、智能设备状态监测、智能故障诊断、智能运行保障、生产数据分析等功能。本研究的成果有助于了解hadoop大数据架构和平台在火电厂数据中心和管控中心的应用方式和效果,通过基于大数据的数据集中、挖掘,实现集团本部与分子公司数据和业务的互联互通、智能处理和智能协调。

2Hadoop大数据平台和大数据中心

以国电内蒙东胜热电公司数字化电厂建设为例,进行分析。基于hadoop大数据架构的火电厂信息管控一体化平台包括大数据平台、消息中间件kafka、可视化BI报表、一体化软件开发平台、人工智能算法平台。

Hadoop大数据平台采用基本Hadoop集群服务,作用是数据的收集、汇总、清洗、融合和治理,对各种数据格式、数据库类型均能广泛兼容和支持。Hadoop大数据平台采用开源Apache Hadoop组件,能提供上层所有应用资源管控集群,分布式存储与计算等功能,支持集群维护和文件数据分布管理等基本集群的服务能力。

大数据平台的组件类型包括实时计算组件(Kafka消息队列、Steaming流处理),数据存储与管理组件(Kudu存储、HDFS存储、HBase存储),数据集成组件(Sqoop数据组件),数据分析组件(Mllib分析组件、Mahout分析组件)等。表1示出大数据平台包括Hadoop及架构系统(HDFS/MapReduce/Yarn)、Kudu、Impala、Spark、Kafka、Sentry、Oozie 等组件。

表1 大数据平台的组件和架构系统

基于hadoop数据库,融合来自不同已建信息系统的实时数据库(包括PI、EDOS、庚顿等主流实时数据库)、关系数据库(包括Oracle、SQL Server、MySQL、PostgreSQL等)、列式数据库、半结构化数据、Hive数据仓库,实现数据资产的集中统一管理,为下一步大数据应用和数据分析计算模型提供标准化的数据资源。大数据平台能支持常见的csv、excel、json、txt、LDAP、XML等多种文件格式的数据接入。

实时数据由各种运营设备产生,经过生产现场数据采集器进行采集,并写入生产现场实时数据库。实时数据经由厂级的实时数据库,通过Kafka或其他适配器等方式,推送至Hadoop大数据平台,进行存储、分析,为机器学习、模型应用开发提供数据基础。

Hadoop大数据平台与开源的Hadoop基础平台应具有一定的兼容性,包括:

(1)版本兼容。Hadoop基础平台应采用当前最成熟技术的Hadoop软件产品,并符合未来大数据技术的发展潮流,Hadoop基础平台要基于开源Apache Hadoop2.6以上版本开发。

(2)组件兼容。Hadoop基础平台应为正式发布的经客户验证的商业版本,平台软件组件应至少包含与开源Hadoop框架中HDFS、Kudu、YARN、MapReduce、ZooKeeper、Spark、impala、Flume、Hive、Sqoop、Kafka等组件。

(3)数据格式兼容。保证数据存储格式与开源版本兼容。安装其他第三方Hadoop生态圈的模块,如Impala、Spark、Kudu等开源组件,能读取已经存储在HDFS的文件数据,无需格外数据格式转换或拷贝。

(4)接口兼容。在技术接口上与原生Hadoop系统保持功能、参数、返回值等兼容,在相对应版本Apache社区Hadoop或商用Hadoop平台上运行相同应用代码正确执行后结果相同,要求满足切换厂家产品无需改动代码。

(5)程序包兼容。系统部署后的开源组件程序包与开源版本兼容,用户自行基于开源社区版本的代码改动,以及用户或第三方社区中补丁能直接覆盖使用,无需厂家干预,从而能快速提供补丁修复和功能增强,也使得第三方运维变得可行。

(6)硬件兼容。Hadoop基础平台应该能够支持主流厂商的X86服务器平台,如:联想、惠普、戴尔等品牌X86服务器。系统存储支持基于X86服务器平台的本地磁盘存储。

(7)系统兼容。Hadoop基础平台应该支持Linux的主要64位发布版本,Hadoop基础平台应该支持最新JDK版本。

(8)第三方工具兼容。Hadoop大数据平台应具有较好的第三方工具兼容性。

Hadoop大数据平台对外接口的要求包括应保持与开源Hadoop及相当架构系统各服务组件的API接口功能、接口类型(C#、Java、Python、Rest等)、接口名称、输入参数、返回结构等一致。

3Hadoop大数据平台功能和架构特点

Hadoop大数据平台的功能包括分布式存储、分布式计算、实时流处理、数据管理、安全管理、支持数据分析和机器学习等。基于Hadoop大数据架构的分布式存储功能特点包括:

(1)基于业内广泛使用的高效分布式存储架构,可存储任意容量,任意数据类型的数据;

(2)没有单点故障,提供成熟的高可用性方案,并可以直接图形化配置;

(3)支持分层,多种存储介质的异构分布式存储架构,有效利用内存、SSD等存储介质的性能优势以及传统磁盘的容量成本优势;

(4)支持多种访问模式,包括NFS,HTTP,原生API等;

(5)提供完善的图形化文件管理工具,具有查看、编辑、删除等功能;

(6)提供快照功能,防止误删除文件;

(7)支持多租户情况下数据管理;

(8)支持Kudu存储引擎;

(9)支持impala引擎对kudu访问;

(10)提供高可靠的分布式关系型存储Kudu;

(11)基于业内广泛使用的分布式关系型存储,可按关系型二维表存储数据;

(12)支持关系型数据的增删改查功能,并能秒级进行大数据操作;

(13)支持多种访问模式,包含原生API等;

(14)支持与MapReduce、Spark和Impala等的集成;

(15)支持高并发数据访问和高吞吐。

基于Hadoop大数据架构的分布式计算框架特点包括:

(1)支持Spark、MapReduce计算框架;

(2)支持Hive、Pig等批处理技术;

(3)统一的资源管理:具有统一的资源管理器,实现统一的资源监控、分配与部署管理,在不同组件间进行资源分配;

(4)动态资源管理,支持多租户情况下资源动态分配。

基于Hadoop大数据架构的数据分析和机器学习特点包括:

(1)提供各类数据挖掘和机器学习算法,并提供扩展接口;

(2)提供和业内主流统计分析和机器学习工具的兼容性。

4信息管控一体化平台和智慧管控中心

智慧管控中心采用大屏监视的手段,是大数据应用和各业务数据链条集中展示的平台,侧重于数据的分析、挖掘和展示。采用深度学习算法和机器算法等手段,进行数据分析和挖掘。采用可视化报表等手段或工具,集中展示数据报表和分析结果。

软件开发平台提供图形化的操作界面,用户通过拖拽点击等操作,即可完成流程的设计和参数的配置,无需繁琐的编码过程。软件开发平台内设多种类型的示例流程,自动化校验及开发过程,引导用户完成流程开发。

5结 论

针对燃煤火力发电厂,建设基于hadoop大数据平台的大数据中心,采集、整理、汇聚数据。在hadoop大数据平台的基础上,建设涵盖智慧型生产、经营、发展、党建等全领域的信息管控一体化平台和智慧管控中心,实现各业务板块的生产监视、智能设备状态监测、智能故障诊断、智能运行保障、生产数据分析等功能。结果表明:

(1)基于hadoop大数据架构的火电厂信息管控一体化平台包括大数据平台、消息中间件kafka、可视化BI报表、一体化软件开发平台、人工智能算法平台。

(2)大数据平台的作用是数据的收集、汇总、清洗、融合和治理,对各种数据格式、数据库类型均能广泛兼容和支持。

(3)Hadoop大数据平台的组件类型包括实时计算组件(Kafka消息队列、Steaming流处理),数据存储与管理组件(Kudu存储、HDFS存储、HBase存储),数据集成组件(Sqoop数据组件),数据分析组件(Mllib分析组件、Mahout分析组件)。Hadoop大数据平台的功能包括分布式存储、分布式计算、实时流处理、数据管理、安全管理、支持数据分析和机器学习等。

(4)Hadoop大数据平台与开源的Hadoop基础平台应具有一定的兼容性,包括版本兼容、组件兼容、数据格式兼容、接口兼容、程序包兼容、硬件兼容、系统兼容和第三方工具兼容。Hadoop大数据平台应具有较好的第三方工具兼容性,包括兼容主流的数据库、主流ETL工具、可视化工具和数据挖掘工具。

(5)智慧管控中心采用大屏监视的手段,是大数据应用和各业务数据链条集中展示的平台,利用信息管控一体化平台对数据进行分析、挖掘和展示。

参考文献:

[1]贺舒婷,朱贤伟,叶启明,翁天天,赵俊杰.火力发电企业EAM系统运行效率分析及优化[J].移动信息,2016,10(10):58-60.

[2]沈跃军,马克,崔畅元,周健,兰俊生,赵俊杰.大数据与逻辑故障树在火电厂故障诊断中应用[J].电力设备,2018,(10):62-63.

[3]张毅龙,王齐,任晓敏,尹进新,胡伟,赵俊杰.基于两个细则的AGC性能优化控制策略研究[J].电力设备,2017,(34):373-374.

[4]任晓敏,宋华,张毅龙,隋晓华,高殿波,赵俊杰.330 MW空冷火电机组降低厂用电率的措施研究[J].防护工程,2018,(9):232.

[5]庞冬冬,吕越,牛磊,李洪山,赵俊杰.330 MW火电机组汽轮机保安系统控制分析与优化[J].防护工程,2017,(27):198-199.

[6]沈跃军,马克,周健,马俊峰,张毅龙,赵俊杰.基于逻辑故障树的智能DCS早期预警建模与应用[J].防护工程,2018,(9):470,472.

[7]王金浩,陈伟巍,陈铮,卢珏,张学丽,赵俊杰.1000 MW机组输煤控制系统通讯网络升级优化改造[J].防护工程,2018,(2):293-294.

[8]李孟周,伏劲宇,杜杰,张毅龙,兰俊生,赵俊杰.燃煤火电集控运行精益化管理提升策略研究[J].电力设备,2017,(34):230,232.

论文作者:刘志宏1,马克2,邬馗星3,张继东3,傅晓军4,陈

论文发表刊物:《基层建设》2019年第29期

论文发表时间:2020/2/24

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于Hadoop大数据架构的论文_刘志宏1,马克2,邬馗星3,张继东3,傅晓军4,陈
下载Doc文档

猜你喜欢