基于大数据技术的用电信息采集分析系统的设计与实现

基于大数据技术的用电信息采集分析系统的设计与实现
基于大数据技术的用电信息采集分析系统的设计与实现

硕士专业学位论文

基于大数据技术的用电信息采集分析系统的设计与实现Design and Implementation of Electro-Information Collection and Analysis System Based on Big-Data Technology

作者: XXXX

导师: XXXX

北京交通大学

2015年12月

学位论文版权使用授权书

本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。

(保密的学位论文在解密后适用本授权说明)

学位论文作者签名:导师签名:

签字日期:年月日签字日期:年月日

学校代码:10004 密级:公开北京交通大学

硕士专业学位论文

基于大数据技术的用电信息采集分析系统的设计与实现Design and Implementation of Electro-Information Collection and Analysis System Based on Big-Data Technology

作者姓名:XXX 学号:XXXX

导师姓名:XXXX 职称:XXXX

工程硕士专业领域:软件工程学位级别:硕士

北京交通大学

2019年6月

致谢

摘要

大数据概念兴起于互联网行业,随后在能源行业引起关注,主要特点是数据规模量级高、类型多样化、增长速度高。大数据技术是实现大数据采集、存储、统计分析、展现等过程的新一代数据处理技术。用电信息采集系统,是在电力行业对用电客户的用电信息进行采集、处理和监控的系统,是为实现用电管理和智能用电而建立的辅助系统。

本论文论述的是如何运用大数据技术实现新型用电信息采集分析系统过程,不包含智能采集终端等硬件设备的设计与应用,研究目的是实现将来自互联网行业的新兴技术应用于传统能源行业。本论文描述的系统全名为基于大数据技术的用电信息采集分析系统,本系统总共分为五个模块,包括数据接入转发、实时计算、数据入库存储、数据统计分析和可视化展示。本人长期从事软件设计开发工作,负责其中数据接入转发模块、实时计算模块与数据入库存储三个模块的设计与实现:

(1)数据接入转发模块

地市级计量自动化系统将计量数据和电能量信息以二进制的形式上传到省级中心系统,上传周期为15分钟,每个周期的数据容量大于10GB。本模块通过分布式处理技术Kafka,在一个上传周期内完成数据接入、存储并转发,同时本模块实现了数据出错重发机制。

(2)实时计算模块

本模块使用分布式流计算引擎Storm,在数据接入转发模块转发信息的基础上,实现四分线损统计、供电质量统计、供售电量统计、供电时间统计业务逻辑。本模块能够通过简单操作增加计算节点,扩充系统的处理能力。

(3)数据入库存储模块

本模块将数据快速安全地存储于分布式数据库HBase与分布式文件系统HDFS(Hadoop Distributed File System)中,并快速读取。

经测试和模拟数据验证,本系统在大数据技术架构基础上,完成用电信息采集系统五项功能。

功能之一:通过分布式、数据持久化接入组件,本系统实现了海量用电客户用电数据实时可靠的接入。

功能之二:通过分布式流式业务处理组件,本系统实现了阶段性电量计算、四分线损统计等实时计算功能。

功能之三:基于HBase分布式数据库和HDFS分布式文件系统,本系统实现了分布式存储,数据根据实际情况选择存储方式。

功能之四,结合机器学习算法库与MapReduce分布式计算框架,本系统实现用电客户用电行为分析等离线分析挖掘。

功能之五,本系统实现了数据处理过程完全可视化以及系统组件的实时监控。关键词:分布式;用电信息;采集;分析;大数据技术

ABSTRACT

Big data is a concept that’s on the upgrade in the internet industry at the outset, and then caused concern in the energy industry, which main feature is the high-level scale of the data, the diversifications of the data type, the high growth rate. Big data technology is a new generation of data processing technology, realizing collection, storage, statistical analysis, display of big data and so on. Electro-information collection and analysis system is a system for collecting, processing and monitoring the electricity information that’s from electricity customers, as an assistant system assisting for the power management and intelligent use of electricity.

This paper discusses how use big data technology to achieve a new type of electro-information collection and analysis system, does not include the design and application of hardware devices such as intelligent acquisition terminal, which purpose of the research is to apply the new technology in the traditional energy industry. The full name of this system is design and implementation of electro-information collection and analysis system based on big-data technology, which is divided into five modules, including data access and forwarding, real-time calculation, data storage, data analysis and data visualization display. The author is engaged in the design and development of software for a long time, so is responsible for the design and implementation of data access and forwarding module, real-time calculation module and data storage module of three modules:

(1)Data access and forwarding module

The measurement automation system on the city level would upload measure data and energy information in binary form to the provincial center system. Data capacity produced in each upload cycle which is 15 minutes is greater than 10GB. In this module, through the distributed processing technology named Kafka, the system completes data access, storage and forwarding in an upload cycle. At the same time, the module supply data retransmission function.

(2)Real-time calculation module

This module uses distributed stream computing engine named Storm after data access forwarding module, according to the forwarding information to complete four loss statistics, statistics of power supply quality, for electricity sales statistics, power

supply time of statistical calculation. This module can be used to increase the processing capacity of the system, which can be used to increase the computing nodes.

(3)Data storage module

This module puts data stored quickly in HBase that is a distributed database and HDFS (Hadoop Distributed File System) that is a distributed file system, and gets data from them quickly.

Proved by test and verification with simulation data, this system based on the big data technology structure, completes five functions of electro-information collection and analysis system.

The first function: Through a distributed, data persistent access component, this system archives the real-time and reliable access from massive user electricity data.

The second function: Via a distributed flow type business processing component, this system achieves stage power calculation, four-ins line loss statistics real-time calculation function.

The third function: Based on distributed database HBase and distributed file system (HDFS), this system owns distributed storage function, according to the actual situation to select method of data store.

The fourth function: Combined with the libraries of machine learning algorithm and distributed computing framework named MapReduce, this system achieves the off-line analysis such as electrical behavior analysis of electricity users.

The fifth function: This system achieves visualization of the whole process and the real-time monitoring of the various components in this system.

KEYWORDS:Distributed; Electric information; Collection; Analysis; Big data technology

目录

摘要 ................................................................................................................................ III ABSTRACT ..................................................................................................................... V

1 引言 (1)

2 相关理论及技术综述 (6)

2.1 大数据存储分析HBASE+HIVE、HDFS+MAPREDUCE (6)

2.1.1 数据库HBASE (7)

2.1.2 数据仓库工具HIVE (7)

2.1.3 文件存储系统HDFS (7)

2.1.4 并行运算工具MAPREDUCE (7)

2.1.5 四种技术使用方式 (7)

2.2 流数据处理引擎STORM (8)

2.3 分布式消息中间件KAFKA (8)

2.4 分布式协调系统ZOOKEEPER (9)

2.5 远程过程调用服务THRIFT (9)

2.6 本章小结 (9)

3 需求分析 (11)

3.1 整体性需求概述 (11)

3.2 功能性需求分析 (11)

3.2.1 数据接入转发 (11)

3.2.2 实时计算 (14)

3.2.3 数据入库存储 (23)

3.3 非功能性需求分析 (24)

3.3.1 技术路线 (24)

3.3.2 性能要求 (25)

3.3.3 扩展性要求 (25)

3.4 本章小结 (26)

4 系统总体设计 (27)

4.1 系统拓扑结构设计 (27)

4.2 系统安全设计 (28)

4.3 系统架构设计 (29)

4.3.1 业务架构设计 (29)

4.3.2 技术架构设计 (30)

4.4 数据集成设计 (32)

4.5 硬件架构 (33)

4.5.1 普通商用硬件配置 (33)

4.5.2 虚拟节点配置设计 (34)

4.6 本章小结 (34)

5 详细设计与实现 (35)

5.1 数据接入转发 (35)

5.1.1 数据接入 (37)

5.1.2 数据解析 (37)

5.1.3 数据持久化 (37)

5.1.4 数据转发 (37)

5.2 实时计算 (37)

5.2.1 四分线损 (40)

5.2.2 供电时间统计 (42)

5.2.3 供电质量统计 (43)

5.2.4 供售电量统计 (44)

5.3 数据入库存储 (44)

5.4 本章小结 (47)

6 系统验证与优化 (48)

6.1 系统业务功能验证 (48)

6.1.1 测试过程 (48)

6.1.2 测试用例举例 (49)

6.1.3 测试结果 (50)

6.2 系统性能验证 (50)

6.2.1 测试过程 (51)

6.2.2 测试用例举例 (51)

6.2.3 测试结果 (52)

电力用户用电信息采集系统工程建设实施方案

电力用户用电信息采集系统2010年工程建设实施方案 江苏省电力公司 二〇一〇年二月

1 概述 1.1 编写目的 电力用电信息采集系统2010年工程建设实施方案,是在遵循国家电网公司“电力用户用电信息采集系统”各类设计成果的基础上形成的文档,用以明确用电信息采集系统建设的目标及范围,确定项目的组织方式和组织结构,明确项目各阶段目标以及各工作领域的工作内容,确定合适的项目管理过程和管理办法,并确立项目执行、监督、控制的方式和方法。 1.2 项目背景 建设“电力用户用电信息采集系统”(以下简称“采集系统”),实现计量装置在线监测和用户负荷、电量、电压等重要信息的实时采集,及时、完整、准确地为“SG186”信息系统提供基础数据;实现电费收缴的全面预控,为智能电费结算等营销业务策略的实施提供技术基础,为推进双向互动营销、实施更具竞争力的市场营销策略、优化完善营销业务奠定基础。从而为企业经营管理各环节的分析、决策提供支撑,提升快速响应市场变化、快速反映客户需求的互动能力。 国网公司对采集系统建设要求是按照“统一规划、统一标准、统一建设”的原则,实现电力客户用电信息采集的“全覆盖、全采集、全费

控”。 加快采集系统建设是推进“两个转变”、实施“三集五大”的必然选择,是统一坚强智能电网建设的重要内容,是支撑阶梯电价执行的基础条件,加强精益化管理、提高优质服务水平的必要手段,是延伸电力市场、创新交易平台的重要依托。 加快采集系统建设,已成为建设“大营销”体系和统一坚强智能电网,实现公司发展方式和电网发展方式转变的必然要求。 1.3 建设目标 总体目标 依据国网公司用电信息采集系统建设的总体规划,利用5年时间(2010~2014),建设建成电力用户用电信息采集系统,覆盖公司系统全部用户、实现用电信息实时采集、全面支持预付费控制,即“全覆盖、全采集、全费控”。 具体目标 根据国网公司项目核准,2010年应完成475万户居民用户的用电信息采集系统建设,实现用户用电信息的全面准确采集,全面支持阶梯电价、预付费业务。 1.4 建设原则

大数据处理常用技术简介

大数据处理常用技术简介 storm,Hbase,hive,sqoop, spark,flume,zookeeper如下 ?Apache Hadoop:是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。 ?Apache Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce 统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 ?Apache Pig:是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。 ?Apache HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 ?Apache Sqoop:是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 ?Apache Zookeeper:是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务?Apache Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。 ?Apache Cassandra:是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身 ?Apache Avro:是一个数据序列化系统,设计用于支持数据密集型,大批量数据交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制 ?Apache Ambari:是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。 ?Apache Chukwa:是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合Hadoop 处理的文件保存在HDFS 中供Hadoop 进行各种MapReduce 操作。 ?Apache Hama:是一个基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架, Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。

电力用户用电信息采集系统设计方案3

第1章通信信道及接口 通信网络主站、采集传输终端、电能表,是信息交互的承载体。通信网络的主要方式有光纤通信、230MHz无线通信、公网无线通信、载波通信等。 图 1. 远程、本地通信说明图 远程通信是指采集终端和系统主站之间的数据通信。可分为专网通信及公网通信。 本地通信是指采集终端和用户电能计量装置之间的数据通信,在本系统中主要集中器和采集器、集中器和电能表、采集器和电能表之间的通信。 1.1通信信道建设原则 通信通道的建设以满足系统需求为出发点,综合考虑技术成熟、实时性、通信安全、分布围、系统可维护、工程建设简易、造价经济以及面向企业发展等因素,根据各网省公司的现实情况选择组件通信网络平台,为低压集抄系统提供稳

定可靠的数据交互通道。 1)易于安装 指通信网络中相关的设备在初次安装、故障或周期轮换时,安装和参数配置 的难易程度。主要表现在各种设备的即插即拔特性和网络系统自适应能力上。 2)易于维护 指当系统应用需求发生变更时,计量仪表和系统维护的难易程度。如因价格 体系或结算周期发生变更时,造成的费率结构和冻结时间在线或离线调整。 3)系统兼容性 指对采集系统中各种采集和传输终端通信方式的兼容性,以及能够适应未来 通信技术的不断发展。 4)标准化的接口 通信网络系统各个设备之间的互联接口应采用标准接插件或者是事实上的 标准接插件。 5)一体化通信 通信网络系统是采集主站、采集终端、计量表计之间通信的载体,由于管理需求和用户性质的不同,三者之间能够采用的通信信道媒介差别很大,为保持主站系统的数据采集功能的专一性,建立一体化的通信机制,保证采集主站可以通 过标准的统一的方式透明地和采集终端和计量表计通信。 6)经济性 通信网络系统在满足系统需求和立足长远发展的基础上,所选用的网络系统应该具有相对好的经济性。 为适应各种通信方式的需要在主站数据采集服务器和集中器之间建立一个通信平台。通信平台以网桥的形式存在,综合处理转换采集服务器和远程通信网络之间的信息交换。 通信平台和主站采集服务器之间以IP网络方式相连接,通信平台经过处理转换之后根据远程网络情况采用适应的方式和集中器通信。实现采集服务器和集

电力用户用电信息采集系统

1、术语和定义 1)电力用户用电信息采集系统 是对电力用户的用电信息进行采集、处理和实时监控的系统,实现用电信息的自动采集、计量异常监测、电能质量监测、用电分析和管理、相关信息发布、分布式能源监控、智能用电设备的信息交互等功能。包括5类用户和1个公变考核计量点: A类——大型专变用户 B类——中小型专变用户 C类——三相一般工商业用户 D类——单相一般工商业用户 E类——居民用户 F类——公变考核计量点 2)用电信息采集终端 是对各信息采集点用电信息采集的设备,简称采集终端。可以实现电能表数据的采集、数据管理、数据双向传输以及转发或执行控制命令的设备。用电信息采集终端按应用场所分为专变采集终端、集中抄表终端(包括集中器、采集器)、分布式能源监控终端等类型。 3)专变采集终端 专变采集终端是对专变用户用电信息进行采集的设备,可以实现电能表数据的采集、电能计量设备工况和供电电能质量监测,以及客户用电负荷和电能量的监控,并对采集数据进行管理和双向传输。 4)集中抄表终端 集中抄表终端是对低压用户用电信息进行采集的设备,包括集中器、采集器。集中器是指收集各采集器或电能表的数据,并进行处理储存,同时能和主站或手持设备进行数据交换的设备。采集器是用于采集多个或单个电能表的电能信息, 并可与集中器交换数据的设备。 采集器依据功能可分为基本型采集器和简易型采集器。基本型采集器抄收和暂存电能表数据,并根据集中器的命令将储存的数据上传给集中器。简易型采集器直接转发集中器与电能表间的命令和数据。 5)分布式能源监控终端 是对接入公用电网的用户侧分布式能源系统进行监测与控制的设备,可以实现对双向电能计量设备的信息采集、电能质量监测,并可接受主站命令对分布式能源系统接入公用电网进行控制。

大数据处理技术的特点

1)Volume(大体量):即可从数百TB到数十数百PB、 甚至EB的规模。 2)Variety(多样性):即大数据包括各种格式和形态的数据。 3)Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。 4)Veracity(准确性):即处理的结果要保证一定的准确性。 5)Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。 传统的数据库系统主要面向结构化数据的存储和处理,但现实世界中的大数据具有各种不同的格式和形态,据统计现实世界中80%以上的数据都是文本和媒体等非结构化数据;同时,大数据还具有很多不同的计算特征。我们可以从多个角度分类大数据的类型和计算特征。 1)从数据结构特征角度看,大数据可分为结构化与非结构化/半结构化数据。 2)从数据获取处理方式看,大数据可分为批处理与流式计算方式。 3)从数据处理类型看,大数据处理可分为传统的查询分析计算和复杂数据挖掘计算。 4)从大数据处理响应性能看,大数据处理可分为实时/准实时与非实时计算,或者是联机计算与线下计算。前述的流式计算通常属于实时计算,此外查询分析类计算通常也要求具有高响应性能,因而也可以归为实时或准实时计算。而批处理计算和复杂数据挖掘计算通常属于非实时或线下计算。 5)从数据关系角度看,大数据可分为简单关系数据(如Web日志)和复杂关系数据(如社会网络等具有复杂数据关系的图计算)。

6)从迭代计算角度看,现实世界的数据处理中有很多计算问题需要大量的迭代计算,诸如一些机器学习等复杂的计算任务会需要大量的迭代计算,为此需要提供具有高效的迭代计算能力的大数据处理和计算方法。 7)从并行计算体系结构特征角度看,由于需要支持大规模数据的存储和计算,因此目前绝大多数禧金信息大数据处理都使用基于集群的分布式存储与并行计算体系结构和硬件平台。

用电信息采集系统的设计与实现 陈静

用电信息采集系统的设计与实现陈静 摘要:在电力企业的工作当中,电力营销属于重要的组成部分,也是影响电力企业工作效率的关键。传统电力营销当中,大多采取人工用电信息采集,不但耗费大量人工,工作效率也普遍较低,不利于用电服务的提升。近年来,随着人们生活水平不断提升,对用电服务和用电量的需求也越来越大,在这种情况下,电力用户数量增多,需要收集的用电信息也逐渐增加,传统用电信息采集方式已经难以满足用户的需求,因此,为了更好的保证用电服务质量,电力企业应该将更加智能与新型的用电信息采集方式运用其中,提高工作效率。 关键词:用电信息;营销管理;采集系统 随着最近几年科技的不断进步,许多设备以及设施都需要用到电力,导致最近几年电力的消耗呈现出增长的趋势。这样对于用电营销管理工作的工作量急剧的增加,为了适应时代的发展,各种智能设备广泛应用在用电系统当中。这样不但对于用电客户进行比较合理的智能化服务,同时也可以提高营销的工作水平以及服务质量。因此,本文首先对用电信息采集系统进行相关概述,然后探究在电力营销中应用用电信息采集系统的具体策略,以供参考。 1用电信息采集系统概述 用电信息系统主要是指通过一定的方法对用户用电情况进行一个数据层面的采集和分析,具体包括对变压器和终端用户的数据变化进行监控,通过阶段定价的方式,对供电过程中的线路损耗情况以及负载情况进行一个处理和分析,以保证更好的节约用电成本。在电力信息采集系统中,管理者通过收集大量的数据,通过用户电力系统主站电源、传输通道、采集设备电表以及其他的方式为中国的电力用户采集电能。然而目前我国的用电信息采集系统并不是完全覆盖的,还存在着缺口,所获得的数据也是不能够很全面的服务用户。首先,电力系统采用的是电负荷管理系统、运行管理系统和电能采集量采集系统,还可以采用低电压集中抄表系统和电能量收集系统。电力促销策略的定位直接影响到市场的波动,需求越大,市场表现的也越来越繁荣。电力企业为了解决自身存在的问题,需要采用积极的销售策略,建立以市场为导向的销售机制,导入新型的管理模式和管理理念,促使电力企业更好更快的发展。通常来说,低电压抄表系统的负载管制系统重点是收集大量的信息,创新电力营销管理模式是战略问题,首先电力企业应该挑起大梁,从战略层面对电力营销管理进行全面的改革,从提高电力营销管理的方式和水平入手。此外,积极拓宽电力营销管理信息渠道,电力营销要解决滞后于电力市场的问题,尽量做到和电力市场同步发展,并建立健全一套完善的电力营销预算、计划、决策、监督及管理体系,更新电力营销的管理模式,也就是说使用电的指数800kVA和630kVA的商业用电和工业用电。 2在电力营销中应用用电信息采集系统的策略 2.1线损管理 在整个电力系统的管理当中,线损管理能够起到一定的效果。首先对于电力系统数据的采集,该系统能够在第一时间掌握各个用户的用电情况,避免了在不同时间段造成的用电误差。通过对于数据的采集以及具体的分析可以很大程度上满足线损的计算要求,进而可以系统的分析导致线损的根本性原因,找出解决的措施。为以后的改进以及重新建设打下比较好的基础,这样有利于线损在管理当中的自动化以及提升线损的实际的管理效率。 2.2远程抄表中的应用

电力用户用电信息采集系统操作手册2

采集系统终端管理操作手册 1.远程调试 1.1业务描述 从营销业务应用系统获取终端调试工单,根据调试工单内容,配合现场完成终端调试工作。 1.2操作说明 点击【基本应用】->【终端管理】->【远程调试】进入远程调试页面。 通过该功能可实现按单位、工单编号、用户类型、工单起始日期、调试结果等查询条件查询终端调试工单信息。如下图所示: 点击查询结果超链接,进入终端调试结果明细页面,如下图所示:

点击触发调试按钮,进行终端调试页面,如下图所示: 增加了调试结果记录功能,记录终端进行那几步调试;如下图所示: 成的工单进行归档。

2终端参数设置 2.1业务描述 对终端设置终端配置参数、控制参数、限值参数等,设置的参数如下:

注意:此功能页面只支持09或13规约终端进行参数设置,对于04或山东规约终端任然在终端调试功能功能菜单下操作,与在运系统业务一致。

2.2操作说明 点击【基本应用】->【终端管理】->【参数管理】->【终端参数设置】进入 终端参数设置页面,如下图所示: 【保存召测结果】按钮为将右侧的召测值保存到数据库; 【保存】按钮为将左侧的维护值保存到数据库; 【保存并下发】按钮为将左侧的维护值保存到数据库并下发到终端;

【按默认值下发】按钮为直接将数据库中终端的参数值直接下发到终端。 3软件升级 3.1软件版本管理 3.1.1终端版本召测 3.1.1.1业务描述 对升级程序版本进行管理;上传检测通过的厂家终端升级文件,对其升级目的、支持的原版本文件、升级后的新版本文件进行管理。 3.1.1.2操作说明 点击【基本应用】->【终端管理】->【软件升级】->【软件版本管理】页面,可通过单位、终端类型、终端规约等查询条件进行查询,如下图所示:

电力用户用电信息采集系统

三系统功能 1、术语和定义 1)电力用户用电信息采集系统 是对电力用户的用电信息进行采集、处理和实时监控的系统,实现用电信息的自动采集、计量异常监测、电能质量监测、用电分析和管理、相关信息发布、分布式能源监控、智能用电设备的信息交互等功能。包括5类用户和1个公变考核计量点: A类——大型专变用户 B类——中小型专变用户 C类——三相一般工商业用户 D类——单相一般工商业用户 E类——居民用户 F类——公变考核计量点 2)用电信息采集终端 是对各信息采集点用电信息采集的设备,简称采集终端。可以实现电能表数据的采集、数据管理、数据双向传输以及转发或执行控制命令的设备。用电信息采集终端按应用场所分为专变采集终端、集中抄表终端(包括集中器、采集器)、分布式能源监控终端等类型。 3)专变采集终端 专变采集终端是对专变用户用电信息进行采集的设备,可以实现电能表数据的采集、电能计量设备工况和供电电能质量监测,以及客户用电负荷和电能量的监控,并对采集数据进行管理和双向传输。 4)集中抄表终端 集中抄表终端是对低压用户用电信息进行采集的设备,包括集中器、采集器。集中器是指收集各采集器或电能表的数据,并进行处理储存,同时能和主站或手持设备进行数据交换的设备。采集器是用于采集多个或单个电能表的电能信息, 并可与集中器交换数据的设备。 采集器依据功能可分为基本型采集器和简易型采集器。基本型采集器抄收和暂存电能表数据,并根据集中器的命令将储存的数据上传给集中器。简易型采集器直接转发集中器与电能表间的命令和数据。 5)分布式能源监控终端 是对接入公用电网的用户侧分布式能源系统进行监测与控制的设备,可以实现对双向电能计量设备的信息采集、电能质量监测,并可接受主站命令对分布式能源系统接入公用电网进行控制。

什么是《用户用电信息采集系统》

用户用电信息采集系统 电力用户用电信息采集系统 电力用户用电信息采集系统是对电力用户的用电信息进行采集、处理和实时监控的系统,实现用电信息的自动采集、计量异常和电能质量监测、用电分析和管理,具备相关信息发布、分布式能源的监控、智能用电设备的信息交互等功能。 用电信息采集终端 用电信息采集终端是负责各信息采集点的电能信息的采集、数据管理、数据双向传输以及转发或执行控制命令的设备。用电信息采集终端按应用场所分为专变采集终端、集中抄表终端(包括集中器、采集器)、分布式能源监控终端等类型。 专变采集终端 专变采集终端是专变用户电能信息采集终端,实现对专变用户的电能信息采集,包括电能表数据采集、电能计量设备工况和供电电能质量监测,以及客户用电负荷和电能量的监控,并对采集数据进行管理和传输。 集中抄表终端 集中抄表终端是对低压用户电能信息进行采集的设备,包括集中器、采集器。集中器是指收集各采集终端或电能表的数据,并进行处理储存,同时能和主站或手持设备进行数据交换的设备。采集器是用于采集多个电能表电能信息, 并可与集中器交换数据的设备。采集器依据功能可分为基本型采集器和简易型采集器。基本型采集器抄收和暂存电能表数据,并根据集中器的命令将储存的数据上传给集中器。简易型采集器直接转发集中器与电能表间的命令和数据。 系统功能 系统主要功能包括系统数据采集、数据管理、控制、综合应用、运行维护管理、系统接口等。 1.1 数据采集 根据不同业务对采集数据的要求,编制自动采集任务,包括任务名称、任务类型、采集群组、采集数据项、任务执行起止时间、采集周期、执行优先级、正常补采次数等信息,并管理各种采集任务的执行,检查任务执行情况。 1.1.1 采集数据类型项 系统采集的主要数据项有: (1)电能量数据:总电能示值、各费率电能示值、总电能量、各费率电能量、最大需量等; (2)交流模拟量:电压、电流、有功功率、无功功率、功率因数等; (3)工况数据:采集终端及计量设备的工况信息;

用电信息采集系统采集成功率提升(智能召测)方案

用电信息采集系统采集成功率提升管理(智能召测)方案 合肥大多数信息科技有限公司

一、前言 随着阶梯电价的全面执行。国家电网加大对抄表及时率、准确率和电费差错率的稽查与考核力度,加强居民零电量、电量突增突减等异常情况核查力度,严格按规定时限办结业务,杜绝估抄、漏抄、错抄等人为原因引起的电费差错和客户纠纷。 智能电表的全面覆盖。智能电表更换和采集建设的大力深化落实,则为阶梯电价的实施提供技术支持,同时其作为智能电网建设的重要基础设备,加快智能电表更换工作也对电网进一步实现信息化、自动化、智能化具有重要支撑作用。 用电信息采集系统作为智能电表深化应用综合平台,其不可忽视的信息枢纽地位日益凸显,围绕用电信息采集的工作也在紧锣密鼓的开展中,采集成功率则是其中的重要指标。但在实际运行过程中,因计划停电、故障停电、网络传输等因素的影响,使原本可以采集成功的终端无法正常采集数据,针对此类情况,专职人员首先要保证补召工作的落实到位,其次要实时掌控每个采集终端的运行状态,时刻关注各供电所台区、专变采集成功率,对离线终端、连续采集失败的终端进行归类总结,做到第一时间发现问题、发现问题及时解决、分析问题杜绝避免,才能有效提升采集成功率。 二、项目背景 随着用电信息采集系统的全面上线,抄表工作由最先的手工抄表逐步转向远采集抄,其独有的远程自动抄表方式极大程度提高了抄表效率,自动抄表可谓是其核心价值的重要体现。然而目前在实际运行中却存在着一些问题,比如因停电、网络传输、接线不当、违规操作而导致采集成功率低下,因为不用去现场抄表原因,导致电工对台区的管理力度有所降低,无法在第一时间发现问题,这在一定程度上牵制了采集成功率的提升。 采集成功率得不到保障,那么用电信息采集系统就不能有效实现其核心价值,虽然通过系统内置的自动补招和专职人员手工补招的方式能对此进行暂时弥补,但这样一来,专职人员加班加点,人力资源无法得到合理利用,依靠体力做事的比重偏大,工作时间的投入与最终产出不均衡,渐渐进入发现问题、弥补问题的不良循环中。 在这样的背景下,如何从技术、管理、创新三个方面融合贯通,建立科学、系统、

大数据处理技术的总结与分析

数据分析处理需求分类 1 事务型处理 在我们实际生活中,事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。这类系统数据处理特点包括以下几点: 一就是事务处理型操作都就是细粒度操作,每次事务处理涉及数据量都很小。 二就是计算相对简单,一般只有少数几步操作组成,比如修改某行得某列; 三就是事务型处理操作涉及数据得增、删、改、查,对事务完整性与数据一致性要求非常高。 四就是事务性操作都就是实时交互式操作,至少能在几秒内执行完成; 五就是基于以上特点,索引就是支撑事务型处理一个非常重要得技术. 在数据量与并发交易量不大情况下,一般依托单机版关系型数据库,例如ORACLE、MYSQL、SQLSERVER,再加数据复制(DataGurad、RMAN、MySQL数据复制等)等高可用措施即可满足业务需求。 在数据量与并发交易量增加情况下,一般可以采用ORALCERAC集群方式或者就是通过硬件升级(采用小型机、大型机等,如银行系统、运营商计费系统、证卷系统)来支撑. 事务型操作在淘宝、12306等互联网企业中,由于数据量大、访问并发量高,必然采用分布式技术来应对,这样就带来了分布式事务处理问题,而分布式事务处理很难做到高效,因此一般采用根据业务应用特点来开发专用得系统来解决本问题。

2数据统计分析 数据统计主要就是被各类企业通过分析自己得销售记录等企业日常得运营数据,以辅助企业管理层来进行运营决策。典型得使用场景有:周报表、月报表等固定时间提供给领导得各类统计报表;市场营销部门,通过各种维度组合进行统计分析,以制定相应得营销策略等. 数据统计分析特点包括以下几点: 一就是数据统计一般涉及大量数据得聚合运算,每次统计涉及数据量会比较大。二就是数据统计分析计算相对复杂,例如会涉及大量goupby、子查询、嵌套查询、窗口函数、聚合函数、排序等;有些复杂统计可能需要编写SQL脚本才能实现. 三就是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,目前越来越多得用户希望能做做到交互式实时统计; 传统得数据统计分析主要采用基于MPP并行数据库得数据仓库技术.主要采用维度模型,通过预计算等方法,把数据整理成适合统计分析得结构来实现高性能得数据统计分析,以支持可以通过下钻与上卷操作,实现各种维度组合以及各种粒度得统计分析。 另外目前在数据统计分析领域,为了满足交互式统计分析需求,基于内存计算得数据库仓库系统也成为一个发展趋势,例如SAP得HANA平台。 3 数据挖掘 数据挖掘主要就是根据商业目标,采用数据挖掘算法自动从海量数据中发现隐含在海量数据中得规律与知识。

用电信息采集系统的工作原理及应用

用电信息采集系统的工作原理及应用 摘要供电企业采用用电信息采集系统实时控制用户用电负荷,宏观调控负荷曲线,加强用电异常的监测和处理,认真分析系统发回的用电异常报警信息,及时发现用户计量故障和窃电行为等,引导用户合理用电,有序用电。此举是电力企业用电管理自动化的重要手段。 关键字信息采集;SG186;供电 随着智能化电网的发展,用电信息采集系统在各个领域的应用已很广泛,它实现了对用户在电量、电压、负荷等方面的信息上进行信息实时采集,同时也对计量装置实现了在线的检测,并且可以为“SG186”信息系统提供准确、完整、及时的基础数据,从而在企业经营中的各个部分的决策和分析提供了支撑,这样就可以使企业管理水平在标准、精益及集约化上有所提升,并在智能用电服务系统当中占据着重要的作用和地位。 1 系统的基本组成要素 一般由集中器、主站、采集终端、信道等设备组成的系统为用电信息采集系统。采集终端采集到电能表的实时数据以后,采集到的信息由集中器通过信道远距离传送到主站的电脑上,然后通过对应的端口与电力营销系统实现完整的连接,实时的传送数据、数据分析结果,为电能量综合分析提供准确的基础数据。为了能完整实现用户用电信息系统从采集、传输、到集中存储、处理和应用的整个过程,系统分为三个子系统。 1.1主站系统 主站系统主要负责用户用电信息和电能信息的自动采集、存储、处理和应用。主站系统由很多的服务器组成,比如:数据库、接口、应用、备份、前置服务器(通信前置、数据采集、调度定时服务器)、工作室、全球定位时钟以及其它相关的网络设备。 1.2 通信网络 通信网络是进行远程通信,而用户侧的采集终端与系统主站建立联系,对用户的用电信息进行采集。通信网络为用电信息集抄系统提供稳定可靠的数据交互通道通信网络,目前主要包括光纤专网、小型无线专网、GPRS、CDMA等。通信网络架构分为主站核心网络、骨干网络和接入网络。主站核心网利用主站系统的双核心交换机为网络中心;骨干网络以配变子站为骨干节点,采用千兆以太网光纤互联,以主站核心交换机为中心形成多个环形组网,对于乡镇配变子站,目前没组环条件,可以采用链型连接;接入网络采用光纤专网(EPON)技术为主,无线公网(GPRS/CDMA/3G)或230无线专网为辅进行供电线路的覆盖。

电力用户用电信息采集系统方案介绍

电力用户用电信息采集系统方案介绍 1

第1章通信信道及接口 通信网络链接主站、采集传输终端、电能表,是信息交互的承载体。通信网络的主要方式有光纤通信、230MHz无线通信、公网无线通信、载波通信等。 图 1. 远程、本地通信说明图 远程通信是指采集终端和系统主站之间的数据通信。可分为 2

专网通信及公网通信。 本地通信是指采集终端和用户电能计量装置之间的数据通信,在本系统中主要集中器和采集器、集中器和电能表、采集器和电能表之间的通信。 1.1通信信道建设原则 通信通道的建设以满足系统需求为出发点,综合考虑技术成熟、实时性、通信安全、分布范围、系统可维护、工程建设简易、造价经济以及面向企业发展等因素,根据各网省公司的现实情况选择组件通信网络平台,为低压集抄系统提供稳定可靠的数据交互通道。 1)易于安装 指通信网络中相关的设备在初次安装、故障或周期轮换时,安装和参数配置的难易程度。主要表现在各种设备的即插即拔特性和网络系统自适应能力上。 2)易于维护 指当系统应用需求发生变更时,计量仪表和系统维护的难易程度。如因价格体系或结算周期发生变更时,造成的费率结构和冻结时间在线或离线调整。 3)系统兼容性 指对采集系统中各种采集和传输终端通信方式的兼容性,以及能够适应未来通信技术的不断发展。 3

4)标准化的接口 通信网络系统各个设备之间的互联接口应采用标准接插件或者是事实上的标准接插件。 5)一体化通信 通信网络系统是采集主站、采集终端、计量表计之间通信的载体,由于管理需求和用户性质的不同,三者之间能够采用的通信信道媒介差别很大,为保持主站系统的数据采集功能的专一性,建立一体化的通信机制,保证采集主站能够经过标准的统一的方式透明地和采集终端和计量表计通信。 6)经济性 通信网络系统在满足系统需求和立足长远发展的基础上,所选用的网络系统应该具有相对好的经济性。 为适应各种通信方式的需要在主站数据采集服务器和集中器之间建立一个通信平台。通信平台以网桥的形式存在,综合处理转换采集服务器和远程通信网络之间的信息交换。 通信平台和主站采集服务器之间以IP网络方式相连接,通信平台经过处理转换之后根据远程网络情况采用适应的方式和集中器通信。实现采集服务器和集中器之间的透明通信,屏蔽远程通信的通信方式差异。 采集服务器对集中器的寻址方式:在IP链路建立之后,以此为物理链路,按照集中器逻辑地址为目的地址进行寻址,通信平台根据 4

大数据处理常用技术有哪些

大数据处理常用技术有哪些? storm,hbase,hive,sqoop.spark,flume,zookeeper如下 ?Apache Hadoop:是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。 ?Apache Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce 统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 ?Apache Pig:是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。 ?Apache HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 ?Apache Sqoop:是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 ?Apache Zookeeper:是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务?Apache Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。 ?Apache Cassandra:是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身 ?Apache Avro:是一个数据序列化系统,设计用于支持数据密集型,大批量数据交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制 ?Apache Ambari:是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。 ?Apache Chukwa:是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合Hadoop 处理的文件保存在HDFS 中供Hadoop 进行各种MapReduce 操作。 ?Apache Hama:是一个基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架, Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。

用电信息采集系统的终端设计与应用

用电信息采集系统的终端设计与应用 【摘要】用电信息采集系统是集电能计量采集、传输和处理的系统,本文概述了用电采集系统的结构和功能,并着重介绍了用电信息采集终端的设计,最后简述了用电采集系统在电力中的应用。 【关键词】用电信息采集;终端;电能计量 1 引言 用电信息采集系统是将电能计量数据自动采集、传输和处理的系统,是电力系统信息化、智能化的产物,它有效地解决了传统人工抄表效率低、出错率相对较高等特点,提高了电能计量管理系统的管理水平,安全性更好,透明程度更高,是实现用电管理的信息化、自动化、互动化的基础。 2 用电信息采集系统概述 2.1 用电信息采集系统总体结构 用电信息采集系统主要由采集主站、通信信道、现场终端组成。实用的用户是全面的,包括六大类型:100KV A及以上的大型专变用户、100KV A以下的中小型专变用户、三相一般工商业用户、单相一般工商业用户、居民用户和公用配变考核计量点等。从物理结构上可以分为5层,如图1所示。 主站层位于用电信息采集系统的最上层,是整个系统的管理中心,负责管理整个系统的数据传输、数据处理和数据应用以及系统的运行和安全,并管理与其它系统的数据交换。其主要有两个方面的功能:数据的传输功能和数据的处理功能。①数据的传输功能负责以一定的方式与电力用户的各种类型用电信息采集终端通信,可以定时自动、人工手动、主动上传等工作方式接收各用电信息采集终端的各类数据;②数据的处理功能是对各类型终端上传的数据进行判读,解包分析、处理及储存,为综合应用层提供数据分析结果,并通过用户界面直观显示。 通信网络层通过一定的数据接口(如WEB、RS232等)实现主站和数据采集层设备间的数据传输和交互功能,并可以以组网的形式存在,有远程通信网络和本地通信网络。远程通信网络用于主站与远距离的采集终端间通信,因此远程通信的带宽、可靠性和实时性都有一定要求,一般以光纤专网和230MHz无线专网为主。本地通信网络是短距离的数据传输,如现场采集终端、智能表计和监控设备之间的通信,可以采用低压电力线载波、微功率无线、RS485总线以及各种有线网络。 数据采集层和监控设备层与用电用户设备之间相连,是对用电信息数据的采集和监控。监控设备层包括智能电能表和其他智能计量监控设备,这些设备连接于用电信息采集终端。而数据采集层是用电信息采集终端,它负责管理电能信息

电力公司电力用户用电信息采集系统用户手册(DOC 81页)

新疆电力公司 电力用户用电信息采集系统 用户手册 国电南瑞科技股份有限公司 2010年11月 版本说明:在原有的基础上增加了一下功能上的说明 基本应用的单户召测功能模块; 高级应用的台区线损功能模块; 运行管理的主站异常分析功能模块;

目录 1.系统总体介绍 (5) 1.1.产品特点................................................................... 错误!未定义书签。 1.2.软硬件运行环境....................................................... 错误!未定义书签。 2.模块介绍 (5) 2.1.模块功能分类 (10) 2.2.基本应用 (12) 2.2.1数据采集管理 (12) 2.2.1.1.采集任务编制 (12) 2.2.1.2.采集质量检查 (14) 2.2.1.3.低压采集质量 (15) 2.2.1.4.设备监测 (16) 2.2.1.5.数据召测..................................................... 错误!未定义书签。 2.2.1.6.手工补招..................................................... 错误!未定义书签。 2.2.1.7.批量巡测 (25) 2.2.1.8.数据发布管理 (25) 2.2.1.9.原始报文查询 (26) 2.2.1.10.低压远程抄表 (27) 2.2.2有序用电管理 (28) 2.2.2.1有序用电任务编制 (28) 2.2.2.2群组设置 (28) 2.2.2.3有序用电任务执行 (30) 2.2.2.4有序用电效果统计 (30) 2.2.2.5遥控 (30) 2.2.2.6功率控制 (31) 2.2.2.7终端保电 (32) 2.2.2.8终端剔除 (33) 2.2.2.9电量定值控制 (34) 2.2.3预付费管理 (34) 2.2.3.1预付费投入测试 (34) 2.2.3.2预付费控制参数下发 (35) 2.2.3.3用户余额查看 (36) 2.2.3.4.预付费控制 (36) 2.2.3.5.催费控制 (37) 2.2.3.6预付费工况信息 (37) 2.2.3.7预付费情况统计 (37) 2.3.高级管理 (38) 2.3.1配电变检测分析 (38) 2.3.2线损分析 (38) 2.3.2.1台区用电损耗统计 (43) 2.3.3图形显示 (38) 2.3.4重点用户管理 (43) 2.3.4.1重点用户设置 (43)

用电信息采集系统主站软件运维服务

用电信息采集系统主站软件运维服务 现如今,用电信息采集系统应用技术发挥着重要的作用,不仅可以全面采集、覆盖国家电网系统,为其提供有效的技术支持,而且还可以使得先进的数据化信息管理应用到生产经营管理中去。它的运行离不开采集主站、智能电能表、采集终端等。要想实现对用户用电数据的收集以及分析,就必须依靠用电信息采集和监测系统。该项技术实现了用电量以及电费的计算,使得用电更为环保,还极大地防止了窃电行为的发生。用电系统实现自动化,不仅使得用电度数更为准确,还最大限度地降低了用电成本。 1 用电信息采集系统运行的特点 (1)用电数据实现了自动化记录。由于技术的进步,传统的手工用电数据采集已经不适应于现代化的发展。目前,大多数用户已经实现了用电量的自动采集,避免了采集危险的发生。此外,对于每个用户还根据他们的用电情况进行比对分析,推进了电力系统的运营。 (2)时刻监察用电的危险。在进行用电信息采集的过程中,要时刻监控着电路的运行情况,一旦发生危险可以迅速完成对于数据的分析处理,从而最大限度的监控用电情况,减少偷电的发生。 (3)设置阶梯式电价。对于电费而言,是每个用户最为关心的问题,所以对于电价的设置要更为合理。过高的电费增加了缴费的难度,造成了电力企业的损失,过低的电费也会造成用电的浪费。 2 用电信息采集系统运维工作的现状 如今,在进行用电量采集的过程中,离不开运维技术的支持,其主要包括以下几个方面:首先,运维的形式较少,现阶段,如果想要进行用电信息采集系统的运维,还需要设备的支持,极大地阻碍了其运行。其次,对于运维资源的浪费。在进行用电信息采集时,往往会出现很多问题。运维工作人员由于从属于同一部门,导致操作的效率降低同时还会造成资源的浪费。目前,一些电力公司所采用的运维系统都是三级管控模式,其中,基层的用电单位主要起到辅助的作用,只能应对一些简易的问题。为此,下文对用电信息采集系统中运维工作所要注意的几点问题进行了简要分析。 2.1 运维手段单一,效率不高 由于我国社会的不断进步,各个行业的发展又离不开电力,所以对于用电的需求量也越来越多,进而刺激着电力公司的发展。然而,用电信息采集系统作为用电公司的中心环节,其运维系统也成为关注的焦点。目前,我国的运维手段十分单一,其运行效率也有待提高。例如说,一些电力公司平均一天出现故障的工单接近上万条,这使得工作的强度逐渐增大,一些故障难以清除。与此同时,一

大数据分析平台技术要求

大数据平台技术要求 1. 技术构架需求 采用平台化策略,全面建立先进、安全、可靠、灵活、方便扩展、便于部署、操作简单、易于维护、互联互通、信息共享的软件。 技术构架的基本要求: 采用多层体系结构,应用软件系统具有相对的独立性,不依赖任何特定的操作系统、特定的数据库系统、特定的中间件应用服务器和特定的硬 件环境,便于系统今后的在不同的系统平台、不同的硬件环境下安装、 部署、升级移植,保证系统具有一定的可伸缩性和可扩展性。 实现B(浏览器)/A(应用服务器)/D(数据库服务器)应用模式。 采用平台化和构件化技术,实现系统能够根据需要方便地进行扩展。2. 功能指标需求 2.1基础平台 本项目的基础平台包括:元数据管理平台、数据交换平台、应用支撑平台。按照SOA的体系架构,实现对我校数据资源中心的服务化、构件化、定制化管理。 2.1.1元数据管理平台 根据我校的业务需求,制定统一的技术元数据和业务元数据标准,覆盖多种来源统计数据采集、加工、清洗、加载、多维生成、分析利用、发布、归档等各个环节,建立相应的管理维护机制,梳理并加载各种元数据。 具体实施内容包括: ●根据业务特点,制定元数据标准,要满足元数据在口径、分类等方面的 历史变化。 ●支持对元数据的管理,包括:定义、添加、删除、查询和修改等操作,

支持对派生元数据的管理,如派生指标、代码重新组合等,对元数据管 理实行权限控制。 ●通过元数据,实现对各类业务数据的统一管理和利用,包括: ?基础数据管理:建立各类业务数据与元数据的映射关系,实现统一 的数据查询、处理、报表管理。 ?ETL:通过元数据获取ETL规则的描述信息,包括字段映射、数据转 换、数据转换、数据清洗、数据加载规则以及错误处理等。 ?数据仓库:利用元数据实现对数据仓库结构的描述,包括仓库模式、 视图、维、层次结构维度描述、多维查询的描述、立方体(CUBE) 的结构等。 ●元数据版本控制及追溯、操作日志管理。 2.1.2数据交换平台 结合元数据管理模块并完成二次开发,构建统一的数据交换平台。实现统计数据从一套表采集平台,通过数据抽取、清洗和转换等操作,最终加载到数据仓库中,完成整个数据交换过程的配置、管理和监控功能。 具体要求包括: ●支持多种数据格式的数据交换,如关系型数据库:MS-SQLServer、MYSQL、 Oracle、DB2等;文件格式:DBF、Excel、Txt、Cvs等。 ●支持数据交换规则的描述,包括字段映射、数据转换、数据转换、数据 清洗、数据加载规则以及错误处理等。 ●支持数据交换任务的发布与执行监控,如任务的执行计划制定、定期执 行、人工执行、结果反馈、异常监控。 ●支持增量抽取的处理方式,增量加载的处理方式; ●支持元数据的管理,能提供动态的影响分析,能与前端报表系统结合, 分析报表到业务系统的血缘分析关系; ●具有灵活的可编程性、模块化的设计能力,数据处理流程,客户自定义 脚本和函数等具备可重用性; ●支持断点续传及异常数据审核、回滚等交换机制。

相关文档
最新文档