【CN110309848A】离线数据与流式数据实时融合计算的方法【专利】

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201910380072.6

(22)申请日 2019.05.08

(71)申请人重庆天蓬网络有限公司

地址 401135 重庆市渝北区龙兴镇迎龙大

道19号

(72)发明人张翼飞　陈政　

(74)专利代理机构北京酷爱智慧知识产权代理

有限公司 11514

代理人梁爱荣

(51)Int.Cl.

G06K 9/62(2006.01)

(54)发明名称

离线数据与流式数据实时融合计算的方法

(57)摘要

本发明提供了一种离线数据与流式数据实

时融合计算的方法，属于计算机大数据处理技术

领域，其首先确认结果数据的计算逻辑，整理需

要的输入数据，根据计算结果过程中所有输入的

数据的属性、特性的计算逻辑按实时性进行分

类，分为两类。一类数据是代表历史的统计结果

的离线型数据，另一类是实时性高的实时输入数

据。这两部分输入数据经过聚合、计算、统计的才

得出最后的实时统计结果。本发明在数据处理过

程中，通过对数据进行分类，用适当的计算模式

进行计算，兼顾数据的实时性以及数据的计算效

率，

使得结果数据可以更高效迅速的展现出来。权利要求书1页说明书7页附图2页CN 110309848 A 2019.10.08

C N 110309848

权　利　要　求　书1/1页CN 110309848 A

1.一种离线数据与流式数据实时融合计算的方法，其特征在于，包括：

S1、首先确认结果数据的计算逻辑，整理需要的输入数据；

S2、本发明根据计算结果过程中所有输入的数据的属性、特性、计算逻辑按实时性进行分类；

S3、根据S2中的数据分类，进行处理；

S4，当遇到离线型数据与实时输入数据需要关联时，采用流式处理的方式，在流式过程处理中去关联离线处理完成的离线型数据的计算结果，用此方法得到一个新的实时输入数据，所述新的实时输入数据是实时输入数据与离线型结果关联的结果数据；

S5、用S3，S4步骤中的方式处理完计算过程中所有的输入，即得到最终的计算结果。

2.根据权利要求1所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述S3、S4步骤中的流式处理方式与实时输入数据与离线型结构的过程包括如下内容，101到104和103到106这两个过程是单纯的离线计算，102到105这个过程是单纯的流式计算，即上述流程描述中S3步骤中描述的计算过程。

3.根据权利要求2所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述S3、S4步骤中的流式处理方式与实时输入数据与离线型结构的过程包括如下内容，104和105到107的过程，以及107和106到108的过程，是离线型数据和实时输入数据关联的过程。

4.根据权利要求3所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述108为步骤S5中最终得到的计算结果。

5.根据权利要求1所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述步骤S2中根据计算结果过程中所有输入的数据的属性、特定的计算逻辑实时性进行分类，该分类为两类，一类数据是代表历史的统计结果的离线型数据，一类是实时性高的实时输入数据。

6.根据权利要求5所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述离线型数据和实时输入数据经过聚合、计算、统计后得到最后的实时统计结果。

7.根据权利要求6所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述处理单纯的离线型数据和实时输入数据，对离线型的数据用离线处理的方式进行处理，对实时输入数据，用流式计算的方式。

8.根据权利要求1所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述步骤S1中所述的结果数据包括计算过程中的中间结果，中间结果包括上一步的输出、下一步的输入。

9.根据权利要求1所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述步骤S4中离线型数据和实时数据的关联关系，包括两种，一种是同一种计算逻辑划分下的两份数据，是离线型数据和实时输入数据的加和；另一种是业务逻辑上的关联关系。

10.根据权利要求9所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述业务逻辑上的关联关系需要先计算好离线型数据，然后在流式处理实时数据时，取出计算好的离线型数据结果，进行关联。

实时计算,流数据处理系统简介与简单分析

实时计算，流数据处理系统简介与简单分析发表于2014-06-12 14:19| 4350次阅读| 来源CSDN博客| 8条评论| 作者va_key 大数据实时计算流计算摘要：实时计算一般都是针对海量数据进行的，一般要求为秒级。实时计算主要分为两块:数据的实时入库、数据的实时计算。今天这篇文章详细介绍了实时计算，流数据处理系统简介与简单分析。编者按：互联网领域的实时计算一般都是针对海量数据进行的，除了像非实时计算的需求（如计算结果准确）以外，实时计算最重要的一个需求是能够实时响应计算结果，一般要求为秒级。实时计算的今天，业界都没有一个准确的定义，什么叫实时计算？什么不是？今天这篇文章详细介绍了实时计算，流数据处理系统简介与简单分析。以下为作者原文：一．实时计算的概念实时计算一般都是针对海量数据进行的，一般要求为秒级。实时计算主要分为两块:数据的实时入库、数据的实时计算。主要应用的场景： 1) 数据源是实时的不间断的，要求用户的响应时间也是实时的（比如对于大型网站的流式数据：网站的访问PV/UV、用户访问了什么内容、搜索了什么内容等，实时的数据计算和分析可以动态实时地刷新用户访问数据，展示网站实时流量的变化情况，分析每天各小时的流量和用户分布情况） 2) 数据量大且无法或没必要预算，但要求对用户的响应时间是实时的。比如说：昨天来自每个省份不同性别的访问量分布，昨天来自每个省份不同性别不同年龄不同职业不同名族的访问量分布。二．实时计算的相关技术主要分为三个阶段（大多是日志流）: 数据的产生与收集阶段、传输与分析处理阶段、存储对对外提供服务阶段

下面具体针对上面三个阶段详细介绍下 1）数据实时采集：需求：功能上保证可以完整的收集到所有日志数据，为实时应用提供实时数据；响应时间上要保证实时性、低延迟在1秒左右；配置简单，部署容易；系统稳定可靠等。目前的产品：Facebook的Scribe、LinkedIn的Kafka、Cloudera的Flume，淘宝开源的TimeTunnel、Hadoop的Chukwa等，均可以满足每秒数百MB的日志数据采集和传输需求。他们都是开源项目。 2）数据实时计算在流数据不断变化的运动过程中实时地进行分析，捕捉到可能对用户有用的信息，并把结果发送出去。实时计算目前的主流产品：

物联网大数据处理中实时流计算系统的实践

170 ?电子技术与软件工程 Electronic Technology & Software Engineering 数据库技术 ? Data Base Technique 【关键词】大数据实时计算物联网实践物联网是在互联网应用的基础上进行了进一步拓展。其主要具有移动、智能、多节点的特点。而Spark 为大数据实时计算工作提供了一个优良的数据储存计算引擎，其在实际数据应用过程中，可利用自身优良的计算性能及多平台兼容特性，实现大数据混合计算处理。因此为了保证物联网数据处理效率，对大数据混合计算模式在物联网中的实践应用进行适当分析具有非常重要的意义。 1 基于Spark的大数据混合计算模型基于Spark 的大数据混合计算模式在实际设计过程中，首先需要进行数据源的确定，经过逐步处理后将其进行计算储存，并通过实时查询数据库进行提前数据Web 接口的设置。在这个基础上，将不同数据源数据通过分布式处理模式进行移动、收集、分发。然后利用Spark 数据批处理工作，综合采用直接走流处理、程序批处理的方式，将实施应用数据调到已核算完毕的计算结果中间。最后基于物联网应用特点，将数据源数据内部数据移动、收集及分发批处理模块进行有机整合，并结合大数据域内数据处理需求，逐渐利用SparklShark 架构代替MapreducelHIve 结构。在这个基础上进行Spark 混合计算规则融入，最终形成完善的Spark 混合计算模型架构。 2 大数据实时计算在物联网中的实践 2.1 以流处理为基础的用量实时计算系统以流处理为基础的用量实时计算系统在物联网中的实践应用，主要是利用开源分布式物联网大数据处理中实时流计算系统的实践文/吴海建1 吕军2 软件结构的架设，结合Flume 数据收集模块的设置。同时将物联网中不同数据源进行接入差异化分析。在这个基础上利用消息缓存系统保障模块，将用量实时计算系统内部相关模块间进行解耦设置。同时结合流式计算框架的运行，保障系统并行计算性能拓展问题的有效处理。在具体基于流处理的用量实时计算系统设置过程中，主要包括数据收集、数据处理、数据存储、数据处理等几个模块。首先在数据收集模块设置环节，主要采用Flume 集群，结合海量日志采集、传输、集成等功能的处理，可从exec 、text 等多数据源进行数据收集。Flume 集群的处理核心为代理，即在完整数据收集中心的基础上，通过核心事件集合，分别采用话单文件代理、计费消息代理等模式，对文件、消息进行收集处理。需要注意的是，在消息接收之后，需要将不同代理数据进行统一数据格式的处理，从而保证整体消息系统的核心统一。其次在实际应用过程中，以流处理为基础的大数据实时计算模型在数据接入环节，主要采用Kafka 集群，其在实际运行中具有较为优良的吞吐量。而且分布式订阅消息发布的新模式，也可以在较为活跃的流式数据处理中发挥优良的效用。在以流处理为基础的用量实时计算系统运行过程中，Kafka 集群主要针对O （1）磁盘数据，其主要通过对TB 级别的消息进行储存处理，并维持相应数据在对应磁盘数据结构中的平稳运行。同时在实际运行中，Kafka 集群还可以依据消息储存日期进行消息类别划分，如通过对消息生产者、消息消费者等相应类别的划分，可为元数据信息处理效率的提升提供依据。数据处理框架主要采用Storm 集群，其主要具有容错率高、开源免费、分布式等优良特点。在基于Storm 集群的数据处理框架计算过程中，可通过实时计算图状结构的设计，进行拓扑集群提交。同时通过集群中主控节点分发代码设置，实现数据实时过滤处理。在实际运行过程中，基于Storm 集群的数据处理框架，具有Spout 、Bolt 两种形式。前者为数据信息发送，而后者为数据流转换。通过模块间数据传输，Storm 集群也可以进行流量区域分析、自动化阈值检查、流量区域分析等模块的集中处理。数据储存模块主要采用Redis 集群，其在实际处理过程中，主要采用开源式的内部储存结构，通过高速缓存消息队列的设置，可为多种数据类型处理提供依据，如有效集合、列表、字符串、散列表等。2.2 算例分析在实际应用过程中，基于流处理的大数据实时计算模型需要对多种维度因素进行综合分析，如运营商区域组成维度、时间段储存方案、APN 、资费组处理等。以某个SIM 卡数据处理为例，若其ID 为12345678，则在实际处理中主要包括APN1、APN2两个APN 。若其为联通域内的SIM 卡，则其运营商代码为86。这种情况下就可以对其进行高峰时段及非高峰时段进行合理处理，分为为0、1。而资费组就需要进行All 默认程度的处理，若当前流量话费总体使用量为1.6KB ，则APN1、APN2分别使用流量为1.1/0.4KB 。而在高峰时段、非高峰时段流量损耗为1.1/0.5KB 。这种情况下，就需要对整体区域维度及储存变动情况进行合理评估。在这一环节储存变动主要为Storm 集群，即为消息系统-流量区域分析-流量区域累积-自动化规则阈值检测/区域组合统计-缓存系统。 3 结束语综上所述，从长期而言，基于Spark 的大数据混合计算模式具有良好的应用优势，其可以通过批处理、流计算、机器学习、图分析等模式的综合应用，满足物联网管理中的多个场景需要。而相较于以往物联网平台而已，基于流处理的大数据实时处理系统具有更为优良的数据压力处理性能。通过多种集群的整合，基于流处理的大数据实时处理系统在我国物联网平台将具有更加广阔的应用前景。参考文献 [1]欧阳晨.海关应用大数据的实践与思考 [J].海关与经贸研究,2016,37(03):33-43. [2]余焯伟.物联网与大数据的新思考[J]. 通讯世界,2017(01):1-2. [3]孙学义.物联网与大数据的新思考[J]. 科研,2017(03):00200-00200. 作者简介吴海建（1980-），男，浙江省衢州市人。硕士研究生，中级工程师。研究方向为人工智能。作者单位 1.中电海康集团有限公司浙江省杭州市 310012 2.中国电子科技集团第五十二研究所浙江省杭州市 310012

【CN110309848A】离线数据与流式数据实时融合计算的方法【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910380072.6 (22)申请日 2019.05.08 (71)申请人重庆天蓬网络有限公司地址 401135 重庆市渝北区龙兴镇迎龙大道19号 (72)发明人张翼飞　陈政　 (74)专利代理机构北京酷爱智慧知识产权代理有限公司 11514 代理人梁爱荣 (51)Int.Cl. G06K 9/62(2006.01) (54)发明名称离线数据与流式数据实时融合计算的方法 (57)摘要本发明提供了一种离线数据与流式数据实时融合计算的方法，属于计算机大数据处理技术领域，其首先确认结果数据的计算逻辑，整理需要的输入数据，根据计算结果过程中所有输入的数据的属性、特性的计算逻辑按实时性进行分类，分为两类。一类数据是代表历史的统计结果的离线型数据，另一类是实时性高的实时输入数据。这两部分输入数据经过聚合、计算、统计的才得出最后的实时统计结果。本发明在数据处理过程中，通过对数据进行分类，用适当的计算模式进行计算，兼顾数据的实时性以及数据的计算效率，使得结果数据可以更高效迅速的展现出来。权利要求书1页说明书7页附图2页CN 110309848 A 2019.10.08 C N 110309848 A

权　利　要　求　书1/1页CN 110309848 A 1.一种离线数据与流式数据实时融合计算的方法，其特征在于，包括： S1、首先确认结果数据的计算逻辑，整理需要的输入数据； S2、本发明根据计算结果过程中所有输入的数据的属性、特性、计算逻辑按实时性进行分类； S3、根据S2中的数据分类，进行处理； S4，当遇到离线型数据与实时输入数据需要关联时，采用流式处理的方式，在流式过程处理中去关联离线处理完成的离线型数据的计算结果，用此方法得到一个新的实时输入数据，所述新的实时输入数据是实时输入数据与离线型结果关联的结果数据； S5、用S3，S4步骤中的方式处理完计算过程中所有的输入，即得到最终的计算结果。 2.根据权利要求1所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述S3、S4步骤中的流式处理方式与实时输入数据与离线型结构的过程包括如下内容，101到104和103到106这两个过程是单纯的离线计算，102到105这个过程是单纯的流式计算，即上述流程描述中S3步骤中描述的计算过程。 3.根据权利要求2所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述S3、S4步骤中的流式处理方式与实时输入数据与离线型结构的过程包括如下内容，104和105到107的过程，以及107和106到108的过程，是离线型数据和实时输入数据关联的过程。 4.根据权利要求3所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述108为步骤S5中最终得到的计算结果。 5.根据权利要求1所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述步骤S2中根据计算结果过程中所有输入的数据的属性、特定的计算逻辑实时性进行分类，该分类为两类，一类数据是代表历史的统计结果的离线型数据，一类是实时性高的实时输入数据。 6.根据权利要求5所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述离线型数据和实时输入数据经过聚合、计算、统计后得到最后的实时统计结果。 7.根据权利要求6所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述处理单纯的离线型数据和实时输入数据，对离线型的数据用离线处理的方式进行处理，对实时输入数据，用流式计算的方式。 8.根据权利要求1所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述步骤S1中所述的结果数据包括计算过程中的中间结果，中间结果包括上一步的输出、下一步的输入。 9.根据权利要求1所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述步骤S4中离线型数据和实时数据的关联关系，包括两种，一种是同一种计算逻辑划分下的两份数据，是离线型数据和实时输入数据的加和；另一种是业务逻辑上的关联关系。 10.根据权利要求9所述的离线数据与流式数据实时融合计算的方法，其特征在于，所述业务逻辑上的关联关系需要先计算好离线型数据，然后在流式处理实时数据时，取出计算好的离线型数据结果，进行关联。 2