基于Storm的实时海量轨迹数据查询系统设计

1引言

随着科技的快速发展,大数据[1~2]时代的到来,

数据对于整个社会具有至关重要的作用,而海量轨迹数据具有较大的科研、经济、社会等价值,已经引起了各行业的高度重视。由于轨迹数据具有时空特性,轨迹数据的价值容易流失,有效期短。如何高效地查询这些实时的海量异构轨迹数据,己经成

为业内的研究热点。在智慧城市的建设中,能实时定位某公共交通的位置或了解其实时移动轨迹对市民的出行以及城市交通规划等方面意义重大,对这些实时的流式轨迹数据的查询成为智慧城市建设中的研究重点。本文以智慧城市建设中,南京某城区各种公共交通实时产生的轨迹数据作为本查询系统研究对象。

20世纪80年代末的实时数据查询系统主要为

基于Storm 的实时海量轨迹数据查询系统设计

?

谢小丽1,

2

山2

(1.武汉邮电科学研究院

武汉430074)(2.南京烽火软件科技有限公司

南京

210019)

大数据环境下,互联网及其它行业领域中时刻都在涌现出海量数据并快速增长,传统的查询系统框架存在着

数据量增大时无法满足用户实时查询的需求。提出了一种基于Storm 的海量轨迹数据实时查询系统设计方法,采用分布式实时计算系统Storm 平台对实时海量轨迹进行处理,利用CQL 语句对数据流实时查询,对于轨迹数据量较大情况下引起的系统利用率问题,采用动态负载均衡算法对本查询系统进行负载均衡,针对数据量过大超出系统处理上限的问题,设计了一种过载处理方法。通过具体业务数据对该系统进行性能测试,测试结果表明实时查询系统所面临的负载均衡问题得到了有效的改善,系统的实时性得到了明显的提高,能够满足海量轨迹数据的实时查询需求。

关键词

海量数据;Storm ;查询系统;负载均衡

中图分类号

TP391

DOI :10.3969/j.issn.1672-9722.2018.08.020

Design of Query System for Real-time Massive Heterogeneous

Trajectory Data Based on Storm

XIE Xiaoli 1,

2

LU Shan 2

(1.Wuhan Research Institute of Posts and Telecommunications ,Wuhan

430074)(2.Nanjing Fiberhome Software Technology Co.,Ltd.,Nanjing

210019)

Abstract

Under the environment of big data ,the massive data is being generated in the field of internet and other industries

and have a rapid growth.The traditional query system framework can not meet the needs of real-time query when the amount of data

increases.This paper present a real-time query system design method for massive trajectory data based on storm by using the distrib -uted real-time computing system for data processing and using the CQL to real-time query for the data stream.Aiming at the prob -lem of system utilization caused by the increase of the amount of trajectory data ,the dynamic load balancing algorithm is used to load balance the query system.An overload handling method is designed for the problem that the amount of data is too large to ex -ceed the upper limit of the system processing.The test results show that the load balancing problem of real-time query system is solved effectively ,and the real-time performance of the system is obviously improved according to the test performanceby specific business data ,which can meet the real-time query demand of massive trajectory data.

Key Words

big data ,Storm ,data query ,load balancing Class Number

TP391

收稿日期:2018年2月6日,修回日期:2018年3月27日

作者简介:谢小丽,女,硕士研究生,研究方向:大数据分析与信号处理。卢山,男,博士,研究方向:复杂系统分析,数据流和数据库技术及应用方面的研究开发和教学。?

万方数据

相关文档
最新文档