轨迹数据可视分析研究_王祖超

轨迹数据可视分析研究_王祖超
轨迹数据可视分析研究_王祖超

第27卷 第1期 计算机辅助设计与图形学学报

Vol. 27 No.1 2015年1月

Journal of Computer-Aided Design & Computer Graphics

Jan. 2015

修回日期:2014-11-06. 基金项目:国家自然科学基金(61170204, 61232012), 国家“九七三”重点基础研究发展计划项目(2015CB352500). 王祖超(1988—), 男, 博士研究生, 主要研究方向为轨迹数据可视分析; 袁晓如(1975—), 男, 博士, 研究员, 博士生导师, 论文通讯作者, 主要研究方向为可视化与可视分析.

轨迹数据可视分析研究

王祖超, 袁晓如*

(北京大学信息科学技术学院, 机器感知与智能教育部重点实验室 北京 100871) (xiaoru.yuan@https://www.360docs.net/doc/3913489619.html,)

摘 要: 轨迹数据大量产生于交通、气象、生态和移动服务等领域. 有效地理解和利用这些数据不仅需要自动高效的分析方法, 也需要直观生动的可视化; 这两者相互结合形成了可视分析技术. 文中概述了轨迹数据可视分析中的主要方法和交互技术, 并介绍了一系列应用案例. 最后, 文中总结了轨迹数据可视分析研究中的问题和面临的挑战.

关键词:可视分析; 轨迹数据; 交通数据; 移动数据 中图法分类号:TP391

Visual Analysis of Trajectory Data

Zuchao Wang and Xiaoru Yuan *

(Key Laboratory of Machine Perception (Ministry of Education), School of Electronic Engineering and Computer Science, Peking University, Beijing 100871)

Abstract: Large volumes of trajectory data are generated in transportation, meteorology, ecology and location based services. Effective understanding and utilization of such data require not only e cient automatic analysis, but also intuitive and vivid visualization. Visual analysis is the combination of analysis and visualization. In this paper, we will introduce the major methodologies and interaction techniques in trajectory visual analysis, fol-lowed by its applications. Finally, we summarize the problems and challenges in this research area.

Key words: Visual Analysis; Trajectory Data; Transportation Data; Movement Data 轨迹数据描述物体的空间位置和属性随时间的变化, 它多见于交通、气象、生态和移动服务等领域. 分析和理解这些轨迹数据能帮助人们研究许多重要问题. 然而, 要从庞杂的轨迹数据中挖掘出清晰和结构化的知识并不容易. 尽管统计分析、机器学习等自动分析技术已经相当强大, 但这些技术通常要求数据本身完整、正确、静态和结构化, 且数据的语义和分析的目标也必须是清晰明确[1]. 在真实的数据分析中, 以上的条件往往达不到, 因此完全自动的分析往往得不到理想的结果. 人们逐渐认识到, 人的参与在数据分析中有着的巨大

作用.

可视分析结合了可视化、人机交互和自动分析, 并使数据分析过程透明化. 在一个典型的可视分析流程中[1], 系统将自动分析的结果通过可视化展示给用户, 用户通过人机交互技术评价、修改和改进自动分析模型, 从而得到新的自动分析结果. 在这一过程中, 由人来定义分析任务和识别复杂的模式, 由机器来存储和分析大量的数据. 分析结果的可视化则成为人与机器合作的桥梁. 可视分析技术使得人们可以从轨迹数据中得到更多、更有用的知识.

10

计算机辅助设计与图形学学报 第27卷

图1 轨迹数据可视分析的3种方法

在进行可视分析前, 通常需要对轨迹数据进行预处理, 包括轨迹的切分重建、清理、压缩和存储. 特别是对于车辆轨迹数据来说, 一般还需要进行路网绑定处理来将轨迹的采样点对应到道路上. 这些预处理工作一般都通过自动算法完成[2–4].

在可视分析中, 人们关注的研究对象一般包括移动物体、空间区域、时间特征和移动事件[5]. 而分析中会涉及各式各样的轨迹参数[6], 既包括最原始的位置、时间参数, 也包括派生得到的距离、方向、空间分布、加速度等参数. 基于这些参数可以定义出一系列移动特征, 并将它们分为一般特征和行为特征. 其中一般特征适用于所有轨迹, 但缺少语义信息; 而行为特征通常对应了移动物体的具体行为, 有很强的语义性. 在不同的应用场景中可以定义不同的行为特征.

在过去几十年间, 国内外的研究者在轨迹数据可视分析方面做了大量的研究工作, 其中涉及的可视分析方法多种多样. 如图1[7]所示, 根据Andrienko 等的总结[7]按照可视化在分析流程中位置的不同, 相关方法大体可以分为3种:

直接可视化. 一一将每条轨迹绘制出来. 聚集可视化. 先计算轨迹的聚集数据, 然后再绘制这些聚集数据.

特征可视化. 先计算出轨迹的特征, 然后通过直接或者聚集的方法绘制这些特征.

近年来, Andrienko 等相继发表了轨迹数据可视分析的英文综述论文[8]和英文著作[5]. 本文将在其基础上进行进一步总结, 并以中文进行介绍. 相

较于Pu 等[9]的中文综述论文, 本文加入了许多近年来的新工作, 并将更详尽地介绍了各类可视分析方法, 总结目前研究的问题和面临的挑战. 本文将更多关注可视化的部分, 关于自动分析的部分可以参考Zheng 等的著作[4].

本文将依次介绍轨迹数据的3种可视分析方法, 以及交互方法; 并介绍轨迹数据可视分析的应用案例, 以及相关研究面临的主要问题与挑战; 最后进行总结.

1 直接可视化

直接可视化是最基本的可视分析方法, 它将轨迹数据一一绘制出来, 并显示给用户观察. 在这种方法中, 计算机做的主要是“可视”的部分, 而“分析”大部分依靠人来完成. 直接可视化的优点如下:

几乎不对数据做任何假设和建模, 因此可以较好地容忍数据中的噪音和异常值.

不要求有明确的分析任务, 因此很适合进行探索式分析.

不需要进行特别的计算, 结果简单明了, 而且最准确地保留了数据中的信息.

方法简单直接, 易于编程实现. 然而, 由于直接可视化方法过于直接, 它存在以下缺点:

不适用于大量轨迹的分析, 当轨迹很多时, 相互间的遮挡将非常严重.

第1期

王祖超, 等: 轨迹数据可视分析研究 11

人工分析相当漫长, 并且不够系统, 会漏掉许多特征.

用户需要完成大部分的分析工作, 任务繁重.

用户有时不知道需要观察和分析什么. 用户的分析过程有时候难以重现, 结果也难以评价.

直接可视化方法可以进一步分为位置动画、路径可视化、时空立方体、时间轴可视化以及平行坐标.

位置动画就是将移动物体的位置变化通过动画的方式播放出来. 移动物体的实时位置通常用一个点、方形或图标表示, 后面可以带一个小尾巴提示方向. 这种方法最为生动直观, 并且广泛应用. 例如, 图2a 所示为OpenDataCity [10]根据会场的无线网络记录制作了一个参会者的位置动画; 其中每一个点表示一个参会者, 其位置表示网络接入点. 当参会者在会场移动时, 小点会变成短线, 在不同的接入点之间飞来飞去. 动画方法强于展示数据和验证分析结果, 但是一般不适合分析比较.

图2 轨迹数据的直接可视化

路径可视化将轨迹路径绘制成地图上的一条折线, 以突出轨迹的空间位置信息. 这种方法的应用十分广泛, 包括车辆轨迹[11-12]、图2b 所示船舶轨迹[13]、

飓风轨迹[14]、人的轨迹[15-16]. 对于飞机[17]或者海洋生物[18]的轨迹, 其高度或深度也很重要, 这时可以将轨迹路径绘制成三维折线. 为了显示轨迹的属性随着位置的变化, 人们可以使用折线的颜色[11]、高度[16]和纹理[18]等视觉编码. Tominski 等[19]将折线扩展成彩色条带, 并在高度方向将不同轨迹的条带堆叠起来, 以方便轨迹间的比较. 有时为了表示移动物体位置的不确定性, 可以将某一时刻的位置点扩展为位置带, 由此来表示其处于各个位置的可能性[20]. 有些移动物体的路径完全固定, 例如公交车, 这时人们可以不用地图, 而使用普通的折线图表示其属性随位置的变化[21].

时空立方体技术[22]可以精确地表现二维轨迹位置随时间的变化. 如图2c [24]所示, 该技术使用x 和y 轴表示轨迹的二维位置, z 轴表示时间. 这样, z 方向的斜率就大致表示了移动速度. 在时空立方体中, 人们可以比较容易地看到单条轨迹的高速运动和停止, 以及多条轨迹的相遇与分离. Geo-Time 软件[23-24]在时空立方体技术的基础上, 进一步允许用户标注轨迹事件, 并可以将这些事件以文本的形式导出. 尽管时空立方体技术有众多的优点, 但由于轨迹间严重的相互遮挡, 它通常只能支持少数轨迹的可视分析.

时间轴可视化主要表现轨迹的属性或位置随时间的变化. Tominski 等[19]使用时间条带图表示车辆行驶速度随时间的变化, 如图2d [19]所示. 而Wang 等[25]试验了多种轨迹属性的时变可视化, 并使用

12

计算机辅助设计与图形学学报 第27卷

了三维的时间折线图. Thudt 等[26]进一步尝试了使用时间轴表示二维轨迹位置的变化; 其主要做法是先对轨迹分段, 然后将每段轨迹单独绘制在一个圆形的小窗口中, 最后将这些小窗口排列在时间轴上.

平行坐标(parallel coordinates)[27]是一种通用的高维数据可视化方法, 它可以展示轨迹在不同属性上的数值分布, 以及不同属性之间相关性. 如图2e [11]所示, Guo 等[11]在研究路口交通轨迹时, 使用平行坐标绘制了每条轨迹的多种属性, 包括起始时间、移动物体类别、平均速度、最大加速度等. 他们研究了这些属性之间的关系, 并通过属性筛选寻找到了一些异常交通事件. Lundblad 等

[13]

则使用平

行坐标研究了气象条件对船舶航行过程的影响.

2 聚集可视化

当轨迹数据较大时, 直接可视化由于轨迹间严重的相互遮挡问题已经不适用. 这时, 人们可以考虑使用聚集可视化. 在这种方法中, 轨迹数据先经过聚集计算得到一些聚集数据, 然后这些聚集数据被显示给用户观察. 聚集可视化的优点如下:

可以支持大量轨迹的可视分析.

可以直接回答许多涉及聚集特性的问题. 计算机分担了一些低层次的分析任务, .

同时, 聚集可视化存在一些缺点:

聚集计算需要保留一些重要信息, 同时丢弃一些不重要的信息. 然而, 有时用户并不清楚哪些信息是重要的, 尤其是在探索性较强、分析任务不明确时.

聚集数据有时不容易理解, 例如, 北京市交通流量最大的地区一天内的最小流量.

聚集可视化难以研究轨迹间的相互作用和相对运动[28].

聚集计算需要额外的编程实现. 轨迹数据的聚集计算在思想上和数据挖掘中的空间数据立方体[29]很相关, 它们都是基于一个多维数据模型, 并在每个维度上对数据做统计. 对于轨迹数据, 这些维度包括时间(记为T )、空间(记为S )、轨迹的路径(记为R)以及每个轨迹记录点上的属性值(记为A). 基于所选维度的不同, An-drienko 等[28]将聚集可视化方法分为时空和属性聚

集(S×T×A )、出发点-目的地聚集(S×S )和路径聚集(R ). 下面将一一介绍这3种方法.

2.1 时空和属性聚集

时空和属性聚集方法可以只作用于单个维度, 如空间聚集(S )、时间聚集(T )、属性聚集(A ); 它也可以作用于多个维度, 如时间属性聚集(T×A )、空间属性聚集(S ×A )、时空聚集(S×T )和时空属性聚集(S ×T ×A ). 它们的主要区别在于是否包含空间维度的聚集, 因此本节先介绍时间和属性聚集, 再介绍基于空间的聚集.

2.1.1 时间和属性聚集

时间聚集主要关注轨迹数目随时间的变化, 这在许多系统中都属于基本功能. 如图2a 所示, OpenDataCity [10]制作的位置动画界面下方的时间轴内嵌一个蓝色的直方图, 表示参会者数量随着时间的变化;用户可以利用该直方图直接跳跃到他感兴趣的时间段. Guo 等[11]的路口交通轨迹分析系统中也有类似的时间轴.

属性聚集主要关注轨迹属性的分布以及属性之间的相互关系, 一个例子是Willems 等[30]设计的船舶安全监控系统. 如图3a [30]所示, 界面左侧的直方图显示了船舶数据在单个属性上的分布, 而中央的轨迹属性关联表(trajectory contingency ta-ble)则显示了一对属性的相互作用.

时间属性聚集研究时间和属性之间的关系, 主要是属性分布随时间的变化. Zhao 等[31]的活动圆环图(activity ringmap)可以显示人们不同类型活动的强度随时间的变化; Liu 等[12]则通过类似的设计来表示出租车数量和速度随时间的变化; Guo 等[11]使用主题河技术(ThemeRiver) [32]表现一个路口不同类型的交通流量随时间的变化; 他们还在主题河中嵌入了一些白色小图标, 用来表示移动方向.

不同于以上工作, Landesberger 等[33]关注的是个体属性随时间的转换. 以人的活动轨迹为例, 他们关心的是, 在某段时间内有多少人的状态属性从“工作”转变为了“下班”, 之后又有多少人的状态属性从“下班”转变为了“在家”? 如图3b [33]所示, 他们采用了一个类似于平行集合(parallel sets) [34]的设计方式, 其中每根轴表示一个关键的时间点, 而相邻轴之间的条带表示了状态变化. 条带前后的颜色对应了前后的状态, 而条带宽度则对应发生此种状态变化的人数.

第1期

王祖超, 等: 轨迹数据可视分析研究 13

图3 轨迹数据的时空和属性聚集可视化

2.1.2 基于空间的聚集

空间聚集主要关注轨迹的空间密度绘制, 通常它需要先将空间划分为有限个互不重叠的区域, 然后分别统计每个空间单元内轨迹或位置点的密度, 最后将密度用各种形式展示出来. 其中颜色为最常用, 如图3d, 3e, 3g, 3i, 3j, 3k 所示; 此外, 还

可以使用如图3f, 3h 所示圆圈的大小、图3c 所示柱状图的高度或者三维曲面的高度等形式.

不同空间聚集方法的主要区别在于它们所使用的空间划分方法的不同. 最简单的情况是, 原始数据中的空间位置仅限于一些有限的预定义的地点, 例如蓝牙传感器或无线网络接入点, 这时就不

14 计算机辅助设计与图形学学报第27卷

需要进行空间划分. 图3c所示赛车数据的可视化[35]就是这样一个例子, 整个赛车场安装有17个蓝牙传感器, 可以记录经过的赛车; 其中红色的柱状图表示赛车经过每个传感器的次数. 为了显示每个预定义地点的时间信息, Bak等[36]设计了生长圆环图(growth ring map). 如图3f[36]所示, 其研究的是RFID传感器记录的小鼠行为数据, 当小鼠经过传感器时就会产生一条记录. 图中每个圆形图案对应一个传感器, 其大小表示小鼠经过的总次数, 颜色的深浅表示经过的时间.

大多数时候, 轨迹数据中的空间位置是任意的, 这时必须先进行空间划分. 空间划分的方式包括按照屏幕像素划分、按照均匀网格划分、按照行政区域划分和按照数据本身的密度进行多边形划分. 如果按照屏幕像素划分, 那么每个像素就对应了一个区域. 空间热度图(heat map)是这种划分下的一种典型的可视化方法, 它简单直接, 应用最为广泛; 不过, 它存在一些不足. 图3d[37]所示为美国特拉华海岸的船舶轨迹的热度图, 如图右下方的颜色过于均匀, 缺少信息量; 而左上方的颜色又比较杂乱, 表现出的热度很不连续, 而这种不连续一般是采样不足所造成的假象. Willems等提出的密度图(density map)[38]在这2点上要优于热度图, 如图3e[38]所示密度图使用核函数(kernel)对原始的密度进行了平滑. 特别地, 这里通过使用2种不同大小的核, 可以得到一个在空间上平滑变化的密度场D1和一个显示轨迹细节的密度场D2. 前者映射成颜色, 保证了颜色的连续性; 后者映射成高度, 结合光照效果能显示出轨迹细节. 在后续的工作[39]中, 密度图支持使用不同颜色显示多个密度场, 这样就可以在密度图中显示时间和属性信息[39]. 他们还增强了密度图的表达性和灵活性[40], 允许用户对轨迹进行筛选, 自己编辑公式计算新的属性值, 并且自己定义密度图的计算和渲染流水线. 此外, Peters等[41]尝试在密度图中添加更明显的方向信息, 而Demsar等[42]则尝试将密度图应用于时空立方体, 但效果都不理想. Willems等[43]通过用户实验研究了密度图在轨迹分析中的实际效果, 结果显示密度图主要强于表现轨迹中的停止特征; 而对于其他一些特征的表现, 密度图可能略差于动画或者时空立方体技术.

当用户需要更高层次的密度时, 可以采用均匀网格划分. 例如, Andrienko等将意大利米兰城划分成均匀网格区域, 并绘制了各区域的交通流方向分布和时间分布[44]. 图3i[44]所示为他们设计的用来表示交通流时间分布的马赛克图表(mosaic diagram). 他们在米兰城的每个区域内镶嵌了一个矩形的马赛克图案, 该图案有7列和24行, 分别对应一周的7天和一天的24小时, 颜色表示该区域在相应时刻的平均车辆行驶速度. 进一步, 他们对时间和空间进行了聚类分析[45]:可以将不同的区域按照时间特征进行聚类, 也可以将不同的时间段按照空间特征进行聚类. Pu等的工作[46]参考了马赛克图表, 使用环形图案来表示城市各区域车辆密度或者平均行驶速度随时间的变化. 用户也可以选择按照行政区域划分. 如图3j[47]所示, Fer- reira等[47]绘制了纽约市不同行政区域的出租车上下客次数; Zhao等[31]在行政地图上嵌入环形图案, 用以表示人们在不同区域的活动强度随一天24小时的变化, 如图3k[31]所示. 以上的空间划分方法都未考虑数据本身的空间分布, 因此可能造成一些不理想的情况. 例如, 可能只有少数区域密度高, 而其他大部分区域密度极低. 此外, 数据自然形成的高密度区域更接近多边形的, 而不是均匀网格或者行政区域. 为了解决以上问题, 如图3g[48]所示, Andirenko等[48]发展了一种基于数据本身空间分布的多边形划分方法. 该方法首先提取所有的轨迹记录点, 或者只是其中的关键点; 然后, 对这些点进行密度聚类, 并按照得到的点类位置对空间做Voronoi划分. 在后续的工作中[49], 他们将这种划分方法运用于分析手机通话数据和Flicker上的照片数据. Scheepens等[50]将某一时刻所有的船舶按照位置分成了许多簇, 对于每一簇统计出了其船舶类型、航行方向和移动比例的分布, 并用一个类似饼图的符号表现出来, 如图3h[50]所示. 该算法保证了这些绘制出来的符号不会相互遮挡. 2.2出发点-目的地聚集

出发点-目的地聚集考虑的是物体在空间区域之间的移动, 例如, 从A区域到B区域平均每天有多少车辆经过? 这类聚集方法同样要求空间区域的数量是有限的, 否则需要先进行空间划分. 接着, 该方法会计算任何一对区域之间的移动特征(例如流量). 这样, 轨迹数据实际上已经被转化成出发点- 目的地数据(origin-destination data, OD). OD数据描述的是物体在一对出发点、目的地之间的移动, 如人口迁移数据; 它和轨迹数据的区别是它不记录具体的移动路径. 因此, 接下来任何OD数据的可视化方法都可以使用, 包括流向图(flow map)、

第1期

王祖超, 等: 轨迹数据可视分析研究 15

OD 矩阵(OD matrix)和OD 图(OD map).

流向图最为直观, 它在地图上的区域之间直接绘制有向边, 并用边的宽度表示流量大小. To-bler [51]很早就研究了流向图, 并绘制了美国的人口迁移地图, 其中边的方向用箭头表示. 但是, 如图4a [52]所示, 流向图中的边经常会形成严重的相互遮挡,这是流向图的主要问题. 为了减少边遮挡, 研究者采取了各种各样的方法. Tobler [51]尝试了不同的箭头画法, 并提出过滤掉一些流量小的边. Guo [53]通过多层次的空间区域划分方法来控制边的数量. Selassie 等[54]采用了边捆绑(edge bundling)技术、通过弯曲边让相似的边相互靠近形成一束, 以减少相互遮挡, 如图4b [54]所示. 目前大部分边捆绑技术都不支持边的宽度, 因此无法用宽度表示流量大小. 但是, 如果用户选定一个中心区域, 只看和该区域相关的边, 那么已经有技术可以利用边的宽度了[55]. 流向图的一个变种是弧线图, 其中不同的空间区域并非画在地图上, 而是一字排开, 区域之间使用弧线表示流[56].

流通常有不同的属性, 还会随时间变化. 对于属性信息, 最常用的方法是用不同颜色的箭头表示不同属性的流. 然而, 这种方法每次只能表现一个属性, 对于有多个属性的流, 它无法同时表现所有属性. 针对这个问题, Guo [53]对所有的流按照高维属性特性进行了聚类, 用箭头的颜色表示每一类流.

对于时间信息, Boyandin 等[57]将流向图的3部分出发点、目的地和边分别画在3个界面中; 其中, 出发点和目的地分在左右2张地图上, 所有的边则按照时间对齐形成1张表放在中间. 这样可更清晰地表示流的时间信息, 并可以支持筛选排序等的分析任务.

OD 矩阵的方法来自图的矩阵表示[58]. 如图4c [44]所示, Andrienko 等[44]在研究意大利米兰的交通轨迹数据时, 不仅使用了界面左侧的流向图, 还使用了右侧的OD 矩阵. 在矩阵中, 每一行和每一列对应一个区域, 而每个单元格对应一对区域间的流. OD 矩阵对于区域之间聚类性的显示比较清晰, 但其在空间信息的表现上很不直观.

Wood 等[59]提出的OD 图利用嵌套的思想对OD 矩阵空间信息不直观的问题进行了改进. 如图4d [59]所示, 他们在研究美国人口迁移数据时, 将美国按照黑色的规则网格划分成一系列矩形区域, 得到的区域自然排列成了一个二维的矩阵; 接着, 在每个单元格内再嵌套这样一个二维区域矩阵. 这时, A 区域单元格内嵌套的B 区域单元格就对应A 到B 的流. 在其后续的工作[60]中, 还将该方法用于研究英国伦敦的公共自行车数据. OD 图本来只适用于按照规则网格划分的空间区域, 但Slingsby 等[61]在研究爱尔兰不同行政区之间的人口迁移时, 手动将这些区域排列成矩阵; 这样, 就将OD 图运用到了非规则网格划分的空间区域上.

图4 轨迹数据的出发点-目的地聚集可视化

16 计算机辅助设计与图形学学报第27卷

2.3路径聚集

前面介绍的聚集方法都是建立在事先对空间、时间或者属性进行划分的基础上, 而路径聚集则与它们不同. 路径聚集研究轨迹在路径上的分布, 但这些路径事先是未知的. 该方法先通过聚类算法得到经过不同路径的轨迹, 再将每类轨迹的路径显示出来. 比较有代表性的轨迹数据聚类算法包括基于概率的聚类[62]、基于分割的聚类(可以使用传统的K-means方法)、基于密度的聚类[63]、基于子轨迹的聚类[64]和基于流场的聚类[65]. 其中, 基于分割和密度的聚类使用最为广泛, 它们都需要预先指定合适的轨迹相似性函数(或者距离函数)[66]. 另外, 针对轨迹数据规模很大无法全都放在内存中、大部分的聚类方法都无法运行的情况, Andrienko等[67]提出了一些解决方案.

在实际问题中, 面对复杂的轨迹数据, 完全自动的聚类算法往往不能得到满意的结果. 因此, 一些可视化研究人员发展了交互式聚类方法:如Rinzivillo等[68]的渐进式的轨迹聚类系统, 允许用户在聚类过程中依次采用多种相似性函数进行不同层次的聚类; 用户也可以选择一些轨迹或者一些已有的聚类, 手动将其指定为一类或多类. 图5a[68]展示了他们的聚类结果, 其中得到的不同类别的轨迹是用不同颜色绘制出来的. 而Schreck等[69]开发了一个基于SOM的半监督轨迹聚类系统, 用户可以在SOM聚类开始前指定神经元和参数, 运行中动态观察新出现的模型并评价当前聚类质量, 完成后手动修改结果, 图5b[69]所示为其系统界面

.

图5 轨迹数据的路径聚集可视化

对于轨迹聚类结果, 最直接展示方法是如图

5a所示把相应的轨迹一一画出来[68]; 然而, 这时

轨迹间的相互遮挡经常会很严重. 因此, 许多时候

人们会绘制一类轨迹的聚集结果. 如图5c[70]所示,

Buliung等[70]为一类轨迹构建一个多边形包围盒,

也可以进一步显示轨迹中心的移动趋势. An-

drienko等[67]则利用出发点-目的地聚集的方法, 使

用流向图显示每一类轨迹, 如图5e[67]所示. 如果

聚类本身是基于某种模型, 那么对每一类轨迹可

以显示对应的模型. 如图5d[65]所示, Ferreira等[65]

的聚类算法将每一类轨迹拟合成一个流场; 因此,

可以将相应的流场显示出来作为这一类轨迹路径

的概括.

3特征可视化

可视分析最终的目的是帮助人们发现和分析

数据中的特征, 从而获得知识. 如果人们所关心的

特征比较确定并且能计算出来, 那么可以考虑特

征可视化的方法. 特征可视化先通过分析轨迹数

据提取出特征, 再将这些特征绘制出来.

特征可视化有一系列优点:

可以支持大量轨迹的可视分析.

可以直接研究用户最关注的特征, 在分

第1期

王祖超, 等: 轨迹数据可视分析研究 17

析任务明确时通常能给出最相关的结果.

相对于依靠用户寻找特征, 通过计算机自动搜索更加系统和高效.

计算机分担了大量的分析任务, 人的分析压力较小.

特征可视化的缺点如下:

特征计算丢失了与特征无关的大量信息, 但是这些丢失的信息有时会和用户关注的特征有很强的相关性, 甚至能够预测和解释这些特征.

特征计算要求用户很清楚自己的研究任务, 并且能清楚地定义自己感兴趣的特征, 因此对探索性较强的任务支持不好.

特征计算需要大量的编程实现. 特征可视化的方法大致可以分为事件可视化和模式可视化. 事件可视化关注的是满足特定条件的部分轨迹及其相关的事件, 例如交通拥堵事件; 模式可视化关注的是所有轨迹数据体现出的某种模式, 例如道路通行状况随时间和路段的变化.

3.1 事件可视化

根据Andrienko 等 [71]的定义, 满足一定条件的时间段称为事件; 如果事件同时有空间位置, 就成为了空间事件. 对于轨迹数据, 事件通常对应一些轨迹片段, 并且同时有时间和空间信息, 例如车辆

慢行和老虎捕食. 因此, 轨迹事件都是空间事件.

在事件可视化的方法中, 用户先提取事件, 再对事件进行显示和分析. 事件提取可以基于简单的轨迹属性筛选[72], 例如“速度低于10m/s 的车辆轨迹”; 也可以通过复杂一些的查询语句来完成[73], 例如“飞机在降落过程中突然向上飞行”. 有时事件提取也会需要用到专门的算法, 例如相遇事件[74]和低密度事件[75]的提取.

事件提取将轨迹数据转化成了空间事件数据, 接下来需要分析这些事件. 在车辆的相遇事件分析中, Andrienko 等[76]使用地图和时间条带图分别展示了事件的空间和时间分布. 此后, 在研究车辆的慢行事件时[72], 他们先根据空间、

时间和行驶方向对事件进行聚类, 然后使用不同的颜色将每一类事件显示在时空立方体中, 如图6a [72]所示. Doraiswamy 等[75]在提取了出租车上下客次数异常低的事件之后, 根据相似性对这些事件进行了归类整理, 并设计了一系列散点图, 以支持用户对这些事件的探索. 在城市交通拥堵分析中, Wang 等[2]根据拥堵的传播关系, 将不同路段上的拥堵事件组织成了拥堵传播图. 如图6b [2]所示, 用户可以查看单个传播图的细节, 也可以查看所有传播图的空间密度、时间分布、传播长度分布、传播时间分布以及拓扑聚类, 并据此进行筛选和排序

.

图6 轨迹数据的事件可视化

Andrienko 等[72]将轨迹数据事件可视化的分析流程总结为4个步骤:事件提取、地点提取、数据聚集和交互分析. 以车辆轨迹数据为例, 假定分析目标是研究城市的交通拥堵. 首先, 用户可以从轨迹数据出发, 通过速度属性提取车辆的慢行事件; 之后, 用户通过对这些事件按照空间位置和行驶方向聚类, 得到城市中经常拥堵的地点; 依据这些事件和地点, 用户可以计算出各种聚集数据, 例如

空间密度、时间分布、属性分布; 最终, 这些聚集数据将显示给用户, 以支持用户的交互式分析.

3.2 模式可视化

模式可视化研究的是所有数据中某个特征随时空和属性的变化模式. 按照Dodge 等[6]基于移动特征的分类, 模式可视化既可以关注一般特征也可以关注行为特征. 一般特征适用于几乎所有的轨迹数据, 而行为特征只在特定的应用中有意义.

18

计算机辅助设计与图形学学报 第27卷

对于一般特征, 目前研究较多的是多个轨迹之间的相互关系, 例如移动物体的相对位置; 研究者会为这些量设计可视化的表达方式.

对于行为特征, 如果研究目标不是很明确, 这时研究者会从轨迹中挖掘一些低层次的语义信息, 例如每段轨迹对应移动者的何种活动. 原始数据和这些语义信息会被一起呈现给分析人员, 以支持一些简单的交互式探索. 如果研究目标很明确, 那么研究者会直接计算出特征并显示出来, 例如出租车司机寻找乘客的策略. 本节将以上3种情况简称为一般特征模式可视化、探索式的行为特征模式可视化和目标明确的行为特征模式可视化. 3.2.1 一般特征模式可视化

当研究的特征是标量时, 通常可以使用简单 的可视分析方法. 例如, Crnovrsanin 等[77]使用一个简单的时间折线图表现了不同动物到临近水源的

距离随时间的变化. 而在图7a [78]中, Landesberger 等[78]同样使用时间折线图展示了多个移动物体的群体移动属性随时间的变化.

当研究的特征是位置时, 可以采用空间变换的方法. 如图7b [79]所示, Andrienko 等[79]将一群共同移动的人的轨迹分解为群体中心的移动加上个体相对于群体中心的位置变化; 后者显示了个体间的相互关系, 以及他们在群体中的角色. Crnov- rsanin 等[77]通过PCA 变换, 将原本在自然空间中密集分布的轨迹分散开来, 从而展示出更多细节.

相比于空间变换方法, Chavoshi 等[80]采取了更为直接的抽象编码方法来分析位置特征. 他们在研究人四肢的运动轨迹时, 对时间信息以及四肢间相对距离的增减进行了编码; 最终, 采用一系列的嵌套方格的形式来表现不同运动模式出现的频次

.

图7 轨迹数据的模式可视化

第1期王祖超, 等: 轨迹数据可视分析研究 19

3.2.2 探索式的行为特征模式可视化

在行为特征的可视分析中, 如果研究目标不是很明确, 研究者会从轨迹中挖掘一些低层次的语义信息, 以辅助探索. Parent等[3]总结了处理轨迹数据中语义信息的方法, 并将其分为2大类:语义充实(semantic enrichment)和行为知识提取(behavior knowledge extraction). 其中, 语义充实指的是为轨迹数据中的整条轨迹或者每个轨迹点添加表示语义的属性, 例如每个点可以添加“工作”、“在家”等活动状态; 行为知识提取则是指对轨迹数据使用数据挖掘方法, 如分类、聚类、公共序列发现或者相互关系分析.

Spretke等[81]在分析鸟类迁徙的轨迹数据时, 根据几何特性对轨迹进行了切分, 并对子轨迹再聚类; 且允许用户根据自己的经验将每一类子轨迹标注成一类行为. Krüger等[82]在分析了自行车轨迹时, 搜索了终点附近的Twitter数据, 并提取出关键词标注在了地图上, 如图7c[82]所示. 由此, 用户可以根据关键词大致猜测出这些轨迹的语义. 在后面的一项工作[83]中, 他们又尝试根据终点附近的兴趣点(point of interest, POI)来研究轨迹的语义. Andrienko等[84]将人在不同位置之间的移动轨迹转换为在不同语义位置之间的移动, 并用流向图展示出来. Ding等[85]借用了文本分析中的LDA 方法, 提取了出租车数据的“话题”; 其中, 每个话题以一定的概率包含某些道路, 而每条出租车轨迹则以一定的概率属于某些话题. 接着, 他们通过地图、时序图、火花谱线云(spark cloud)等方式显示了不同话题的时空分布, 如图7d[85]所示.

3.2.3 目标明确的行为特征模式可视化

在行为特征的可视分析中, 如果研究目标很明确, 那么就可以直接计算出特征并显示出来. 使用这种方法的研究工作一般都和具体的应用问题结合很紧密, 其具体可视化方案也因应用的不同而不同. 下面举一些例子来说明.

在城市交通状况分析方面, Wang等[86]关注单条道路的状态. 当用户选定一条道路时, 系统会自动提取经过这条道路的出租车轨迹, 并计算出其速度、流量、密度的时空分布, 以及进出路段的拓扑类型分布. 在此基础上, 他们设计了地图、道路双向交通流比较、速度距离、速度流量、拓扑分布等多个视图, 从多个角度支持用户的分析, 如图7e[86]所示. Wang等[87]的研究使用了新型的智能交通基站数据,除了展示基站处交通的流量、速度变化模式, 还允许用户研究一个基站拥堵时周围道路流量的变化, 由此来分析拥堵的原因或者影响.

在城市交通可达性分析问题, Zeng等[88]计算了乘客从一个公交或地铁站点出发到达其他站点的时间花费; 他们设计了多种可视化形式, 包括一个可达性地图, 以及图7f[88]所示旅程图. 在该图中, 横轴表示时间, 左边的红点表示从起点出发, 而右侧的分支表示到达其他各个站点. 这里有2个终点被选中, 然后系统显示了在不同时间出发抵达这2个终点所需时间的变化, 以及在当前时刻出发的预计的旅程中不同段的时间花费. Wu等[89]采取了另一种研究方法, 他们计算了不同时刻的可达性边界, 并设计了BoundarySeer系统用于分析了该边界随时空的变化情况.

除此之外, Liu等[12]研究了出租车路径选择的多样性, Zeng等[90]研究了乘客在地铁站内的换乘模式, 而Gao等[91]研究了出租车司机的载客策略.

4用户交互

在轨迹数据可视分析中, 用户交互主要包括在可视化界面中进行的数据排序、筛选和参数调节, 以及对分析算法进行的模型选择和参数调节. 其中, 数据排序、模型选择和参数调节一般通过标准的图形控件完成, 这部分内容本文不专门讨论. 但是, 数据筛选一般都需要交互设计. Andrienko等[5]认为, 数据筛选的对象可以包括轨迹、轨迹片段、移动者和相关分析对象(例如事件). 具体的筛选方法可以按照不同的筛选条件进行区分, 包括时间筛选、属性筛选和空间筛选.

时间筛选的主要目的是选定分析的时间范围, 例如某一天的早上8点到11点. 这种筛选有时通过操作标准的图形控件来完成[47], 有时也通过刷选时间轴来完成[11]. 有些分析需要进行周期性时间选择, 例如所有周日的早上8点到11点, 这时可以使用多层次的时间轴设计. 如图8a[92]所示, Krüger 等[92]的时间轴有多层, 分别支持年、月、日、小时等不同时间尺度的选择. Ferreira等[47]的工作中也有类似的设计.

属性筛选的主要目的是选定符合特定属性条件的轨迹、轨迹片段、移动者或者事件. 对于单属性的筛选, 可以通过滑动条、双滑动条[72]或者柱状图[47]来完成. 如果筛选时需要考虑多个属性的相

20

计算机辅助设计与图形学学报 第27卷

图8 轨迹数据筛选的交互方法

关性, 那么可以使用图2e 所示平行坐标或者散点图[11].

空间筛选较为复杂. 对于空间事件、空间静态物体等数据的筛选, 一般采用标准的套索(lasso)工具或者涂刷工具指定一块区域,从而选中该区域内部的数据. 而对于空间轨迹的筛选, 按照任务则可以分为基于路径的空间筛选和基于位置的空间筛选. 前者筛选给定时间段内符合某种路径条件的轨迹; 后者筛选某一时刻处于某位置的移动物体.

基于路径的空间筛选需要用户指定路径条件. Chang 等[93]根据用户涂刷的区域形状搜索形状最相似的轨迹. Guo 等[11]研究了3种主要的路径条件:经过的位置、起始和终止位置、几何形状. 如图8b [11]所示, 以路口交通轨迹数据为例, 从左到右依次根据经过的位置、进入和离开方向以及轨迹的形状指定筛选. 如果需要选择经过某位置的轨迹, 则可以在地图上圈选出该位置; 如果需要选择从特定方向进入和离开轨迹, 可以通过环形滑动条指定相应的方向; 如果需要选择具有特定几何形状的轨迹, 可以在地图上画出相应的形状, 并让系统自动匹配形状相似的轨迹. Hurter 等[17]进一步研究了使用经过位置条件的筛选, 并提出了“刷选—选取—放下”的筛选流程. 如图8c [17]所示, 先通过涂刷的方式定义空间区域, 可以将选中的轨迹

直接拖拽出来, 同时产生一张新的可视化图片; 在新的图片中, 用户可以重复该流程, 做进一步的筛选. Ferreira 等[47]允许用户使用圈选加箭头的方式表示指定起始和终止位置, 如图8d [47]所示. Krüger 等[92]则允许用户通过环形镜头来指定轨迹的起始终止位置以及途经位置, 如图8e 所示[92].

基于位置的空间筛选需要用户先选中一个时刻, 再选择一个位置区域. Bouvier 等[15]允许用户通过一个时间轴来选择时间, 再在地图上选择区域. 用户可以通过改变时间来查看刚刚选中的移动物体在其他时间的位置分布. 在图2a 所示OpenDataCity [10]制作的动画中, 当用户点击地图时, 动画立即暂停, 当前时刻自动被选中. 于是, 用户可以不放开鼠标直接拖出一个矩形的空间区域, 将其作为空间选择.

5 应用案例

轨迹数据可视分析应用广泛. 在社会科学领域, 人们主要关注人的行为. 可视分析首先可以通过动画的形式直观地展示人的移动[10], 如图2a 所示. 它也可以帮助挖掘人们的行为模式, 例如儿童在户外游戏中的位置靠近以及在关键地点的停留[94]. 在行为研究中, 很重要的一点是研究行为的目的

第1期王祖超, 等: 轨迹数据可视分析研究 21

或者语义, 这方面有不少可视分析工作. 对于单个人的轨迹, Thudt等[26]总结了一个游客连续游览多个景点的行为; Andrienko等[84]总结私家车主每天在住处、工作地、商店等场所之间的往来模式. 对于几个人的轨迹, GeoTime技术[23-24]可以支持分析人员对单人行为或者多人相互作用的可视化标注, 如图2c所示, 并最终形成一个描述性的故事. 对于大量人的轨迹, Zhao等[31]研究了不同类型活动的强度随时间和区域的变化, 如图3k所示; Lan-desberger等[33]则研究了如图3b所示不同活动类型的转换模式, 例如, 在某段时间内有多少人从“工作”状态转变为了“在家”状态. 此外, Krüger等尝试了根据Twitter数据[82]和POI数据[83]来半自动地推测人的出行目的.

在生物领域, 科学家们需要研究动物的行为. 可视分析技术首先可以展示动物轨迹的细节, 尤其是海洋生物的三维运动轨迹[18]. 此外, 可视分析技术还可以帮助研究动物个体在群体中的角色[79], 以及标注动物移动的语义[81].

在城市交通领域, 人们可以根据出租车GPS 数据计算各条道路或各个区域的交通速度、流量、占有率等统计量, 从而监控城市交通的运转状况. 尽管Google地图等在线地图可以显示实时交通状况, 但道路交通管理人员需要分析长时间的道路交通状况, 以评价各条道路的通行能力是否足够, 发现瓶颈路段的瓶颈时间, 进而采取相应的对策. 轨迹数据可视分析技术提供了多种方式, 以显示大量道路或区域长时间的交通模式[43,45]. 此外, 如图7e所示, Wang等的工作[86]可以详细研究一条路段的交通状况, 而Wang等的工作[87]则从网络分析的角度着重于研究一个区域的交通状况和周围链路交通的关联性. 当道路通行能力不足时, 就会发生交通拥堵, 它是现代城市面临的重要问题. 而轨迹数据可视分析可以帮助人们研究如图6a所示交通拥堵经常发生的位置和时间[72], 以及如图6b 所示拥堵在路网上的传播模式[2]. 城市交通经常会受到气候条件或者社会事件的影响, Ferreira等[47]通过可视化比较分析了飓风对纽约市出租车运营情况的影响, 而Doraiswamy等[75]则通过检测出租车上下客密度的异常来系统性的发现社会事件的影响. Zeng等[88]和Wu等[89]研究了城市公共交通的可达性问题, 即从一点出发到达其他地点的旅行时间, 以及该旅行时间在一天中的变化. 此外, Liu 等[12]研究了出租车司机的路径选择问题, Gao等[91]研究了出租车司机的载客策略. Zeng等[90]研究了乘客在地铁站内的换乘模式, Nagel等[56]则研究了一条公交车线路上乘客的OD模式.

在船舶监控领域, 人们需要监控大量船舶的航行状态; 这些船舶的类型、速度、方向各不相同. 要精确地展示出这些细节, 仅仅依靠在地图上用一个图标表示一艘船的方法并不是非常有效. Scheepens等[50]使用饼图符号的方式概括了大量船舶的位置和属性分布, 如图3h所示. 由于船舶航行受天气影响很大, 因此Lundblad等[13]展示了航线上预计会遇到的天气, 以帮助船舶发现并避开恶劣天气, 如图2b所示. 为了发现偏离航道的以及低速行驶的船舶, Willems等[38]发展了密度图技术, 如图3e所示. 而为了比较不同时间航道的繁忙程度, 并比较不同类型船舶对不同航道的偏好, Willems等[30]发展了轨迹属性关联表技术, 如图3a 所示.

除此之外, 轨迹数据可视分析技术还可以运用于民航监控[17]、舞蹈动作分析[80]、环境监测[19]、飓风分析[14]、情报分析[15,75]和移动软件测试[93]等众多领域.

6问题与挑战

随着轨迹数据更加大量产生和社会的高速发展, 新的研究问题一直在不断被提出. 本节将列举一些重要的和有挑战性的问题.

首先, 大量的轨迹数据需要有合适的存储和查询方式. 尽管目前已经有专门的轨迹数据库[95], 然而对于大数据, 一条简单的查询也可能需要数小时才能返回结果, 这导致交互式的可视分析几乎无法进行. 可视分析研究者已经在大数据方面做了一些探索性的工作:例如, Lins等[96]针对空间点数据设计了类似数据立方体的聚集机制, 并构建了特殊的数据结构来存储这些聚集数据; 他们的系统可以利用有限的内存, 实时返回GB量级数据的聚集属性查询结果. Fisher等[97]则通过一些用户研究说明, 大数据的查询结果可以通过一系列小样本的查询结果来逼近. 在他们的系统中, 每次小样本查询都返回查询结果和误差估计; 系统会自动地不断增大样本容量, 更新查询结果和误差估计. 当用户认为结果已经足以支持决定时, 就可以停止查询; 这样原本需要半天的查询可能在10 min 内就完成了.

22 计算机辅助设计与图形学学报第27卷

使用可视分析技术帮助进行轨迹数据的预处理也是一个可能的研究问题. 在大部分真正的数据分析中, 最为耗时的步骤可能都是数据预处理. 轨迹数据也是如此. 以轨迹数据的清理为例, 原始的轨迹数据中总是存在大量的错误和信息缺失. 对于这些错误和缺失的处理, 人们通常没有一个固定算法, 因为不同的数据中会有不同的错误. 很多预处理中的决定都依赖于分析人员的经验和对问题的理解. 然而, 对于大量的轨迹数据, 让人一条轨迹、一条轨迹的清理显然是不现实的. 因此, 计算机的自动高效处理不可或缺. 从直觉上来看, 可视分析结合了人的智慧和计算机的高效, 应该很适合解决预处理的问题; 然而事实上, 目前这方面的工作还很少[98-99].

可视分析研究需要与应用领域更好的结合. 可视分析系统是为了解决实际问题的, 因此需要集成特定应用领域的自动分析方法. 此外, 由于可视分析系统的用户往往是应用领域的分析人员, 因此交互的设计也需要符合他们的习惯. 为了做到这些, 可视分析研究人员需要对应用领域的现有研究问题和方法有较深入的了解, 并与应用领域的专家保持充分的沟通和长期的合作. 最终, 只有应用领域的专家才能够评价可视分析系统是否真的能帮助他们研究问题. 然而, 与应用领域的专家合作往往存在许多交流问题, 并且会使得系统的设计周期很长. 此外, 应用领域的专家需要的功能也许在可视分析研究者看来并没有研究价值, 而可视分析研究人员可能也没有足够的精力去实现和维护一个完整、正确和可用的系统提供给应用领域专家. 因此, 将可视分析研究和应用领域更好地结合是一个很困难的问题.

最后, 自动分析和交互式的探索需要更好的结合, 这种结合是可视分析技术最重要的特点. 然而, 在目前的系统中, 可视分析基本上仅限于描述性的和探索性的分析, 例如查看数据分布、寻找异常行为. 尽管这2种分析很重要, 但它们却并不足以解决实际问题. 实际问题需要确定性的答案, 例如明天交通会拥堵吗? 什么导致了交通拥堵? 采取何种措施才能缓解交通拥堵? 回答这些问题需要推断性的、预测性的和因果性的分析, 甚至需要建立能精确模拟现实情况的机械性模型. 因为问题本身的复杂性, 这些分析并不能完全自动完成, 其中的参数选择和模型设计以及模型评价等问题需要大量的人工干预. 因此, 可视分析技术需要更多地考虑这些类型的分析任务.

7结语

本文概述了轨迹数据可视分析的主要方法、交互设计以及应用场景. 未来越来越多的轨迹数据将被采集和记录, 而轨迹数据可视分析的需求也将持续增长. 目前该领域仍然存在许多重要的问题和挑战, 需要继续进行深入的研究.

参考文献(References):

[1] Keim D, Andrienko G, Fekete J. D, et al. Visual analytics:

De?nition, process, and challenges [M]. Information Visualiza-

tion, Heidelberg: Springer, 2008: 154–175

[2] Wang Z, Lu M, Yuan X, et al. Visual traffic jam analysis based

on trajectory data [J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2159–2168

[3] Parent C, Spaccapietra S, Renso C, et al. Semantic trajectories

modeling and analysis [J]. ACM Computer Survey, 2013, 45(4): 42:1–42:32

[4] Zheng Y, Zhou X, eds. Computing with spatial trajectories [M].

New York: Springer, 2011

[5] Andrienko G, Andrienko N, Bak P, et al. Visual Analytics of

Movement [M]. New York: Springer, 2013

[6] Dodge S, Weibel R, Lautenschütz A. K. Towards a taxonomy

of movement patterns [J]. Information Visualization, 2008, 7(3): 240–252

[7] Andrienko G, Andrienko N, Dykes J, et al. Geovisualization of

dynamics, movement and change: key issues and developing approaches in visualization research [J]. Information Visualiza-

tion, 2008, 7(3): 173–180

[8] Andrienko N, Andrienko G. Visual analytics of movement: an

overview of methods, tools, and procedures [J]. Information Visualization, 2013, 12(1): 3–24

[9] Pu Jiansu, Qu Huamin, Ni Lionel. Survey on visualization of

trajectory data [J]. Journal of Computer-Aided Design & Computer Graphics, 2012, 24(10): 1273–1282(in Chinese)

(蒲剑苏, 屈华民, 倪明选. 移动轨迹数据的可视化[J].计算

机辅助设计与图形学学报, 2012, 24(10):1273–1282) [10] OpenDataCity, Visitor ?ow analysis by publica wireless [OL].

[2014-11-06]. http://apps.opendatacity.de/relog

[11] Guo H, Wang Z, Yu B, et al. Tripvista: Triple perspective visual

trajectory analytics and its application on microscopic traffic data at a road intersection [C] // Proceedings of IEEE Pacific Visualization Symposium. Los Alamitos: IEEE Computer So-

ciety Press, 2011: 163 –170.

[12] Liu H, Gao Y, Lu L, et al. Visual analysis of route diversity [C]

// Proceedings of IEEE Conference on Visual Analytics Science

and Technology. Los Alamitos: IEEE Computer Society Press, 2011: 171 – 180

[13] Lundblad P, Eurenius O, Heldring T. Interactive visualization

of weather and ship data [C] // Proceedings of International

第1期王祖超, 等: 轨迹数据可视分析研究 23

Conference Information Visualization. Los Alamitos: IEEE

Computer Society Press, 2009: 379–386

[14] Wang Z, Guo H, Yu B, et al. Interactive visualization of 160

years’ global hurricane trajectory data [C] // Proceedings of

IEEE Pacific Visualization Symposium (Poster). Los Alamitos:

IEEE Computer Society Press, 2011:37-38

[15] Bouvier D. J, Oates B. Innovative trace visualization staining

for information discovery [C] // Proceedings of IEEE V AST

Challenge (Poster). Los Alamitos: IEEE Computer Society

Press, 2008: 219–220

[16] Andrienko G, Andrienko N. Exploration of massive movement

data: a visual analytics approach [OL]. [2014-11-06].

https://www.360docs.net/doc/3913489619.html,/conference_paper/cds/agile_2008/p

df/66_doc.pdf

[17] Hurter C, Tissoires B, Conversy S. Fromdady: Spreading air-

craft trajectories across views to support iterative queries [J].

IEEE Transactions on Visualization and Computer Graphics,

2009, 15(6): 1017–1024

[18] Ware C, Arsenault R, Plumlee M, et al. Visualizing the under-

water behavior of humpback whales [J]. IEEE Computer

Graphics and Application, 2006, 26(4): 14–18

[19] Tominski C, Schumann H, Andrienko G, et al. Stacking-based

visualization of trajectory attribute data [J]. IEEE Transactions

on Visualization and Computer Graphics, 2012, 18(12):

2565–2574

[20] Stoll M, Krüger R, Ertl T, et al. Racecar tracking and its visu-

alization using sparse data [OL]. [2014-11-06].

http://www.vis.uni-stuttgart.de/~cvis/publications/stoll_sportvis

13.pdf

[21] W?rner M, Ertl T. Visual analysis of public transport vehicle

movement [C] // Proceedings of International EuroVis Work-

shop on Visual Analytics. Aire-la-Ville: Eurographics Associa-

tion Press, 2012 : 79-83

[22] H?gerstrand T. What about people in regional science? [J]. Pa-

pers in Regional Science, 1970, 24:6–21

[23] Kapler T, Wright W. Geotime information visualization [C] //

Proceedings of IEEE Symposium on Information Visualization.

Los Alamitos: IEEE Computer Society Press, 2004: 25–32 [24] Eccles R, Kapler T, Harper R, et al. Stories in geotime [C] //

Proceedings of IEEE Symposium on Visual Analytics Science

and Technology. Los Alamitos: IEEE Computer Society Press,

2007: 19–26

[25] Wang Z, Yuan X. Urban trajectory timeline visualization [C] //

Proceedings of International Conference on Big Data and

Smart Computing. Los Alamitos: IEEE Computer Society Press,

2014: 13–18

[26] Thudt A, Baur D, Carpendale S. Visits: A spatiotemporal visu-

alization of location histories [C] // Proceedings of Eurograph-

ics Conference on Visualization (Short Papers). Aire-la-Ville:

Eurographics Association Press, 2013:79-83

[27] Inselberg A. The plane with parallel coordinates [J]. The Visual

Computer, 1985, 1(2): 69–91

[28] Andrienko G, Andrienko N. A general framework for using ag-

gregation in visual exploration of movement data [J]. The Car-

tographic Journal, 2010, 47(1): 22–40

[29] Han J, Stefanovic N, Koperski K. Selective materialization: An

e cient method for spatial data cube construction [M]. Lecture

Notes in Computer Science. Heidelberg: Springer, 1998, 1394: 144–158

[30] Willems N, van Hage W R, de Vries G, et al. An integrated ap-

proach for visual analysis of a multisource moving objects knowledge base [J]. International Journal of Geographical In-

formation Science, 2010, 24(10): 1543–1558

[31] Zhao J, Forer P, Harvey A. S. Activities, ringmaps and geovisu-

alization of large human movement ?elds [J]. Information Vi-

sualization, 2008, 7(3-4): 198–209

[32] Havre S, Hetzler E. G, Whitney P, et al. Themeriver: Visualiz-

ing thematic changes in large document collections [J]. IEEE Transactions on Visualization and Computer Graphics, 2002, 8(1): 9–20

[33] von Landesberger T, Bremm S, Andrienko N, et al. Visual ana-

lytics methods for categoric spatio-temporal data [C] // Pro-

ceedings of IEEE Conference on Visual Analytics Science and Technology. Los Alamitos: IEEE Computer Society Press, 2012: 183–192

[34] Kosara R, Bendix F, Hauser H. Parallel sets: Interactive explo-

ration and visual analysis of categorical data [J]. IEEE Transac-

tions on Visualization and Computer Graphics, 2006, 12(4): 558–568

[35] Andrienko N, Andrienko G, Stange H, et al. Visual analytics for

understanding spatial situations from episodic movement data [J]. Künstliche Intelligenz, 2012, 26(3): 241–251

[36] Bak P, Mansmann F, Janetzko H, et al. Spatiotemporal analysis

of sensor logs using growth ring maps [J]. IEEE Transactions on Visualization and Computer Graphics, 2009, 15(6): 913–920 [37] Density of vessel tracks off the coast of Delaware [OL].

[2014-11-06]. https://www.360docs.net/doc/3913489619.html,/pr

ojects/8084/images/199154/large/3l-image.jpg.

[38] Willems N, van de Wetering H, van Wijk J J. Visualization of

vessel movements [J]. Computer Graphics Forum, 2009, 28(3): 959–966

[39] Scheepens R, Willems N, van de Wetering H, et al. Interactive

visualization of multivariate trajectory data with density maps

[C] // Proceedings of IEEE Pacific Visualization Symposium.

Los Alamitos: IEEE Computer Society Press, 2011: 147 –154 [40] Scheepens R, Willems N, van de Wetering H, et al. Composite

density maps for multivariate trajectories [J]. IEEE Transac-

tions on Visualization and Computer Graphics, 2011, 17(12): 2518–2527

[41] Peters S, Krisp J M. Density calculation for moving points

[OL]. [2014-11-06]. https://www.360docs.net/doc/3913489619.html,/conference_p

aper/cds/agile_2010/shortpapers_pdf/135_doc.pdf

[42] Demsar U, Virrantaus K. Space-time density of trajectories:

exploring spatio-temporal patterns in movement data [J]. Inter-

national Journal of Geographical Information Science, 2010, 24(10): 1527–1542

[43] Willems N, van de Wetering H, van Wijk J J. Evaluation of the

visibility of vessel movement features in trajectory visualiza-

tions [J]. Computer Graphics Forum, 2011, 30(3): 801–810 [44] Andrienko G, Andrienko N. Spatiotemporal aggregation for

visual analysis of movements [C] // Proceedings of IEEE Symposium on Visual Analytics Science and Technology. Los Alamitos: IEEE Computer Society Press, 2008: 51–58

[45] Andrienko G, Andrienko N, Bremm S, et al. Space-in-time and

24 计算机辅助设计与图形学学报第27卷

time-in-space self-organizing maps for exploring spatiotempo-

ral patterns [J]. Computer Graphics Forum, 2010, 29(3): 913–922

[46] Pu J, Liu S, Qu H, et al. Visual ?ngerprinting: A new visual

mining approach for large-scale spatio-temporal evolving data

[M]. Lecture Notes in Computer Science. Heidelberg: Springer,

2012, 7713: 502–515

[47] Ferreira N, Poco J, V o H. T, et al. Visual exploration of big spa-

tio-temporal urban data: A study of new york city taxi trips [J].

IEEE Transactions on Visualization and Computer Graphics,

2013, 19(12): 2149–2158

[48] Andrienko N, Andrienko G. Spatial generalization and aggrega-

tion of massive movement data [J]. IEEE Transactions on Vi-

sualization and Computer Graphics, 2011, 17(2): 205 –219 [49] Andrienko G, Andrienko N, Mladenov M, et al. Discovering

bits of place histories from people’s activity traces [C] // Pro-

ceedings of IEEE Conference on Visual Analytics Science and

Technology. Los Alamitos: IEEE Computer Society Press, 2010: 59–66

[50] Scheepens R, van de Wetering H, van Wijk J J.

Non-overlapping aggregated multivariate glyphs for moving objects [C] // Proceedings of IEEE Pacific Visualization Sym-

posium. Los Alamitos: IEEE Computer Society Press, 2014:

17-24

[51] Tobler W. Experiments in migration mapping by computer [J].

Cartography and Geographic Information Science, 1987, 14(2):

155–163

[52] Tobler W. Movement mapping [OL]. [2014-11-06]. http://w

https://www.360docs.net/doc/3913489619.html,/clearinghouse/FlowMapper/MovementMapping.p

df, 2003

[53] Guo D. Flow mapping and multivariate visualization of large

spatial interaction data [J]. IEEE Transactions on Visualization

and Computer Graphics, 2009, 15(6): 1041 –1048

[54] Selassie D, Heller B, Heer J. Divided edge bundling for direc-

tional network data [J]. IEEE Transactions on Visualization and

Computer Graphics, 2011, 17(12): 2354–2363

[55] Verbeek K, Buchin K,Speckmann B. Flow map layout via spi-

ral trees [J]. IEEE Transactions on Visualization and Computer

Graphics, 2011, 17(12): 2536–2544

[56] Nagel T, Maitan M, Duval E, et al. Touching transport a case

study on visualizing metropolitan public transit on interactive

tabletops [C] // Proceedings of International Working Confer-

ence on Advanced Visual Interfaces. New York: ACM Press,

2014: 281–288

[57] Boyandin I, Bertini E, Bak P, et al. Flowstrates: An approach

for visual exploration of temporal origin-destination data [J].

Computer Graphics Forum, 2011, 30(3): 971–980

[58] Henry N, Fekete J.-D. Matrixexplorer: a dual-representation

system to explore social networks [J]. IEEE Transactions on

Visualization and Computer Graphics, 2006, 12(5): 677 –684 [59] Wood J, Dykes J, Slingsby A. Visualization of origins, destina-

tions and ?ows with OD maps [J]. The Cartographic Journal,

2010, 47(2): 117–129

[60] Wood J, A. S, Dykes J. Visualizing the dynamics of london’s

bicycle hire scheme [J]. Cartographica, 2011, 46(4): 239–261 [61] Slingsby A, Kelly M, Dykes J, et al. OD maps for studying

historical internal migration in Ireland [OL]. [2014-11-06].

https://www.360docs.net/doc/3913489619.html,/1312/1/slingsby_internal_2012.pdf [62] Gaffney S, Smyth P. Trajectory clustering with mixtures of re-

gression models [C] // Proceedings of ACM SIGKDD Interna-

tional Conference on Knowledge Discovery and Data Mining.

New York: ACM Press, 1999: 63–72

[63] Ester M, Kriegel H.-P, Sander J, et al. A density-based algo-

rithm for discovering clusters in large spatial databases with noise [C] // Proceedings of ACM SIGKDD International Con-

ference on Knowledge Discovery and Data Mining. New York:

ACM Press, 1996: 226–231

[64] Lee J G, Han J, Whang K Y. Trajectory clustering: a parti-

tion-and-group framework [C] // Proceedings of ACM SIGMOD International Conference on Management of Data.

New York: ACM Press, 2007: 593–604

[65] Ferreira N, Klosowski J. T, Scheidegger C E, et al. Vector ?eld

k-means: Clustering trajectories by ?tting multiple vector ?elds

[J]. Computer Graphics Forum, 2013, 32(3): 201–210

[66] Pelekis N, Andrienko G, Andrienko N, et al. Visually exploring

movement data via similaritybased analysis [J]. Journal of In-

telligent Information Systems, 2012, 38(2): 343–391

[67] Andrienko G, Andrienko N, Rinzivillo S, et al. Interactive vis-

ual clustering of large collections of trajectories [C] // Pro-

ceedings of IEEE Symposium on Visual Analytics Science and

Technology. Los Alamitos: IEEE Computer Society Press, 2009: 3–10

[68] Rinzivillo S, Pedreschi D, Nanni M, et al. Visually driven

analysis of movement data by progressive clustering [J]. In-

formation Visualization, 2008, 7(3): 225–239

[69] Schreck T, Bernard J, Tekusova T, et al. Visual cluster analysis

of trajectory data with interactive kohonen maps [C] // Pro-

ceedings of IEEE Symposium on Visual Analytics Science and

Technology. Los Alamitos: IEEE Computer Society Press, 2008: 3–10

[70] Buliung R, Kanaroglou P. An exploratory spatial data analysis

(esda) toolkit for the analysis of activity/travel data [M], Lec-

ture Notes in Computer Science. Heidelberg: Springer, 2004, 3044: 1016–1025

[71] Andrienko G, Andrienko N, Heurich M. An event-based con-

ceptual model for context-aware movement analysis [J]. Inter-

national Journal of Geographical Information Science, 2011, 25(9): 1347–1370

[72] Andrienko G, Andrienko N, Hurter C, et al. Scalable analysis of

movement data for extracting and exploring signi?cant places

[J]. IEEE Transactions on Visualization and Computer Graph-

ics, 2013, 19(7): 1078–1094

[73] Sakr M, Andrienko G, Behr T, et al. Exploring spatiotemporal

patterns by integrating visual analytics with a moving objects database system [C] // Proceedings of ACM SIGSPATIAL In-

ternational Conference on Advances in Geographic Information

Systems. New York: ACM Press, 2011: 505–508.

[74] Bak P, Marder M, Harary S, et al. Scalable detection of spatio-

temporal encounters in historical movement data [J]. Computer

Graphics Forum, 2012, 31(3): 915–924

[75] Doraiswamy H, Ferreira N, Damoulas T, et al. Using topologi-

cal analysis to support event-guided exploration in urban data

[J]. IEEE Transactions on Visualization and Computer Graph-

ics, 2014, 20(12):2634-2643

第1期王祖超, 等: 轨迹数据可视分析研究 25

[76] Andrienko N, Andrienko G, Wachowicz M, et al. Uncovering

interactions between moving objects [C] // Proceedings of In-

ternational Conference on Geographic Information Science.

Heidelberg: Springer, 2008: 16–26

[77] Crnovrsanin T, Muelder C, Correa C, et al. Proximity-based

visualization of movement trace data [C] // Proceedings of IEEE Symposium on Visual Analytics Science and Technology.

Los Alamitos: IEEE Computer Society Press, 2009: 11–18 [78] von Landesberger T, Bremm S, Schreck T, et al. Feature-based

automatic identi?cation of interesting data segments in group movement data [J]. Information Visualization, 2013, 13(3): 190-212

[79] Andrienko N, Andrienko G, Barrett L, et al. Space transforma-

tion for understanding group movement [J]. IEEE Transactions

on Visualization and Computer Graphics, 2013, 19(12): 2169–2178

[80] Chavoshi S. H, Baets B. D, Neutens T, et al. Comparison

of multiple mpo movement patterns based on sequence si

gnatures [OL]. [2014-11-06]. https://www.360docs.net/doc/3913489619.html,/GeoV A(t) 2012/s08.pdf

[81] Spretke D, Bak P, Janetzko H, et al. Exploration through en-

richment: a visual analytics approach for animal movement [C]

// Proceedings of ACM SIGSPATIAL International Conference

on Advances in Geographic Information Systems. New York: ACM Press, 2011: 421–424

[82] Krüger R, Lohmann S, Thom D, et al. Using social medi

a content in the visual analysis of movement data [OL].

[2014-11-06]. https://www.360docs.net/doc/3913489619.html,/en-us/um/people/s

hliu/tasmc/paper/movement-data.pdf

[83] Krüger R, Thom D, Ertl T. Visual analysis of movement be-

havior using web data for context enrichment [C] // Proceed-

ings of IEEE Pacific Visualization Symposium. Los Alamitos: IEEE Computer Society Press, 2014: 193 - 200

[84] Andrienko N, Andrienko G, Fuchs G. Towards pri-

vacy-preserving semantic mobility analysis [C] // Proceedings of International EuroVis Workshop on Visual Analytics.

Aire-la-Ville: Eurographics Association Press, 2013: 19-23 [85] Chu D, Sheets D. A, Zhao Y, et al. Visualizing hidden themes

of trajectories with semantic transformation [C] // Proceedings of IEEE Pacific Visualization Symposium. Los Alamitos: IEEE

Computer Society Press, 2014: 137–144

[86] Wang F, Chen W, Wu F, et al. A visual reasoning approach for

data-driven transport assessment on urban road [C] // Proceed-

ings of IEEE Conference on Visual Analytics Science and Technology. Los Alamitos: IEEE Computer Society Press, 2014: 103-112

[87] Wang Z, Ye T, Lu M, et al. Visual exploration of sparse traffic

trajectory data [J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(12):1813-1822

[88] Zeng W, Fu C W, Arisona S M, et al. Visualizing mobility of

public transportation system [J]. IEEE Transactions on Visu-

alization and Computer Graphics, 2014, 20(12):1833-1842 [89] Wu W, Zheng Y, Qu H, et al. Boundaryseer: Visual analysis of

2d boundary changes [C] // Proceedings of IEEE Conference on Visual Analytics Science and Technology. Los Alamitos: IEEE Computer Society Press, 2014: 143-152

[90] Zeng W, Fu C. W, Arisona S M, et al. Visualizing interchange

patterns in massive movement data [J]. Computer Graphics Forum, 2013, 32(3): 271–280.

[91] Gao Y, Xu P, Lu L, et al. Visualization of taxi drivers’ income

and mobility intelligence [M], Lecture Notes in Computer Sci-

ence. Heidelberg: Springer, 2012, 7432: 275–284

[92] Krüger R, Thom D, W?rner M, et al. Trajectorylenses a

set-based ?ltering and exploration technique for long-term tra-

jectory data [J]. Computer Graphics Forum, 2013, 32(3): 451–460

[93] Chang Y J, Hung P Y, Newman M W. Traceviz: brushing for

location based services [C] // Proceedings of the International Conference on Human-Computer Interaction with Mobile De-

vices and Services Companion. New York: ACM Press, 2012: 345–348

[94] Orellana D, Wachowicz M, Andrienko N, et al. Uncovering in-

teraction patterns in mobile out-door gaming [C] // Proceedings of the International Conference on Advanced Geographic In-

formation Systems & Web Services. Los Alamitos: IEEE Computer Society Press, 2009: 177–182

[95] Güting R. H, Behr T, Almeida V, et al. Secondo: an extensible

DBMS architecture and prototype [R]. Hagen: Fernuniversitat Hagen, 2004

[96] Lins L, Klosowski J T, et al. Nanocubes for real-time explora-

tion of spatiotemporal datasets [J]. IEEE Transactions on Visu- alization and Computer Graphics, 2013, 19(12): 2456–2465 [97] Fisher D, Popov I, Drucker S M, et al. Trust me, i’m partially

right: Incremental visualization lets analysts explore large da-

tasets faster [C] // Proceedings of ACM SIGCHI Conference on Human Factors in Computing Systems. New York: ACM Press, 2012: 1673-1682

[98] Liao Z, Yu Y, Chen B. Anomaly detection in gps data based on

visual analytics [C] // Proceedings of IEEE Conference on Vis-

ual Analytics Science and Technology. Los Alamitos: IEEE Computer Society Press, 2010: 51–58

[99] Lu L, Cao N, Liu S, et al. Visual analysis of uncertainty in trajecto-

ries [C] // Proceedings of Pacific-Asia Conference on Knowledge Discovery and Data Mining. Cham: Springer, 2014: 509–520

数据清洗数据分析数据挖掘

数据清洗 1.基本概念 数据清洗从名字上也看的出就是把"脏"的"洗掉",指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为"脏数据"。我们要按照一定的规则把"脏数据""洗掉",这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。 主要类型 残缺数据 这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。 折叠错误数据

这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL 的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。 折叠重复数据 对于这一类数据--特别是维表中会出现这种情况--将重复数据记录的所有字段导出来,让客户确认并整理。 数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认。 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。

大大数据可视化分析资料报告平台介绍

大数据可视化分析平台 一、背景与目标 基于邳州市电子政务建设的基础支撑环境,以基础信息资源库(人口库、法人库、宏观经济、地理库)为基础,建设融合业务展示系统,提供综合信息查询展示、信息简报呈现、数据分析、数据开放等资源服务应用。实现市府领导及相关委办的融合数据资源视角,实现数据信息资源融合服务与创新服务,通过系统达到及时了解本市发展的综合情况,及时掌握发展动态,为政策拟定提供依据。 充分运用云计算、大数据等信息技术,建设融合分析平台、展示平台,整合现有数据资源,结合政务大数据的分析能力与业务编排展示能力,以人口、法人、地理,人口与地理,法人与地理,实现基础展示与分析,融合公安、交通、工业、教育、旅游等重点行业的数据综合分析,为城市管理、产业升级、民生保障提供有效支撑。 二、政务大数据平台 1、数据采集和交换需求:通过对各个委办局的指定业务数据进行汇聚,将分散的数据进行物理集中和整合管理,为实现对数据的分析提供数据支撑。将为跨机构的各类业务系统之间的业务协同,提供统一和集中的数据交互共享服务。包括数据交换、共享和ETL等功能。 2、海量数据存储管理需求:大数据平台从各个委办局的业务系统里抽取的数据量巨大,数据类型繁杂,数据需要持久化的存储和访问。不论是结构化数据、半结构化数据,还是非结构化数据,经过数据存储引擎进行建模后,持久化保存在存储系统上。存储系统要具备高可靠性、快速查询能力。

3、数据计算分析需求:包括海量数据的离线计算能力、高效即席数据查询需求和低时延的实时计算能力。随着数据量的不断增加,需要数据平台具备线性扩展能力和强大的分析能力,支撑不断增长的数据量,满足未来政务各类业务工作的发展需要,确保业务系统的不间断且有效地工作。 4、数据关联集中需求:对集中存储在数据管理平台的数据,通过正确的技术手段将这些离散的数据进行数据关联,即:通过分析数据间的业务关系,建立关键数据之间的关联关系,将离散的数据串联起来形成能表达更多含义信息集合,以形成基础库、业务库、知识库等数据集。 5、应用开发需求:依靠集中数据集,快速开发创新应用,支撑实际分析业务需要。 6、大数据分析挖掘需求:通过对海量的政务业务大数据进行分析与挖掘,辅助政务决策,提供资源配置分析优化等辅助决策功能,促进民生的发展。

轨道交通基于大数据的MOPES课题研究

轨道交通基于大数据的探索与实践 随着我国经济的高速持续发展,我国城市轨道交通市场在未来很长一段时间内都处于建设的高峰期,截止到2015年末,中国共有25座城市开通运营轨道交通线路,已累计建成投入运营线路3618公里,其中,北京、上海、广州至2016年底都超过10条轨道交通线路运营。网络化运营是城市轨道交通发展的必然结果。 广州地铁线网指挥平台分期建设,利用先进的计算机通信网络平台采集及管理信息,在统一的运营调度规则下,对广州地铁各线的运营进行监视,遇有严重突发事件或影响相邻线路的突发事件发生时,及时进行协调和指挥。广州轨道交通线网规划了1个线网运营管理指挥中心(万盛围线网指挥中心)、6个不同线路区域控制中心及1个线网后备控制中心(大石临时线网应急指挥中心)。 截止到2016年底,广州轨道交通线网指挥中心已经完成了一期建设,包括工程硬件设施建设(大屏幕及后台处理设备);完成1\2\3\4\5\6\8\GF\APM,共计9条线的接入,实现对线网行车、电力及设备的线网统筹监控;实现线网指挥中心与区域\线路控制中心通信互联互通。线网调度指挥平台实现对线网运行进行全面监视,提前预警、及时跨线协调指挥;对线网跨线共用关键设备总体协调,通过线路OCC进行操作。调度指挥平台分为线网综合监控系统、线网综合应用系统和通信系统。 线网综合监控系统:通过各OCC主控系统读取线路数据,包括线网列车、牵引供电、防灾报警、主变电站、车站环控、CCTV、客流等信息; 线网综合应用系统:通过系统数据业务应用,运用COCC值班管理、决策支持、应急指挥、突发事件评估、提高应急处置效率,有效应对突发事件; 通信系统:包括传输系统、线网调度电话系统、线网拾音视频系统、线网无线统一调度系统、广播系统。 线网指挥平台数据中心在硬件和基础数据上,完成了广州市城市轨道交通的各系统数据汇聚,这就为进一步提升城市轨道系统运营效率提供了实现的可行性。

数据挖掘与分析心得体会

正如柏拉图所说:需要是发明之母。随着信息时代的步伐不断迈进,大量数据日积月累。我们迫切需要一种工具来满足从数据中发现知识的需求!而数据挖掘便应运而生了。正如书中所说:数据挖掘已经并且将继续在我们从数据时代大步跨入信息时代的历程中做出贡献。 1、数据挖掘 数据挖掘应当更正确的命名为:“从数据中挖掘知识”,不过后者显得过长了些。而“挖掘”一词确是生动形象的!人们把数据挖掘视为“数据中的知识发现(KDD)”的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤! 由此而产生数据挖掘的定义:从大量数据中挖掘有趣模式和知识的过程!数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。作为知识发现过程,它通常包括数据清理、数据集成、数据变换、模式发现、模式评估和知识表示六个步骤。 数据挖掘处理数据之多,挖掘模式之有趣,使用技术之大量,应用范围之广泛都将会是前所未有的;而数据挖掘任务之重也一直并存。这些问题将继续激励数据挖掘的进一步研究与改进! 2、数据分析 数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步: 1、探索性数据分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。 2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。 3、推断分析:通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。 数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各

上海轨道交通早高峰通勤数据分析

上海轨道交通早高峰通勤数据分析报告 每天清晨,数以百万计的上海人搭乘地铁,短短数小时内完成了从居住到工作的大规模迁徙。每张票的刷卡进出都是一个数据点,汇聚成为亿万数据的背后,是城市人口的流动和城市运转的机理。复旦大学数据研究中心选取了上海轨交早高峰7-9点的数据进行分析,用大数据清晰呈现上海轨交通勤的全貌。 一、 上海轨交早高峰通勤概况 可以看出,在工作日早高峰(7-9点),两个小时内上海轨交进站达110万人次,出站达95万人次,进站人次比出站人次多出15万,表明早高峰期间的进站压力略大于出站。在早高峰同一时间段内(7-9点),工作日进站人次110万,周末进站人次40万,工作日进站人次是周末的2.7倍。对比整个上午(6-12点)的数据,工作日早高峰进站人次占整个上午的60%,而周末早高峰进站人次仅占整个上午的40%。这表明在工作日,早高峰的客流量无论是绝对数量还是集中 500000 1000000 1500000 2000000 工作日早高峰 周末早高峰 工作日6-12点 周末6-12点 1109486 408163 1914919 1130697 956846 322787 1815742 1004305 单位:人次 上海轨交日均早高峰进出站人次 日均进站数 日均出站数

程度均远远高于周末。 二、各时段进出站人次变化趋势 可以看出,工作日的进站人次从上午6:00起逐渐攀升,至7:30-7:59、8:00-8:29达到顶峰,半小时内分别进站32万人次及35万人次,8:30之后进站人数逐渐回落。而出站人数在上午8:30之前始终低于进站人数,7:30-7:59进站出站净流入达到最大为14万人次,8:00-8:29进站出站差距缩小。8:30-9:00出站人次达到顶峰,半小内出站高达39万人次,出站人次首度超过进站,净流出达到14万人次。9:00之后出站人数急剧下降,表明大多数人通勤到达时间在9点以前。出站顶峰8:30-9:00比进站顶峰7:30-7:59和8:00-8:29延后0.5-1小时,表明大多数人日常地铁通勤时间在单程0.5-1小时之间。

数据清洗数据分析数据挖掘

数据清洗1.基本概念 数据清洗从名字上也看的出就是把"脏"的"洗掉",指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为""。我们要按照一定的规则把"""洗掉",这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。 主要类型 残缺数据 这一类数据主要是一些应该有的信息缺失,如的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入。 错误数据 这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入造成的,比如数值数据输成全角数字、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于、数据前后有

不可见字符的问题,只能通过写语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。 重复数据 对于这一类数据--特别是维表中会出现这种情况--将重复数据记录的所有字段导出来,让客户确认并整理。 数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认。 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。 类型 在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。 探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国着名统计学家约翰·图基(John Tukey)命名。

大数据时代下轨道交通运营企业人力资源的管理

大数据时代下轨道交通运营企业人力资源的管理 一、引言 人们生活水平的不断提高以及人们对交通便利的新要求,都使得城市轨道交通的发展与建设的质量标准越来越高。一座城市拥有一套合理的轨道交通系统不仅能够有效缓解城市的交通拥堵情况,还能提高市民的出行办事效率。本文对城市轨道交通企业员工管理数据进行分析,明确企业中人力资源的不足与优势,通过对员工的培训和引导,提高员工的工作技能和工作满意度,为企业的发展作出应有的贡献。 二、概述 (一)大数据时代随着科技的发展,人力资源相关的量化管理已经由以前简单的人力招聘,转变为拥有培训管理、人才招聘、绩效管理、薪酬管理和人力资源规划的综合系统。随着新兴科技的发展,大数据的快速计算与精准化、个性化等优势,使其被快速地应用到了企业的人力资源管理中。大数据主要依靠超级计算机快速演算的特点,获取员工的喜好、行为偏好,对不同员工进行差异化的管理,更有效地调动员工的工作积极性,让计算机代替人工对人力资源中的量化数据进行统计分析,不仅提高了工作效率,而且提高了人力资源工作的管理效能。[1] (二)城市?道交通 城市轨道交通系统发展到现阶段已经是公交系统、单轨系统、有轨系统、磁悬浮系统、自动导向轨道系统、地铁系统、轻轨系统、市区快

速轨道系统等多种系统互相结合的一个复杂的交通体系,城市轨道交通的管理也变得更加不易。随着各个城市不断规划建设城市轨道交通,目前我国大部分城市已经初步建成了集地铁、飞机、动车、轻轨、公交等多种交通方式互换的交通模式,不仅实现了无缝对接的交通理念,还提高了人们的出行效率。在最初对城市进行战略规划时,就把无缝对接和快速出行的理念融入其中,为市民的出行与工作提供便利的交通方式。 (三)人力资源量化管理城市轨道交通人力资源的量化管理主要是针对企业现阶段的运营状况、企业的工作人员的实际能力、企业未来人才的培养、人力资源管理制度等多方面的管理,更是对企业人才与资源的最大化利用。[2] 三、量化管理体系探究 (一)工作能力 员工工作能力量化管理体系的建立,主要依靠员工的岗位职能、技术能力、岗位要求的量化统计。通过岗位任职要求的细分,对员工必需的岗位职能进行考核,以工作岗位职能的标准衡量员工工作技能的熟练度,并对考核数据进行记录,按照一定的逻辑进行编码,通过数据分析,提出员工技能和绩效改进的方法。在实际的工作岗位中,员工的综合表现也体现了一位员工的工作能力,主要体现为饱满的工作热情、积极的工作行为、良好的工作心态,通过用户对员工实际工作行为的反馈,建立员工满意度的数据库。结合以上几份数据的统计,按照企业工作任职要求的标准对必需的岗位职能、技能学习能力和综合表现

轨道交通大数据分析成像系统的制作技术

本技术公开了轨道交通大数据分析成像系统,包括成像系统本体、通信模块Ⅰ、通信模块Ⅱ和移动终端,所述成像系统包括中央处理器以及均与中央处理器连接的数据采集端、数据分析模块、数据库和显示模块,数据采集端将采集到的数据信息发送给中央处理器,数据分析模块将据采集端的信息与数据库的信息进行比对,并将比对结果发送给中央处理器,所述中央处理器将比对结果依次通过通信模块Ⅰ和通信模块Ⅱ发送到移动终端,所述移动终端将比对结果显示出来。将成像系统本体通过通信模块Ⅰ和通信模块Ⅱ与移动终端信号连接,提高了工作人员事务处理速度和处理事务的方便性。 技术要求 1.轨道交通大数据分析成像系统,包括成像系统本体,所述成像系统包括中央处理器以及均与中央处理器连接的数据采集端、数据分析模块、数据库和显示模块,数据采集端将采集到的数据信息发送给中央处理器,中央处理器接收来自数据采集端的信息,并将来自数据采集端的信息以及数据库的信息发送给数据分析模块,数据分析模块将据采集端的信息与数据库的信息进行比对,并将比对结果发送给中央处理器,中央处理器将比对结果通过显示模块显示出来,其特征在于:还包括通信模块Ⅰ、通信模块Ⅱ和移动终端,所述数据库为轨道交通数据库,所述通信模块Ⅰ与中央处理器连接,通信模块Ⅱ与移动终端连接,通信模块Ⅰ通过网络与通信模块Ⅱ连接,所述中央处理器将比对结果依次通过通信模块Ⅰ和通信模块Ⅱ发送到移动终端,所述移动终端将比对结果显示出来。 2.根据权利要求1所述的轨道交通大数据分析成像系统,其特征在于:所述移动终端为手机终端。 3.根据权利要求1所述的轨道交通大数据分析成像系统,其特征在于:所述移动终端为平板电脑。 4.根据权利要求1所述的轨道交通大数据分析成像系统,其特征在于:所述通信模块Ⅰ和通信模块Ⅱ均为无线通信模块。 5.根据权利要求1所述的轨道交通大数据分析成像系统,其特征在于:所述网络为GPRS/GSM网络。 6.根据权利要求1所述的轨道交通大数据分析成像系统,其特征在于:还包括与中央处理器连接的输入模块。 技术说明书 轨道交通大数据分析成像系统 技术领域 本技术涉及一种成像系统,具体涉及轨道交通大数据分析成像系统。 背景技术 成像系统是以非摄影方式获取地物遥感影像的各类遥感器系统的统称。通常采用扫描方式成像、磁带记录或胶片记录。按系统的结构、扫描方式和探测器件的不同,大致分为一下几种:①光学机械扫描,如多光谱扫描仪,多采用反射镜对物面进行扫描,经分光、检波和光电转换后输出影像数据;②电子扫描,如返束光导管电视摄像机,属像面扫描方式,其过程是光学成像于光导管靶面,经电子束扫描后将信号放大输出;③固体自扫描,如法国SPOT卫星的光电扫描传感器,亦属像面扫描方式,景物经物镜成像在由许多电荷耦合器件(CCD)组成的探测器面阵上,经光电转换后输出;④天线扫描,如侧视雷达,属物面扫描方式的一种主动式遥感成像系统。它通过天线发射微波波束并接收景物反射的回波经解调后输出。

移动互联网下数据可视化技术及应用

移动互联网下数据可视化技术及应用 摘要:随着移动互联网技术的发展,可视化在各个领域得到推广和应用。本文 将对可视化的具体内容以及应用进行分析,以供参考。 关键词:移动互联网;可视化;溯源;概念;应用 1.前言 大数据可视化技术,是一种有效的解决大规模数据分析并形成决策依据的工具,在多个行业广泛应用并实践,促进了行业生产效率的提升。 2.数据可视化技术简述 数据可视化技术是一种研究如何将数据转变为数据视觉表现形式的科学技术,数据的视觉表现形式是指将能够反映研究对象的属性、变量等信息单位,通过具 现化以概要形式提炼出来的信息表现形式。数据可视化技术经过不断的发展和演变,逐步形成以图形、图像、用户视图等可视化形式对研究目标诠释、表述并建 立视觉模型,对对象特征加以可视化解释。数据可视化是对科学数据和抽象的非 结构化信息的处理,主要包括科学可视化、信息可视化、可视化分析三个方面: 科学可视化主要是对物理、化学等学科,进行数据和模型的测量、分析、解释等,在本文不做过多阐述。信息可视化对抽象的、非机构化数据集合实施非空间复杂 数据的视觉呈现,近年来被广泛应用与电网企业大数据可视化系统的建设过程中、在反映电网运行状态、客户信息和企业管理等方面发挥了积极的作用。 3.数据可视化技术与工具 数据可视化是大数据研究的一个重要内容。简单地讲,数据可视化就是通过 图形化手段,将复杂的数据模型表达出来,从而清晰有效地表达数据中的信息, 用户通过数据可视化可以洞察数据中的规律。数据可视化技术的基本思想是将数 据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时 将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而 对数据进行更深入的观察和分析(Julie,2011)。数据可视化起源很早,在刚刚 有计算机的时候,便有计算机图形学。近年来,数据可视化在商业智能(BI)中 也得到广泛应用。迈克尔?弗兰德利将数据可视化方法进行了分类(Vitaly,2007)。在大数据的推动下,数据可视化的内涵和外延都有了明显的变化,逐渐 由单纯的展现演变为报表、分析和展现的综合体。目前,数据可视化工具主要包括:(1)开源的、可编程的工具,如R语言、D3.js、Processing.js等。(2)商 业化产品,如Tableau、Qlikview、SAS、SAPBusinessObject水晶易表、IBMCognos、MicrosoftExcel等。其中,Tableau是桌面系统中最简单的数据可视化工具软件, 它实现了数据运算与美观的图表的完美结合,用户只需要将大量数据拖放到数字“画布”上,便能创建好所需要的各种图表(Tabealu,2014)。数据可视化技术可 以更简洁地表达大数据环境下海量的大数据信息,用户通过数据可视化技术,能 够“洞察”数据信息中内在因素的模式和关联,快速从大数据中发现问题。 4.移动互联网数据可视化技术的应用 4.1分析互联网用户的特征 需要明确的是,可视化技术的应用不是在原有的技术上实现创新,而是要实 现持续的优化过程,除了网络用户继续分析和分类外,还要为网络运营商提供更 多的综合信息发展,反映数据的变化,使网络运营商基于互联网用户的特点,制 定科学的发展战略,同时在网络运营流程,通过广告的准确交付,最大限度地利 用网络资源实现经济增长。

【最全最详细】数据分析与挖掘实验报告

《数据挖掘》实验报告 目录 1.关联规则的基本概念和方法 (2) 1.1数据挖掘 (2) 1.1.1数据挖掘的概念 (2) 1.1.2数据挖掘的方法与技术 (2) 1.2关联规则 (3) 1.2.1关联规则的概念 (3) 1.2.2关联规则的实现——Apriori算法 (4) 2.用Matlab实现关联规则 (6) 2.1Matlab概述 (6) 2.2基于Matlab的Apriori算法 (7) 3.用java实现关联规则 (11) 3.1java界面描述 (11) 3.2java关键代码描述 (14) 4、实验总结 (19) 4.1实验的不足和改进 (19) 4.2实验心得 (20)

1.关联规则的基本概念和方法 1.1数据挖掘 1.1.1数据挖掘的概念 计算机技术和通信技术的迅猛发展将人类社会带入到了信息时代。在最近十几年里,数据库中存储的数据急剧增大。数据挖掘就是信息技术自然进化的结果。数据挖掘可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的但又是潜在有用的信息和知识的过程。 许多人将数据挖掘视为另一个流行词汇数据中的知识发现(KDD)的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。知识发现过程如下:·数据清理(消除噪声和删除不一致的数据) ·数据集成(多种数据源可以组合在一起) ·数据转换(从数据库中提取和分析任务相关的数据) ·数据变换(从汇总或聚集操作,把数据变换和统一成适合挖掘的形式) ·数据挖掘(基本步骤,使用智能方法提取数据模式) ·模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式) ·知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。 1.1.2数据挖掘的方法与技术 数据挖掘吸纳了诸如数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成等许多应用领域的大量技术。数据挖掘主要包括以下方法。 神经网络方法:神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、bp反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art模型、koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是"黑箱"性,人们难以理解网络的学习和决策过程。 遗传算法:遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。sunil已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗糙集等技术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和bp算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。 决策树方法:决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从

50个大数据可视化分析工具

50个大数据可视化分析工具 在大数据时代,数据可视化工具必须具有以下特性: (1)实时性:数据可视化工具必须适应大数据时代数据量的爆炸式增长需求,必须快速的收集分析数据、并对数据信息进行实时更新; (2)简单操作:数据可视化工具满足快速开发、易于操作的特性,能满足互联网时代信息多变的特点; (3)更丰富的展现:数据可视化工具需具有更丰富的展现方式,能充分满足数据展现的多维度要求; (4)多种数据集成支持方式:数据的来源不仅仅局限于数据库,数据可视化工具将支持团队协作数据、数据仓库、文本等多种方式,并能够通过互联网进行展现。 Excel 是快速分析数据的理想工具,也能创建供内部使用的数据图,但在颜色、线条和样式上可选择的范围有限。 Google Charts 提供了大量现成的图表类型,从简单的线图表到复杂的分层树地图等,还内置了动画和用户交互控制。 D3 能够提供大量线性图和条形图之外的复杂图表样式,例如V oronoi图、树形图、圆形集群和单词云等。 R语言 是主要用于统计分析、绘图的语言和操作环境。 Visual.ly 如果你需要制作信息图而不仅仅是数据可视化,Visual.ly是最流行的一个选择。

Processing 是数据可视化的招牌工具,只需要编写一些简单的代码,然后编译成Java,可在几乎所有平台上运行。 Leaflet 用来开发移动友好地交互地图。 OpenLayers 对于一些特定的任务来说,能够提供一些其他地图库都没有的特殊工具。 Polymaps 是一个地图库,主要面向数据可视化用户。可以将符号字体与字体整合,创建出漂亮的矢量化图标。 Gephi 是一个可视化的网络探索平台,用于构建动态的、分层的数据图表。 可以用CartoDB很轻易就把表格数据和地图关联起来。 Weka是数据分析的强大工具,还能生成一些简单的图表。 NodeBox是OS X上创建二维图形和可视化的应用程序。 Kartograph不需要任何地图提供者像Google Maps,用来建立互动式地图。 Modest Maps在一些扩展库的配合下,例如Wax,Modest Maps立刻会变成一个强大的地图工具。 Tangle是个用来探索、Play和查看文档更新的交互式库。既是图表,又是互动图形用户界面的小程序。当你调整一个图表中的输入范围时,其他关联图表的数据也会随之改变。 Rapha憀与其他库最大的不同是输出格式仅限SVG和VML。 jsDraw2DX用来创建任意类型的SVG交互式图形,可生成包括线、举行、多边形、椭圆、弧线等等图形。 Pizza Pie Charts是个响应式饼图图表。 FusionCharts XT是一款跨平台、跨浏览器的JavaScript图表组件,可提供令人愉悦的JavaScript图表体验。 iCharts有交互元素,可以从Google Doc、Excel 表单和其他来源中获取数据。

地铁大数据统计指标大全

城市地铁数据统计指标大全 1.线网指标 1.1运营线路条数 定义:为运营列车设置的固定运营线路总条数。 单位:条。 计算方法:已对社会开通载客运营、独立命名的线路数量,包括试运营阶段的线路。 1.2线路运营长度 定义:运营线路按始发站站中心至终点站站中心沿正线线中心测得的长度。 单位:公里。 计算方法:按照(CJ/T8-1999)规定方法计算,运营线路长度=1/2(上行起点至终点里程+下行起点至终点里程),含非独立运营和命名的支线,不包括折返线、渡线、联络线、停车线、出入线、安全线的长度。 1.3网络运营长度 定义:网络中各线路运营长度之和。 单位:公里。 计算方法:网络运营长度=∑线路运营长度 1.4网络运营长度增长率 定义:本期网络运营长度与上期相比的增长比例。 单位:%。 计算方法:网络运营长度增长率=(本期网络运营长度-上期网络运营长度)/上期网络运营长度×100。

2.车站指标 2.1线路车站数 定义:运营线路上办理运营业务和为乘客提供服务的建筑设施和场所的数量。 单位:座。 计算方法:按独立命名线路统计的运营车站个数。 2.2换乘车站总数 定义:运营线路交汇处具备从一条线路转乘到其他线路功能的车站数量。 单位:座。 计算方法:包括付费区换乘车站和非付费区换乘车站。付费区换乘车站指在付费区内利用站台、站厅、通道等方式实现换乘的车站;非付费区换乘车站指同一票务系统站外换乘连续计费和非同一票务系统设有换乘设施的车站。2线或2线以上换乘车站均只计作1座换乘站;共线运营线路,当连续共线车站超过2座时,只计作2座换乘站。 2.3网络车站总数 定义:网络中各条运营线路的车站总数。 单位:座。 计算方法:网络中线路车站数之和,共线段运营车站只计1次。 2.4平均站间距 定义:同一线路上两个相邻车站站中心间的平均距离。 单位:公里。 计算方法:平均站间距=线路运营长度/区间数 3.客流指标 3.1客运量

移动互联网下数据可视化技术及应用

移动互联网下数据可视化技术及应用 发表时间:2017-08-18T11:13:02.307Z 来源:《基层建设》2017年第12期作者:庞杰 [导读] 摘要:随着移动互联网技术的发展,可视化在各个领域得到推广和应用。本文将对可视化的具体内容以及应用进行分析,以供参考。 身份证号:32082819780225xxxx 浙江杭州 310013 摘要:随着移动互联网技术的发展,可视化在各个领域得到推广和应用。本文将对可视化的具体内容以及应用进行分析,以供参考。关键词:移动互联网;可视化;溯源;概念;应用 1.前言 大数据可视化技术,是一种有效的解决大规模数据分析并形成决策依据的工具,在多个行业广泛应用并实践,促进了行业生产效率的提升。 2.数据可视化技术简述 数据可视化技术是一种研究如何将数据转变为数据视觉表现形式的科学技术,数据的视觉表现形式是指将能够反映研究对象的属性、变量等信息单位,通过具现化以概要形式提炼出来的信息表现形式。数据可视化技术经过不断的发展和演变,逐步形成以图形、图像、用户视图等可视化形式对研究目标诠释、表述并建立视觉模型,对对象特征加以可视化解释。数据可视化是对科学数据和抽象的非结构化信息的处理,主要包括科学可视化、信息可视化、可视化分析三个方面:科学可视化主要是对物理、化学等学科,进行数据和模型的测量、分析、解释等,在本文不做过多阐述。信息可视化对抽象的、非机构化数据集合实施非空间复杂数据的视觉呈现,近年来被广泛应用与电网企业大数据可视化系统的建设过程中、在反映电网运行状态、客户信息和企业管理等方面发挥了积极的作用。 3.数据可视化技术与工具 数据可视化是大数据研究的一个重要内容。简单地讲,数据可视化就是通过图形化手段,将复杂的数据模型表达出来,从而清晰有效地表达数据中的信息,用户通过数据可视化可以洞察数据中的规律。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析(Julie,2011)。数据可视化起源很早,在刚刚有计算机的时候,便有计算机图形学。近年来,数据可视化在商业智能(BI)中也得到广泛应用。迈克尔?弗兰德利将数据可视化方法进行了分类(Vitaly,2007)。在大数据的推动下,数据可视化的内涵和外延都有了明显的变化,逐渐由单纯的展现演变为报表、分析和展现的综合体。目前,数据可视化工具主要包括:(1)开源的、可编程的工具,如R语言、D3.js、Processing.js等。(2)商业化产品,如Tableau、Qlikview、SAS、SAPBusinessObject水晶易表、IBMCognos、MicrosoftExcel等。其中,Tableau是桌面系统中最简单的数据可视化工具软件,它实现了数据运算与美观的图表的完美结合,用户只需要将大量数据拖放到数字“画布”上,便能创建好所需要的各种图表(Tabealu,2014)。数据可视化技术可以更简洁地表达大数据环境下海量的大数据信息,用户通过数据可视化技术,能够“洞察”数据信息中内在因素的模式和关联,快速从大数据中发现问题。 4.移动互联网数据可视化技术的应用 4.1分析互联网用户的特征 需要明确的是,可视化技术的应用不是在原有的技术上实现创新,而是要实现持续的优化过程,除了网络用户继续分析和分类外,还要为网络运营商提供更多的综合信息发展,反映数据的变化,使网络运营商基于互联网用户的特点,制定科学的发展战略,同时在网络运营流程,通过广告的准确交付,最大限度地利用网络资源实现经济增长。 4.2分析互联网用户轨迹 由于移动互联网数据可视化技术的支持,可以有效地分析互联网用户的轨迹。网络用户轨迹是网络用户行为的规律。通过分析网络用户轨迹,可以保证基站与用户之间的有效连接。可以实现稳定的通话质量,达到及时传输互联网数据的目的。另外,通过分析互联网数据可以清除用户的地理位置,实现地理信息处理的简单开发。 5.大数据可视化技术在重要产品品控溯源增信体系中的应用 5.1技术路线 智慧溯源可视化综合展示平台集成展现重要产品品控溯源增信体系各子项建设内容,展示重要产品品控溯源综合监管成果和宣传产品防伪溯源监管知识。展示大厅包括无缝拼接大屏幕、电子沙盘、影音多媒体播放和灯光等设备,通过网络连接到公司集中部署的智慧溯源可视化综合展示平台,通过智慧溯源可视化平台系统对品控溯源增信体系中运行的设备及采集的数据进行监控和展现。智慧溯源可视化综合展示平台系统数据来源于重要产品质量安全溯源监管省级、市级、县级数据中心各子系统平台,通过ETL抽取工具进行数据清理、转换和展示。与溯源信息采集系统、县域溯源监管系统、电商数据交互系统、第三方产品检测数据采集、第三方保险理赔管理系统、实时气象环境监测系统、基地视频监控系统等多个系统集成,通过数据接口将重要产品操作实时数据、网站访问数据、用户信息、扫码查询、溯源码流通信息、智能硬件信息、电商交易等系统的关键指标数据传输到综合展示平台,对关键指标进行挖掘、分析,并通过三维可视化技术直观动态展现。引导重要产品生产经营企业不断优化生产结构和运营方式,推动重要产品生产经营企业实施智能生产创新、生产工艺技术改革,实现向低投放、低耗能、高效率的绿色发展方式转变,政府监管部门加强政策支持额引导、落实工作责任,实现重要产品“流向可跟踪、责任可认定、产品可召回”的全流程监管,提高社会大众对重要产品质量安全的信任,保障民众身心健康安全。 5.2系统架构 智慧溯源可视化平台采用面向服务体系架构(SOA),从技术架构上分为三个层次,包括后台数据层、中间服务层、前台展示层。其中后台数据层采用的是ORACLE10g数据库,中间服务层采用的是主流开发技术,前台展示层采用的是flash、3DMax等多媒体技术。平台与溯源信息采集系统、县域溯源监管系统、电商数据交互系统、实时气象环境监测系统、基地视频监控系统等进行对接,通过数据处理平台提取主要指标,对关键指标进行数据挖掘和分析,通过三维可视化技术直观动态展现。应用触控平板、激光笔、手机app,解说员可以边解说边操作,与大屏可视化展示形成互动,增强用户体验。 5.3数据分析 随着重要产品质量安全追溯体系建设的不断推进,大量的物联网智能设备、区块链技术被广泛的应用与环境监测、智能生产监控、检

大数据背景下城市轨道交通的发展趋势

大数据背景下城市轨道交通的发展趋势 发表时间:2019-12-16T16:06:47.293Z 来源:《城镇建设》2019年22期作者:张寅卓 [导读] 城市轨道交通在一定程度上推动整个城市交通的发展, 摘要:城市轨道交通在一定程度上推动整个城市交通的发展,且为城市实现可持续性发展奠定了基础,近些年,我国有些城市在尝试着共享城市轨道交通和铁路资源,对城市轨道交通线网络中的某些车站设置和线路走向都作出了适当的调整,尽可能充分结合城际铁路、路网干线以及地铁,减少人们出行换乘次数,节省时间。城市人口数量随着城市化进程的加快日益渐长。因而,大数据背景下城市轨道交通运输体系的形成,是城市交通发展最紧迫的工作。 关键词:大数据;城市轨道交通;发展趋势 1轨道交通大数据挑战 1.1数据管理的挑战 轨道交通大数据来源广泛、种类繁多、产生速度快,具有多源、异构、自组织的特点。使得其在管理上面临着“汇聚难、集成难、存储难、检索难”的挑战。轨道交通数据在地理上分散,并通过不同的数据模型和元数据来进行自组织管理,如何连接不同类型的数据源,定时、自动化地汇聚多源的轨道交通大数据是一个挑战。轨道交通数据的体量大,对于已经汇聚、集成的数据,一方面,如何去设计适用于分布式环境下的数据存储模型,以满足高可扩展、高可用、高吞吐的需求;另一方面,如何结合轨道交通数据的时空特性,构建包含时空索引、全文检索在内的多类型索引模型,减少查询的搜索空间,加快查询的过程,是一个关键的挑战。 1.2数据处理的挑战 轨道交通数据的体量大,产生速度快,既包括了实时产生的动态数据,又包括了归档的静态数据,使传统的单机处理难以满足轨道交通应用实时处理的需求。Hadoop和Spark作为如今主流处理大规模数据的系统,可以作为解决轨道交通数据处理难的有效途径。轨道交通大数据存储在Hadoop生态系统和Spark生态系统的数据管理系统(如:HDFS、HBase、Hive等)中,通过MapReduce或者Spark进行分布式处理。在这个过程中,面临三个挑战: 1.2.1数据管理系统数据读取接口的开发 由于轨道交通大数据涉及多个数据模型和存储系统,如何基于这些存储系统开发统一的数据读取中间件是一个挑战。 1.2.2并行编程框架的开发 无论是MapReduce还是Spark,都要求算法开发者熟悉框架,限制了其使用范围,因此,需要在MapReduce和Spark提供的底层API上开发适用面广泛的编程框架。 1.2.3工作流调度 数据处理通常由多个子过程构成,如何将这些子过程通过工作流机制进行组织、调度,以便实现处理过程的自动化是一个挑战。 1.3数据分析的挑战 数据分析的目的旨在挖掘、提取海量轨道交通数据背后隐藏的规律及知识。对于轨道交通大数据分析而言,其核心问题在于如何对轨道交通大数据进行有效的表达、解释和学习。 2轨道交通大数据运用的注意事项 2.1轨道交通大数据运用的局限性 大数据运用可以为轨道交通发展提供参考,但也存在一定的局限性。例如,轨道交通从规划、设计、建设到运营,周期长、时间久,存在投入运营后的城市状况与最初规划设计时期差距较大、以及存在规划设计内容滞后于实际市场发展进度的状况。规划设计可以参考大数据分析,但是大数据分析往往停留在以往的信息收集基础之上。在这种情况下,需要规划设计者充分的考虑城市发展的步调,了解城市规划的远期发展计划,综合判断规划设计,而不是仅仅依靠大数据分析的结果。在大数据分析的基础上,规划设计者可以通过互联网平台收集相关方的需求与建议,但是不能过度依赖这些信息上,要通过全局和发展的眼光和视角综合考虑,一方面要满足市民实际需求,另一方面要考虑到城市发展的长远规划,以及轨道交通建设的实际环境与问题,保证规划设计的合理性。 2.2轨道交通大数据运用的安全性 随着时代的进步和人们自我意识不断提升,大数据的广泛运用也引发了人们对个人信息安全的严苛要求。轨道交通大数据的运用,涉及大量相关方信息的采集、存储、分析和应用,绝不能出现数据信息的泄露与贩卖等问题,引发轨道交通企业危机。轨道交通企业要要从意识源头抓起,加强培训,不断提升大数据相关工作人员的安全和保密意识,一旦出现违规运用数据信息的情况,要依法依规严厉处置,务必做好轨道交通大数据信息安全工作,切实保障轨道交通大数据的安全、合法、合理运用。 3大数据视野下轨道交通网络的研究展望 3.1推动多学科研究方法的交叉与融合 大数据的应用分析不仅推动了研究方法的多元化,而且还在一定程度上扩大了各学科的研究范围。例如,对网络数据的挖掘以及对居民行为活动数据进行分析都需要专业的工作人员去进行计算后才能得知。又因为学科与学科之间的性质不同,因此为了保证数据研究的精确性,学科与学科间要相互配合并彼此发挥其优势,从而推动大数据的应用。 3.2技术经济优势的挖掘与应用 3.2.1数据准确性高 因为大数据相比较于其他技术具有更大的储存能力,不存在样本范围小等不足之处,相反其在轨道交通建设中发挥着重要的作用。除此之外,因为交通大数据具有结构复杂以及连续性等特点,因此更能对城市交通现状进行零差别还原。 3.2.2具有更高的便捷性 采用大数据对数据进行统计以及储存,一方面不仅可以保证其计算的高效性,另一方面还可以快速直接的对其中存在的有用信息进行获取,所以相比较于传统问卷调查方法,大数据统计方法省去了调查过程,可以实现对数据的直接获取,更具有精确性以及便捷性。 3.2.3投入成本低且带来的效益非常可观 因为交通大数据具有非常强的专业性,其提供的数据大都具有很高的精确性,不仅可以给平台以及公众带来经济效益的同时,还可以

相关文档
最新文档