多维时间序列的分类技术研究

一种基于频繁模式的时间序列分类框架

第32卷第2期电子与信息学报Vol.32No.2 2010年2月 Journal of Electronics & Information Technology Feb. 2010 一种基于频繁模式的时间序列分类框架 万里①③廖建新①②朱晓民①②倪萍①③ ①(北京邮电大学网络与交换技术国家重点实验室北京 100876) ②(东信北邮信息技术有限公司北京 100191) ③(卡耐基梅隆大学匹兹堡 15213) 摘要:如何提取和选择时间序列的特征是时间序列分类领域两个重要的问题。该文提出MNOE(Mining Non- Overlap Episode)算法计算时间序列中的非重叠频繁模式,并将其作为时间序列特征。基于这些非重叠频繁模式,该文提出EGMAMC(Episode Generated Mixed memory Aggregation Markov Chain)模型描述时间序列。根据似然比检验原理,从理论上推导出频繁模式在时间序列中出现的次数和EGMAMC模型是否能显著描述时间序列之间的关系;根据信息增益定义,选择能显著描述时间序列的频繁模式作为时间序列特征输入分类模型。在UCI (University of California Irvine)公共数据集和实际智能楼宇数据集上的实验表明,选择频繁模式作为特征进行分类的准确率、召回率和F-Measure均优于不选择频繁模式作为特征的分类结果。高效的计算和有效的选择非重叠频繁模式作为时间序列特征有助于提高时间序列分类模型的各项评价指标。 关键词:时间序列分类;频繁模式挖掘;智能楼宇 中图分类号:TP393 文献标识码:A 文章编号:1009-5896(2010)02-0261-06 DOI: 10.3724/SP.J.1146.2009.00135 A Frequent Pattern Based Time Series Classification Framework Wan Li①③Liao Jian-xin①②Zhu Xiao-min①②Ni Ping①③ ①(State Key Laboratory of Networking and Switching Technology Beijing University of Posts and Telecommunications, Beijing 100876, China) ②(EBUPT Information Technology Co., Ltd, Beijing 100191, China) ③(Carnegie Mellon University, Pittsburgh, US 15213, USA) Abstract:How to extract and select features from time series are two important topics in time series classification. In this paper, a MNOE (Mining Non-Overlap Episode) algorithm is presented to find non-overlap frequent patterns in time series and these non-overlap frequent patterns are considered as features of the time series. Based on these non-overlap episodes, an EGMAMC (Episode Generated Mixed memory Aggregation Markov Chain) model is presented to describe time series. According to the principle of likelihood ratio test, the connection between the support of episode and whether EGMAMC could describe the time series significantly is induced. Based on the definition of information gain, significant frequent patterns are selected as the features of time series for classification. The experiments on UCI (University of California Irvine) datasets and smart building datasets demonstrate that the classification model trained with selecting significant frequent patterns as features outperforms the one trained without selecting them on precision, recall and F-Measure. The time series classification models can be improved by efficiently extracting and effectively selecting non-overlap frequent patterns as features of time series. Key words:Time series classification; Frequent pattern mining; Smart building 1引言 给定一个数据样本集合,每个数据样本包括: 2009-02-02收到,2009-09-03改回 国家杰出青年科学基金(60525110),国家973 计划项目(2007CB307100,2007CB307103)和电子信息产业发展基金项目(基于3G的移动业务应用系统)资助课题 通信作者:万里 wanly@https://www.360docs.net/doc/6718041960.html, 一个输入时间序列{()|{1,2,,}} i X t t T =∈ x"及其 离散的分类标签 s C,其中,()n t R ∈ x是一个n维向 量,称作t时刻发生的事件,{1,2,,} s C S ∈"。时间 序列分类的目标是预测新给出的时间序列 j X的类标签。时间序列分类技术在通信[1]、生物信息[2]、自动控制[3]等领域已有广泛应用,但通常情况下时间序列的长度不相等,即使所有待分类时间序列长度相

时间序列模型

时间序列模型 一、分类 ①按所研究的对象的多少分,有一元时间序列和多元时间序列。 ②按时间的连续性可将时间序列分为离散时间序列和连续时间序列两种。 ③按序列的统计特性分,有平稳时间序列和非平稳时间序列。 狭义时间序列:如果一个时间序列的概率分布与时间t 无关。 广义时间序列:如果序列的一、二阶矩存在,而且对任意时刻t 满足均值为常数和协方差为时间间隔的函数。(下文主要研究的是广义时间序列)。 ④按时间序列的分布规律来分,有高斯型时间序列和非高斯型时间序列。 二、确定性时间序列分析方法概述 时间序列预测技术就是通过对预测目标自身时间序列的处理,来研究其变化趋势的。一个时间序列往往是以下几类变化形式的叠加或耦合。 ①长期趋势变动:它是指时间序列朝着一定的方向持续上升或下降,或停留在某一水平上的倾向,它反映了客观事物的主要变化趋势。通常用表示。 ②季节变动:通常用表示。 ③循环变动:通常是指周期为一年以上,由非季节因素引起的涨落起伏波形相似的波动。通常用表示。 ④不规则变动。通常它分为突然变动和随机变动。通常用表示。也称随机干扰项。 常见的时间序列模型: ⑴加法模型:; ⑵乘法模型:; ⑶混合模型:;; 这三个模型中表示观测目标的观测记录, 如果在预测时间范围以内,无突然变动且随机变动的方差较小,并且有理由认为过去和现在的演变趋势将继续发展到未来时,可用一些经验方法进行预测。 三、移动平均法

当时间序列的数值由于受周期变动和不规则变动的影响,起伏较大,不易显示出发展趋势时,可用移动平均法,消除这些因素的影响,分析、预测序列的长期趋势。 移动平均法有简单移动平均法,加权移动平均法,趋势移动平均法等。 、简单移动平均法 当预测目标的基本趋势是在某一水平上下波动时,可用一次简单移动平均方法建立预测模型: 其预测目标的标准差为: 当然我们还可以得到如下递推关系: N的选取方式: ①一般N 取值范围:5 ≤N ≤ 200。当历史序列的基本趋势变化不大且序列中随机变动成分较多时,N 的取值应较大一些。否则N 的取值应小一些。 ②选择不同的N比较若干模型的预测误差,预测标准误差最小者为最好。 、加权移动平均法 在简单移动平均公式中,每期数据在求平均时的作用是等同的。但是,每期数据所包含的信息量不一样,近期数据包含着更多关于未来情况的信心。因此,把各期数据等同看待是不尽合理的,应考虑各期数据的重要性,对近期数据给予较大的权重,这就是加权移动平均法的基本思想。 其中为权数,体现了相应的在加权平均数中的重要性。 在加权移动平均法中,的选择,同样具有一定的经验性。一般的原则是:近期数据的权数 大,远期数据的权数小。至于大到什么程度和小到什么程度,则需要按照预测者对序列的了解和分析来确定。

基于符号表示的时间序列分类综述

第36卷第3期2019年9月 河一北一省一科一学一院一学一报J o u r n a l o f t h eH e b e iA c a d e m y o f S c i e n c e s V o l .36N o .3S e p .2019收稿日期:2019-04-10作者简介:武天鸿(1993-),硕士研究生,主要研究方向为数据挖掘二信息检索.文章编号:1001-9383(2019)03-0011-10基于符号表示的时间序列分类综述 武天鸿,翁小清,单中南 (河北经贸大学信息技术学院,河北石家庄一050061 )摘一要:一种有效的时间序列符号表示方法不仅可以实现数据高效降维,且对噪声具有鲁棒性, 对于提高分类算法的性能和效率具有重要意义.本文从基于趋势特征二基于聚类或进化计算二基 于文本以及基于频率域的角度,对近年来基于符号表示的时间序列分类方法的研究进行比较归 类,为研究者了解最新的符号时间序列分类方法研究动态和发展趋势提供参考. 关键词:时间序列;符号表示方法;符号序列分类 中图分类号:T P 391.4一一一一一一一一文献标识码:A R e v i e wo f t i m e s e r i e s c l a s s i f i c a t i o nb a s e d o n s y m b o l i c r e p r e s e n t a t i o n W UT i a n Gh o n g ,W E N GX i a o Gq i n g ,S H A NZ h o n g Gn a n (C o l l e g e o f I n f o r m a t i o nT e c h n o l o g y ,H e b e i U n i v e r s i t y o f E c o n o m i c sB u s i n e s s ,S h i j i a z h u a n g H e b e i 050061,C h i n a )A b s t r a c t :A ne f f e c t i v e t i m es e r i e ss y m b o l i cr e p r e s e n t a t i o n m e t h o dc a nn o to n l y a c h i e v ee f f i Gc i e n t d a t a d i m e n s i o n a l i t y r e d u c t i o n ,b u t a l s o r o b u s t t on o i s e ,w h i c h i s o f g r e a t s i g n i f i c a n c e f o r i m p r o v i n g t h e p e r f o r m a n c e a n d e f f i c i e n c y o f t h e c l a s s i f i c a t i o n a l g o r i t h m.T h i s p a p e r c o m p a r e d t h e r e s e a r c ho n t i m e s e r i e s c l a s s i f i c a t i o n m e t h o d sb a s e do ns y m b o l i c r e p r e s e n t a t i o n i nr e c e n t y e a r s f r o m p e r s p e c t i v e s t h a t t r e n dc h a r a c t e r i s t i c s Gb a s e d ,c l u s t e ro re v o l u t i o n a r y c a l c u l a t i o n ,t e x t Gb a s e d a n d f r e q u e n c y d o m a i n Gb a s e d ,a n d i t p r o v i d e sa r e f e r e n c e f o r r e s e a r c h e r s t ou n d e r Gs t a n d t h e l a t e s t r e s e a r c h t r e n d s a n dd e v e l o p m e n t t r e n d so f s y m b o l i c t i m e s e r i e s c l a s s i f i c a t i o n m e t h o d s .K e y w o r d s :T i m e s e r i e s ;S y m b o l r e p r e s e n t a t i o nm e t h o d ;S y m b o l s e q u e n c e c l a s s i f i c a t i o n 0一引言 时间序列通常是指按时间顺序排列而成的一组数据,任何有序的实值型数据都可以当作 时间序列处理[1].时间序列分类是数据挖掘的基本任务之一,是指根据训练集中对象所构建的分类模型判别被分类对象所属的类别[2].时间序列分类已经被广泛应用于模式识别二医疗

时间序列相关算法

时间序列相关算法 面向瓦斯检测数据的时间序列相似搜索算法研究 赵华(西安科技大学硕士论文) 1.3 时间序列相似搜索发展趋势 总结现有的基于时间序列相似搜索的各种变换方法可以得出时间序列相似搜索问题的发展方向及趋势。从最初时间序列相似性点对点的比较,到DFT和DWT 等方法的数据变换,再到时间序列等长分段后处理的方法,再发展到几种方法结合使用。时间序列相似搜索的算法可以是线性变换,如DFT、DWT 等,也可以是非线性变换,甚至可以分段处理,以关键特征代替原始序列。 提出了基于分段多项式表示(PPR, Piecewise Polynomial Representation)的煤矿瓦斯监测数据相似搜索方法和基于二维小波变换的煤矿瓦斯多变量时间序列相似搜索方法 提出了基于分段多项式表示(PPR, Piecewise Polynomial Representation)的煤矿瓦斯监测数据相似搜索方法。 提出了基于二维小波变换的煤矿瓦斯监测数据的多变量时间序列相似搜索算法。将瓦斯多变量时间序列存为数据矩阵形式,采用二维小波变换方法对数据矩阵降维,并用灰度图像把多变量时间序列可视化,再用欧式距离和Eros 距离进行相似性比较,并分别求出它们的查询效率。 (本篇文章是用于瓦斯涌出量的分析,不是危险源头的辨识,但是关于时间序列数据的处理可能有用,相当于缩短搜索时间的方法。) 基于云模型的时间序列相似性度量方法 时间序列的相似性度量就是衡量两条时间序列之间的相似性,是时间序列的查询、分类、预测的基础,广泛应用于时间序列的聚类、分类和分割等研究领域。一种有效的相似性度量能够提高数据挖掘的效率和准确率。 欧氏距离 欧氏距离、动态时间弯曲(伪h翻iciTm。认厄rpign,简称DTW)距离和形态距离是时间序列相似性度量的经典度量方法,这几种方法在在某些方面都有各自的优势,但是它们在应用到实际的时间序列数据挖掘上有其固有的缺陷。本文在基于这些经典的相似性度量方法的基础上结合云模型的方法理论,提出了一种基于云模型的时间序列相似性度量方法。 欧氏距离是时间序列相似性研究中最广泛采用的相似性度量。它的优点是计算简单,容易理解,运行速度快,广泛应用于时间序列的聚类和分类等研究领域。然而欧氏距离测度存在一些局限性,例如对数据在时间轴上的形变缺乏辨识能力和对噪声的鲁棒性不好,对数据中的扭曲现象非常敏感,且要求两个时间序列长度一样,因此应用范围也受到限制。 DT份距离 D伴可以有效的消除欧氏距离的缺陷,支持时间序列的时间轴伸缩,根据最小代价的时间弯曲路径进行对齐匹配,且DT甲距离不要求两个序列的长度一样,序列的值可以是一对多,或多对一,比较灵活。 形态距离 形态距离在很大程度上受到PLR模型表示的影响,若PLR模型对原时间序列的表示存在较大的误差,会引起形态距离度量上的偏差。 云模型

时间序列模型

时间序列模型一、分类 ①按所研究的对象的多少分,有一元时间序列和多元时间序列。 ②按时间的连续性可将时间序列分为离散时间序列和连续时间序列两种。 ③按序列的统计特性分,有平稳时间序列和非平稳时间序列。 狭义时间序列:如果一个时间序列的概率分布与时间t 无关。 广义时间序列:如果序列的一、二阶矩存在,而且对任意时刻t 满足均值为常数和协方差为时间间隔的函数。(下文主要研究的是广义时间序列)。 ④按时间序列的分布规律来分,有高斯型时间序列和非高斯型时间序列。 二、确定性时间序列分析方法概述 时间序列预测技术就是通过对预测目标自身时间序列的处理,来研究其变化趋势的。一个时间序列往往是以下几类变化形式的叠加或耦合。 ①长期趋势变动:它是指时间序列朝着一定的方向持续上升或下降,或停留在某一水平上的倾向,它反映了客观事物的主要变化趋势。通常用表示。 ②季节变动:通常用表示。 ③循环变动:通常是指周期为一年以上,由非季节因素引起的涨落起伏波形相似的波动。通常用表示。 ④不规则变动。通常它分为突然变动和随机变动。通常用表示。也称随机干扰项。 常见的时间序列模型: ⑴加法模型:; ⑵乘法模型:; ⑶混合模型:;; 这三个模型中表示观测目标的观测记录, 如果在预测时间范围以内,无突然变动且随机变动的方差较小,并且有理由认为过去和现在的演变趋势将继续发展到未来时,可用一些经验方法进行预测。 三、移动平均法

当时间序列的数值由于受周期变动和不规则变动的影响,起伏较大,不易显示出发展趋势时,可用移动平均法,消除这些因素的影响,分析、预测序列的长期趋势。 移动平均法有简单移动平均法,加权移动平均法,趋势移动平均法等。 3.1、简单移动平均法 当预测目标的基本趋势是在某一水平上下波动时,可用一次简单移动平均方法建立预测模型: 其预测目标的标准差为: 当然我们还可以得到如下递推关系: N的选取方式: ①一般N 取值范围:5 ≤N ≤200。当历史序列的基本趋势变化不大且序列中随机变动成分较多时,N 的取值应较大一些。否则N 的取值应小一些。 ②选择不同的N比较若干模型的预测误差,预测标准误差最小者为最好。 3.2、加权移动平均法 在简单移动平均公式中,每期数据在求平均时的作用是等同的。但是,每期数据所包含的信息量不一样,近期数据包含着更多关于未来情况的信心。因此,把各期数据等同看待是不尽合理的,应考虑各期数据的重要性,对近期数据给予较大的权重,这就是加权移动平均法的基本思想。 其中为权数,体现了相应的在加权平均数中的重要性。 在加权移动平均法中,的选择,同样具有一定的经验性。一般的原则是:近期数据的权数 大,远期数据的权数小。至于大到什么程度和小到什么程度,则需要按照预测者对序列的了解和分析来确定。 3.3、趋势移动平均法

相关文档
最新文档