一种应用稀疏高斯过程回归模型的半监督分类算法

一种应用稀疏高斯过程回归模型的半监督分类算法

一种应用稀疏高斯过程回归模型的半监督分类算法

监督学习算法需要足够的标记数据合理地形成精确

的分类器,但是在很应用领域,如生物信息学、文字处理等,已标记的数据征往很难获得,而未标记的数据却丰富且容易获得,半监督学习就是使用大量的未标记数据和相关的已标记数据来构造合适的分类器。文献给出了详细的半监督学习方面的资料。

改进高斯过程回归算法及其应用研究

改进高斯过程回归算法及其应用研究 在工业生产过程中,由于受到工艺、检测技术以及工况等条件限制,一些重要变量常常无法直接检测,这严重制约了自动控制技术的普及与应用,软测量技术因此应运而生。软测量技术最重要的一步就是软测量建模,近几年各种软测量建模方法不断涌现,其中高斯过程回归方法(Gaussian process regression,GPR)凭借其在处理小样本、复杂度较高的工业数据上的优势,被越来越多的学者关注。然而作为传统的软测量建模算法,高斯过程回归存在核函数单一、计算量较大、对初值敏感等问题,本文将针对这些问题开展改进研究。本文的研究得到了浙江省自然科学基金的资助,主要的研究内容和成果总结如下:(1)高斯过程回归结构以及参数优化研究。 针对延迟焦化过程数据具有非线性、时变性和较强的复杂性等特点,提出一种基于万有引力搜索优化的组合核函数高斯过程回归算法。该算法具有两大特点:1)用组合核函数代替传统的单一核函数,相较于单一核函数,选择组合核函数能够更大可能地保留数据特征信息,使得映射关系更加符合数据分布,同时组合核函数的引入在结构上保证了算法具有更好的泛化能力;2)引入万有引力搜索算法寻找每一个核函数的最优超参数,克服共轭梯度法对初值依赖性强、迭代次数不确定等缺点。(2)高斯过程回归集成算法研究。针对工业现场工况复杂,不同的工况下数据特征间的相关性可能会不同等问题,提出一种基于K-means聚类的集成自适应高斯过程回归算法。 首先利用K-means聚类算法将工业数据集划分成三个簇,然后利用自适应算法自适应地为每个簇选出最优核函数并建立最优局部模型。预测阶段,选用贝叶斯后验概率的融合方式对每个子模型赋予权重,从而对每个局部模型进行加权集成,得到预测结果。(3)改进高斯过程回归算法的应用研究。将所提两种算法应用于某延迟焦化系统开工线温度预测中,建立开工线温度预测模型,并与传统GPR 算法、基于粒子群寻优的GPR(PSO-GPR)、基于遗传算法寻优的GPR(GA-GPR)、基于万有引力寻优的SVR(GSA-SVR)以及基于均值融和方式的K-means自适应高斯过程回归集成算法进行对比,结果表明本文提出的算法具有最高的预测精度、最强的稳定性,同时也证明了所提算法在延迟焦化系统中的实用性、有效性。 (4)延迟焦化温度预测系统软件开发与应用。基于本文所提两种算法的基础

非线性系统辨识模型选择方法综述

文献2:Model selection approaches for non-linear system identification: a review X. Hong, R.J. Mitchell, S. Chen, C.J. Harris, K. Li and G .W. Irwin. International Journal of Systems Science, 2008,39(10): 925–946 非线性系统辨识模型选择方法综述 摘要:近20年来基于有限观测数据集的非线性系统辨识方法的研究比较成熟。由于可利用现有线性学习算法,同时满足收敛条件,目前深入研究和广泛使用的非线性系统辨识方法是一类具有万能逼近能力的参数线性化非线性模型辨识(linear-in-the-parameters nonlinear model identification )。本文综述了参数线性化的非线性模型选择方法。非线性系统辨识最基本问题是从观测数据中识别具有最好模型泛化性能的最小模型。综述了各种非线性系统辨识算法中实现良好模型泛化性的一些重要概念,包括贝叶斯参数正规化,基于交叉验证和实验设计的模型选择准则。机器学习的一个显著进步,被认为是确定的结构风险最小化原则为基础的内核模式,即支持向量机的发展。基于凸优化建模算法,包括支持向量回归算法,输入选择算法和在线系统辨识算法。 1 引言 控制工程学科的系统辨识,是指从测量数据建立系统/过程动态特性的数学描述,以便准确预测输入未来行为。系统辨识2个重要子问题:(1)确定描述系统输入和输出变量之间函数关系的模型结构;(2)估计选定或衍生模型结构范围内模型参数。最初自然的想法是使用输入输出观测值线性差分方程。早期研究集中在线性时不变系统,近期线性辨识研究考虑连续系统辨识、子空间辨识、变量误差法(errors-in-the-variable methods )。 模型质量重要测度是未知过程逼近的拟合精度。由于大多数系统在某种程度上说都是非线性的,非线性模型通常要求满足合格的建模性能。定义非线性离散系统输入)(t u ,输出)(t y ,训练数据集合N D ={}N t t y t u 1)(),(=,基本目标是找到 )()),(()(t e t X f t y +=θ (1) )(?f 未知,θ相关参数向量,噪声)(t e ,通常假设方差(2σ)恒定,满足独立的同分布(i.i.d.)特 性。模型输入[]T e u y n t e t e n t u t u n t y t y t X )(),1(),(),1(),(),1()(------= 。y n ,u n ,e n 分别为输出、输入和噪声的延迟。方程式(1)是NARMAX 模型表达式,代表一大类非线性系统。 由于大多数工业过程满足光滑连续特性,非线性函数)(?f 辨识等价于函数逼近,即用f ?代替f 函数。为了逼近函数,用户选择各种非线性建模方法[1],如分段线性模型、有理多项式模型、Hammerstein/Wiener 模型、投影寻踪回归(PPR )和多项式自适应回归样条(MARS )、周期神经网络。逼近论中,一种通用函数表示方法是非线性基函数的线性组合。具有参数线性化结构、表示非线性输入输出关系模型表达式 ∑==m i i i t X t X f 1))(()),((?θφθ (2) ((t X i φ为已知非线性基函数映射,例如RBF 或者B 样条函数,i θ未知参数,m 模型中基函数个 数。参数线性化模型具有适合自适应学习的良好结构,具有可证明的学习和收敛条件,具备并行处理能力,明确的工程应用[2]。然而,非线性系统辨识中仍然存在一些重大挑战和障碍: (1)模型的泛化性 采用有限数据辨识模型,不仅要求模型训练精度较好,同样要求模型测试精度良好。由于)(?f 未知,

基于机器学习的数据库自动调优综述

基于机器学习的数据库自动调优综述 一、 DBMS自动优化介绍 (一)传统DBA 传统数据库:通常采用静态配置模板,配置数据库实例参数。采用统一的处理方式,没有结合具体应用的数据分布与工作负载。 配置策略为:B树查询、键-地址映射函数查询、穷举法、基于代价估计的启发式算法、并发控制策略、乐观并发控制、两阶段锁点法等。 经验选择;昂贵的专家;DBA复制:手动测量性能来自实际应用持续的示例工作负载;重复实验; 经验+调整指南+直觉:昂贵、效率低。 系统调优的传统做法:辅助DBA的调优工具,如IBM DB2的配置向导等。 业务多样性和持续可变性使得传统依赖DBA手工调优方式在大规模场景下完全不可行。 (二)学习式DBA 机器学习技术有效捕捉负载与数据的特性,对数据库进行全自动调优,比如动态调整缓冲池的大小。实现自感知、自决策、自恢复、自优化。把人工的DBA经验转换成产品。 无人驾驶的概念,自动调节方向盘(knob),查看前方路况(适应未来的workload)、最终能保证乘客安全驾驶。自主完成workload,并保证较好的执行效果。同时,不影响前端的业务处理。 特点:全自动调优、效果中学习。 问题定义、指标定义及选择、关键算法优化、算法评估与改进、端到端的自动化流程落地。其中算法部分包括:建模、调参、获取反应、学习、产生最优参数。 学习式数据库系统不适用于:频繁更新的数据库,训练代价太大;数据库数据过少或分布单一,容易过拟合;数据本身没有规律,ML难以挖掘数据分布。 (三)功能 重点优化组件:索引结构、查询优化器、事务管理器、系统调优。 学习式索引、学习式查询优化器、学习式系统调优:旋钮设置、并发控制策略、数据布局。 1.学习式索引 核心:基于数据分析或特征,通过监督学习对数据的分布进行拟合,形成有效的键-数

增量式人体姿态映射模型的学习方法

万方数据

万方数据

万方数据

增量式人体姿态映射模型的学习方法 作者:刘长红, 杨扬, 陈勇, LIU Chang-hong, YANG Yang, CHEN Yong 作者单位:刘长红,LIU Chang-hong(北京科技大学信息工程学院,北京,100083;江西师范大学计算机信息工程学院,南昌,330022), 杨扬,YANG Yang(北京科技大学信息工程学院,北京,100083) , 陈勇,CHEN Yong(南昌工程学院管理工程系,南昌,330099) 刊名: 计算机科学 英文刊名:COMPUTER SCIENCE 年,卷(期):2010,37(3) 参考文献(11条) 1.Agarwal A;Triggs B Recovering 3D human pose from monocular images[外文期刊] 2006(01) 2.Sminchisescu C;Kanaujia A;Li Z Discriminative density propagation for 3D human motion estimation [外文会议] 2005 3.Rasmussen C E;Williams C K Gaussian Processes for Machine Learning 2006 4.Candela J Q;Rasmussen C E A unifying view of sparse approximate gaussian process regression 2005 https://www.360docs.net/doc/5f6042336.html,wrence N D;Seeger M;Herbrich R Fast sparse Gaussian process methods:The informative vector machine 2003 6.Rasmussen C E;Ghahrarnani Z Infinite mixtures of gaussian process experts 2002 7.Bo L-f;Sminchisescu C Greedy block coordinate descent for large scale gaussian process Regression [外文会议] 2008 8.Raquel U Trevor n Sparse Probabilistic Regression for Activity-independent Human Pose Inference 2008 9.Vijayakumar S;D'Souza A;Schaal S Incremental online learning in high dimensions[外文期刊] 2005(12) 10.Mocap data 11.Belongie S;Malik J;Puzicha J Shape Matching and Object Recognition Using Shape Contexts[外文期刊] 2002(04) 本文读者也读过(10条) 1.陈忠泽.黄国玉.CHEN Zhong-ze.HUANG Guo-yu基于正交立体图像的3D人体姿态重建算法[期刊论文]-计算机应用2008,28(5) 2.肖锋.周杰.XIAO Feng.ZHOU Jie基于区域分割和蒙特卡洛采样的静态图片人体姿态估计[期刊论文]-智能系统学报2011,06(1) 3.孙光民.陈德明.秦圣峰.Wright D. K.康金胜.赵越.Sun Guangmin.Chen Deming.Qin Shengfeng.Wright D. K. Kang Jinsheng.Zhao Yue基于RBF神经网络的人体运动跟踪与姿态预测[期刊论文]-仪器仪表学报2007,28(1) 4.丁博.孙立镌.刘宪国.DING Bo.SUN Li-juan.LIU Xian-guo基于细胞元本体的标准件库资源共享研究[期刊论文]-计算机科学2010,37(3) 5.李毅.孙正兴一种基于实例的单视频人体姿态分析方法[会议论文]-2009 6.杨烜.裴继红.谢维信序列图像中基于边缘势匹配的人体姿态检测[会议论文]-2005 7.马永有.张辉.金先龙基于扫描数据建立人体动态模型[期刊论文]-上海交通大学学报2004,38(z1) 8.赵仁铃.朱学芳基于动作库的三维人体姿态重构研究[会议论文]-2007 9.彭珍.杨炳儒.谢永红.PENG Zhen.YANG Bing-ru.XIE Yong-hong基于RBFCM的启发型协调器算法的研究[期刊论文]-计算机科学2010,37(3)

论文翻译-机器学习中的高斯过程应用

外文译文 机器学习中的高斯过程应用 摘要 我们给了一个对高斯过程回归模型的基本介绍。我们研究的重点在于理解随机过程的含义和如何用他去定义一个分布函数。我们提出了一个简单的方程,它可以结合训练数据并且测试了它如何去应用边缘概率密度来学习超参数。我们解释了高斯过程的实际应用优势并且得出结论,高斯过程是适合当前时代趋势的。 回归(对于连续输出)和分类(对于离散输出)形式的机器学习是一个对于学习统计学和机器学习非常重要的组成部分,无论是对于大量数据的分析,或是对于一个更加复杂问题中的子目标的解决。 传统参数模型(①参数模型,我们这里是指模型在训练过程中从训练数据―吸收‖信息传递给参数;训练结束后,数据库可以被丢弃。)已经被用作完成这些目标。这些可能在容易理解方面有优势,但是应用于复杂数据分析时,简单的参数模型就显得力不从心了,而且比它们更复杂的类似的方法(比如前向网络)可能在实践中比较难以实现。内核机器的出现,比如支持向量机和高斯过程使对复杂模型进行实际分析有了可能性。 在这篇短文中,我们提出了一个使用高斯过程用于贝叶斯回归方程的建模的基本方法。我们主要关注如何理解随机过程和如何将他在机器学习中应用。第二,我们将讨论关于超参数在协方差函数中的作用的切实问题,边缘概率密度和奥卡姆剃刀原则的问题。要查看更多关于高斯过程的介绍,请看参考文献[1],[2]。

第一章高斯过程 在这部分我们定义了高斯过程,并且展示它们是如何非常自然的被应用于定义分布函数。接下来的部分,我们继续展示这个分布函数是如何通过训练数据更新的。 定义1:高斯过程是一个随机变量的集合,其中任何有限的数字都有共同的高斯分布。 一个高斯过程可以被它的均值函数m(x)和协方差函数k(x,x’)完全的定义。分别将均值函数和协方差函数表示成向量和矩阵,这是一个对高斯分布的自然推广。高斯分布用向量表示,而高斯过程用函数表示。如此有: 意思是:―f是由均值函数m和协方差函数k定义的高斯分布函数。‖ 虽然从分布到过程的概括比较直截了当,我们会略详细地解释一下细节,因为它可能对一些读者来说没那么熟悉。高斯向量中的单个随机变量可以被他们的位置向量索引到。高斯过程中,有一个参数x(随机函数f(x)中的)起到了索引集的角色:每一个输入x都有一个相联系的随机变量f(x),这是(随机)函数f在x处的取值。为了识记方便,我们用自然数来列举x的值,并且用这些来索引他们在随机过程中的位置-不要让你自己被这个迷惑:随机过程的索引用xi 表示,我们选择用i来表示索引。 虽然与无限维对象工作可能在起初看起来很笨拙,但是经过大量计算证明,这只需要与有限维对象工作就可以完成。实际上,找到用相关分布函数减少随机过程运算量的答案,这才是高斯过程可行性的关键。让我们看一个例子,考虑如下方程给出的高斯过程: 为了更加直观地理解这个随机过程,我们可以用函数f画出采样图。为了只与有限数据进行处理,我们只要求在不同有限数字n代表的位置的f的取值。我们如何产生这样的采样呢?给出不同x的取值,我们可以用定义了一个标准高斯分布的方程计算出均值向量和协方差矩阵: 我们用m和k代表高斯过程的参数,用μ和∑代表分布函数的参数,来清楚地区分它们。我们现在可以通过这个分布函数创造出一组随机向量。这个向量会作为坐标的函数,由x的值得到相应的f(x)的值。

高斯过程在机器学习中的应用

西安郵電大学 科研训练报告书 基于高斯过程在机器学习中的应用

摘要 高斯过程是近年来发展起来的一种新的机器学习方法,它有着严格的统计学习理论基础,对处理高维数非线性小样本复杂问题具有良好的适应性。对列车精准停车问题的这种复杂的非线性问题,将高斯过程机器学习方法应用于此问题,并提出相应的模型,减少数据间复杂的内在物理或其他关系。很多工程实例研究表明,高斯过程机器学习模型是科学可行的,预测精度高,简单实用,对很多问题问题具有较好的适用性。 关键词:高斯过程;机器学习;列车精准停车 Abstract Gaussian processes ( GP) is a newly developed machine learning method based on the strict statistical learning theory. GP is capable of solving the highly nonlinear problem with small samples and high dimensions.Precise train stopping complex nonlinear problem, GP machine learning model applied to this problem, and propose a model to reduce the complexity of data between the intrinsic physical or other relationship. Case studies show that many of the works, GP machine learning model is scientific and feasible, the prediction accuracy is high, simple and practical, on many issues the problem has good applicability. Key Words:Gaussian processes;machine learning;precise train stopping 1引言 列车(包括火车、地铁、轻轨等轨道交通工具)的精确停车是轨道交通控制系统中的一项关键技术。对于有效使用站台屏蔽门、保证乘客安全、较少乘客换乘时间等有着至关重要的作用。然而就实际物理模型建模时收到很多方面的制约,且耗费大量的金钱。通过研究,将实际上依赖于物理模型的建立和控制参数的调整,而采用对数据本身的练习进行学习和建模。如果能从数据中学习到列车精确停车的规律,则可以在保证列车达到精确停车所需指标的同时,大量节省硬件方面的费用,并建立数据规律,同时使结果与实际模型相联系,促进物理模型的建立。因此,在利用机器学习来分析列车精确停车问题时,不需要过多关注各种复杂的如轨道坡度、摩擦系数、天气状况、乘客数量等外在因素,而只需关注对精度有明显影响的因素如停车的初始速度及距离等。 在本文中,将研究机器学习领域的高斯过程(Gaussian Process,GP),并以实际的列车停车

高斯过程在机器学习中的应用

高斯过程在机器学习中的应用

西安郵電大学 科研训练报告书 基于高斯过程在机器学习中的应用

摘要 高斯过程是近年来发展起来的一种新的机器学习方法,它有着严格的统计学习理论基础,对处理高维数非线性小样本复杂问题具有良好的适应性。对列车精准停车问题的这种复杂的非线性问题,将高斯过程机器学习方法应用于此问题,并提出相应的模型,减少数据间复杂的内在物理或其他关系。很多工程实例研究表明,高斯过程机器学习模型是科学可行的,预测精度高,简单实用,对很多问题问题具有较好的适用性。关键词:高斯过程;机器学习;列车精准停车 Abstract Gaussian processes ( GP) is a newly developed machine learning method based on the strict statistical learning theory. GP is capable of solving the highly nonlinear problem with small samples and high dimensions.Precise train stopping complex nonlinear problem, GP machine learning model applied to this problem, and propose a model to reduce the complexity of data between the intrinsic physical or other relationship. Case studies show that many of the works, GP machine learning model is scientific and feasible, the prediction accuracy is high, simple and practical, on many issues the problem has good applicability. Key Words: Gaussian processes;machine learning;precise train stopping

相关文档
最新文档