数据归一化处理

2.看一下MATLAB里的premnmx函数和postmnmx函数.它们一个是归一一个是反归一
3.并不是归一化的数据训练效果就好
4.我也遇到过类似的问题,有篇论文就是用postmnmx函数.效果不好可能是样本数据不太准.
5.可以采用标准化PRESTD，效果很好。
6.样本数据和测试数据是否放在一起归一化？
7.应该将样本数据和测试数据放在一起归一化，不然如果测试数据中有的值比样本数据最大值还大，岂不是超过1了？
神经网络训练的时候，应该考虑极值情况，即归一化的时候要考虑你所需要识别参数的极值，以极值作分母，这样可能效果更好一点。
8.激发函数如果选用的是倒s型函数，应不存在归一化的问题吧
9.我想问大家一下:在神经网络中,只有一个函数即:purelin这个函数对训练的输出数据不用归一化,而象logsig 和tansig函数都要归一化
(如果数据范围不在[-1,1]或[0,1]之间).那既然用purelin函数可以不用归一化,为何又是还用归一化呢?
用神经网络里的PRESTD, PREPCA, POSTMNMX, TRAMNMX等函数归一化和直接用purelin这个函数有什么区别啊? 我作负荷预测时,象不用归
一化的效果很好呀!
10.purelin没有作归一化啊,你用logsig 和tansig作为神经元激励函数,输出范围自然限制在[-1,1]或[0,1]之间了
11.
我所知道的关于归一化：
归一化化定义：我是这样认为的，归一化化就是要把你需要处理的数据经过处理后（通过某种算法）限制在你需要的一定范围内。首先归一
化是为了后面数据处理的
方便，其次是保正程序运行时收敛加快。
在matlab里面，用于归一化的方法共有三中，（1）premnmx、postmnmx、tramnmx（2）prestd、poststd、trastd（3）是用matlab语言自
己编程。premnmx指的是归一到[－1 1],prestd归一到单位方差和零均值。（3）关于自己编程一般是归一到[0.1 0.9] 。具体用法见下面实例。

为什么要用归一化呢？首先先说一个概念，叫做奇异样本数据，所谓奇异样本数据数据指的是相对于其他输入样本特别大或特别小的样本矢量。
下面举例：
m=[0.11 0.15 0.32 0.45 30;
0.13 0.24 0.27 0.25 45];
其中的第五列数据相对于其他4列数据就可以成为奇异样本数据（下面所说的网络均值bp）。奇异样本数据存在所引起的网络训练时间增加，
并可能引起网络无法收敛，
所以对于训练样本存在奇异样本数据的数据集在训练之前，最好先进形归一化，若不存在奇异样本数据，则不需要事先归一化。
具体举例：
close all
clear
echo on
clc
%BP建模
%原始数据归一化
m_data=[1047.92 1047.83 0.39 0.39 1.0 3500 5075;
1047.83 1047.68 0.39 0.40 1.0 3452 4912;
1047.68 1047.52 0.40 0.41 1.0 3404 4749;
1047.52 1047.27 0.41 0.42 1.0 3356 4586;
1047.27 1047.41 0.42 0.43 1.0 330

8 4423;
1046.73 1046.74 1.70 1.80 0.75 2733 2465;
1046.74 1046.82 1.80 1.78 0.75 2419 2185;
1046.82 1046.73 1.78 1.75 0.75 2105 1905;
1046.73 1046.48 1.75 1.85 0.70 1791 1625;
1046.48 1046.03 1.85 1.82 0.70 1477 1345;
1046.03 1045.33 1.82 1.68 0.70 1163 1065;
1045.33 1044.95 1.68 1.71 0.70 849 785;
1044.95 1045.21 1.71 1.72 0.70 533 508;
1045.21 1045.64 1.72 1.70 0.70 567 526;
1045.64 1045.44 1.70 1.69 0.70 601 544;
1045.44 1045.78 1.69 1.69 0.70 635 562;
1045.78 1046.20 1.69 1.52 0.75 667 580];
%定义网络输入p和期望输出t
pause
clc
p1=m_data(:,1:5);
t1=m_data(:,6:7);
p=p1';t=t1';
[pn,minp,maxp,tn,mint,maxt]=premnmx(p,t)
%设置网络隐单元的神经元数(5~30验证后5个最好）
n=5;
%建立相应的BP网络
pause
clc
net=newff(minmax(pn),[n,2],{'tansig','purelin'},'traingdm');
inputWeights=net.IW{1,1};
inputbias=net.b{1};
layerWeights=net.IW{1,1};
layerbias=net.b{2};
pause
clc
% 训练网络
net.trainParam.show=50;
net.trainParam.lr=0.05;
net.trainParam.mc=0.9;
net.trainParam.epochs=200000;
net.trainParam.goal=1e-3;
pause
clc
%调用TRAINGDM算法训练BP网络
net=train(net,pn,tn);
%对BP网络进行仿真
A=sim(net,pn);
E=A-tn;
M=sse(E)
N=mse(E)
pause
clc
p2=[1046.20 1046.05 1.52 1.538 0.75;
1046.05 1046.85 1.538 1.510 0.75;
1046.85 1046.60 1.510 1.408 0.75;
1046.60 1046.77 1.408 1.403 0.75;
1046.77 1047.18 1.403 1.319 0.75];
p2=p2';
p2n=tramnmx(p2,minp,maxp);
a2n=sim(net,p2n);
a2=postmnmx(a2n,mint,maxt)
echo off
pause
clc
程序说明：所用样本数据（见m_data）包括输入和输出数据，都先进行归一化，还有一个问题就是你要进行预测的样本数据(见本例p2)在进行
仿真前，必须要用tramnmx函数进行事先归一化处理，然后才能用于预测，最后的仿真结果要用postmnmx进行反归一，这时的输出数据才是您
所需要的预测结果。

12."tansig、purelin、logsig是网络结构的传递函数，本身和归一化没什么直接关系，归一化只是一种数据预处理方法",说的有问题,若用
premnmx将输入输出归一化,其输出值在[-1,1]之间,若输出层传函为logsig 则无论怎么训练,输出值都不可能在[-1,1]之间.

14.我认为有可能是数据太大或太多，将其归一化之后，有利于快速的调整神经网络的网络结构，或者如同terry2008所说存在奇异值也肯定
有影响。
当然，效果好就选谁！

16.如果数据的维数太多，可以考虑用prepca进行主元分析，不知道silvercx所说的简单的归一化是什么意思？我现在还不知道其他预处理
方法？什么事都得试一下，试过了
就知道，你可可以拿出具体问题一起讨论！
17.我认为讨论之前要搞清一个数学问题，就是每种激励函数的定义域和值域，我们都知道tansig的定义域是任意实数，值域为（－1，1）、
purelin定义域和值域都是任意
实数、logsig定义域任

意实数，值域是（0 ，1）。
所以在具体实际中使用用事先考虑好这个问题，logsig的值域是（0，1），当然不可能使输出在（－1，1）了。

18.如果输入样本的数据组成为In=[频率; 幅值; 相位]
我只用premnmx对In进行归一化，训练BP网络，得到一个目标输出Out，其数据组成也为Out=[频率; 幅值; 相位]。这样子可以吗？总觉得把
不同类型的数据放一起有点不妥。
19.完全可以，不过在输入数据和输出数据啊安排上可能要以时间序列的方式来安排。例如，用第1，2，3，4时刻的数据预测第5时刻的数据
，用第2，3，4，5时刻的数据预
测第6时刻的数据，依次类推，可以组成一定的输入输出对，以上只是举个例子，只是说明这种数据组织方法，silvercx 在实际中可以根据
自己的要解决的问题，自己确定，
我只是提供一个参考方法。
有问题再讨论！
20.目前在我的项目中，我是这样子来训练BP网络的。
在变频器输出频率为45~50Hz之间，采集电机的转矩(T)、转速(n)和另外一个目标量(RL)。
然后我对这些数据进行FFT变换，得到他们前几次谐波的幅值和相位。归一化。然后我利用两个网络分别训练幅值和相位。（下面Am表示幅
值，Ph表示相位，即AmT45，表示
在45Hz时电机的转矩前几次谐波幅值）
网络1：
in=[AmT45 AmT46 AmT47 AmT48 AmT49 AmT50;
Amn45 Amn46 Amn47 Amn48 Amn49 Amn50;];
out=[AmRL45 AmRL46 AmRL47 AmRL48 AmRL49 AmRL50];
网络2：
in=[PhT45 PhT46 PhT47 PhT48 PhT49 PhT50;
Phn45 Phn46 Phn47 Phn48 Phn49 Phn50;];
out=[PhRL45 PhRL46 PhRL47 PhRL48 PhRL49 PhRL50];
然后利用所训练的网络去测试其他频率下的数据RL。
这样进行网络的训练行不行，还是把幅值和相位放在一个网络内训练的效果好？

21.在神经网络BP网的预测中，对数据进行归一化处理，完了输出再反归一化。如果是单入单出系统好办，如果是多入单出系统，那么反归
一化时，最大值和最小值怎么确定呢？
22.你可以自己指定，或者使用在训练网络时候确定的最大值和最小值
23.请问minmax(p),p是输入样本,
它的功能是做归一化吗，在MATLAB里面.
谢谢!
24.我认为，如果各维的数据不进行归一化处理，那么各维对误差函数的影响差异会很大。从而会影响学习性能。
不知道对不对？
25.那样本数据\测试数据\预测数据\期望数据要一起进行归一化吗?
26.我所知道的关于归一化：
归一化化定义：我是这样认为的，归一化化就是要把你需要处理的数据经过处理后（通过某种算法）限制在你需要的一定范围内。首先归
一化是为了后面数据处理的方便，其次
是保正程序运行时收敛加快。
在matlab里面，用于归一化的方法共有三中，（1）premnmx、postmnmx、tramnmx（2

）prestd、poststd、trastd（3）是用matlab语言
自己编程。premnmx指的是归一到[－1 1],
prestd归一到单位方差和零均值。（3）关于自己编程一般是归一到[0.1 0.9] 。具体用法见下面实例。
为什么要用归一化？
为什么要用归一化呢？首先先说一个概念，叫做奇异样本数据，所谓奇异样本数据数据指的是相对于
其他输入样本特别大或特别小的样本矢量。
下面举例：
m=[0.11 0.15 0.32 0.45 30;
0.13 0.24 0.27 0.25 45];
其中的第五列数据相对于其他4列数据就可以成为奇异样本数据（下面所说的网络均值bp）。奇异样本数据存在所引起的网络训练时间增加
，并可能引起网络无法收敛，所以对于
训练样本存在奇异样本数据的数据集在训练之前，最好先进形归一化，若不存在奇异样本数据，则不需要事先归一化。
具体举例：

程序说明：所用样本数据（见m_data）包括输入和输出数据，都先进行归一化，还有一个问题就是你要进行预测的样本数据(见本例p2)在
进行仿真前，必须要用tramnmx函数进行
事先归一化处理，然后才能用于预测，最后的仿真结果要用postmnmx进行反归一，这时的输出数据才是您所需要的预测结果。
个人认为：tansig、purelin、logsig是网络结构的传递函数，本身和归一化没什么直接关系，归一化只是一种数据预处理方法。

你好,我用了你的归一化方法,但当p2数据取比这些数大很多的值时，好像就不行了，出现了这样的问题，是不是数值超出了最大值的原因？
我用的是GRNN网络
Warning: Divide by zero.
> In normprod at 73
In calca at 119
In network.sim at 204
In xgi at 60
a2=postmnmx(a2n,mint,maxt)

a2 =

Columns 1 through 9

1602 1602 NaN NaN NaN NaN NaN NaN NaN

Column 10

NaN

29.而且预测值受样本期望输出的最大值限制，
30.这个问题我提出来很多天了，为什么没有人表示意见呢，是这个问题本身就是神经网络的BUG，还是，我走的路偏了，对神经网络本质
误解所致，大家多多指教阿，我在这等
很久了呀！
非常不好意思，请教一问题：
31.利用归一化后的数据建了BP网络，但最后预测值在反归一化前却超出了[-1,+1]，不知问题出在哪？
32.小波神经网络对于时间序列预测在文献上报道得神乎其神，据称预测精度相对偏差平均达5%以下。鄙人尝试后认为，小波神经网络只是
加快了收敛速度，而预测精度决定于
问题本身，很多数据预测结果并不能达到以上效果。欢迎各位仁兄讨论改进方法。
33.有个问题：归一化的时候我认为应该考虑数据的物理含义

34.为什么我的简单的归一化程序总是错的?谢各位大虾指点
p=[1520 510 5.155 33.88;1468 521 5.321 35.79;
.......共5行]';
t=[0.7 1.9;0.6 1.798;...

..共10行]';
for i=1:4
P(i,: )=(p(i,: )-min(p(i,: )))/(max(p(i,: ))-min(p(i,: )));就是这行总说有错,到底是程序错还是软件不好??
end

此程序出自<神经网络理论与MATLAB7实现>,第269页,类似的归一化在我机子里都说不对,急死了,等毕业呢.
35.不要用这个归一化啊，换函数premnmx试试
36.为什么要归一化？
神经网络输入的一维代表一个特征，当神经网络的输入是多维时，要识别的模式有多个特征，当这多个特征的数据相差很大，如几个数量级
时，就需要归一化，变成相同数
量级，以防某些数值低的特征被淹没。