2012国赛A题优秀论文

2012国赛A题优秀论文
2012国赛A题优秀论文

葡萄酒的评价模型

摘要

本文主要解决葡萄酒的评价问题,运用多种数理统计方法通过MATLAB和SPSS软件对可能影响葡萄酒质量的因素进行统计分析,初步得出对葡萄酒的理化指标评价和主观评价具有差异性。

对于问题一中的显著性差异分析,针对两组评酒员对于每一种酒的评分,本文用

α=),结果显示两组评酒员对红葡萄酒和白葡萄酒的评分MATLAB进行t检验(0.05

都具有显著性差异。对于可信度的问题,我们用EXCEL进行方差与置信区间的综合分析,得出对红、白葡萄酒的评价结果第二组可信度均较高。

问题二,首先用相关性分析计算出各个理化指标之间以及各理化指标与葡萄酒质量间的Pearson相关系数r,然后选取和葡萄酒质量相关程度较大(0.2

r>)的理化指标进行聚类分析,依照指标的不同情况可将其分别分为3、4、5类,得出在每种分类情况下的分类方案。最后,我们计算每种分类方案下各类酿酒葡萄质量得分的平均值,分值越高则级别越高,确定了最终的分级方案。

问题三,我们先对酿酒葡萄的理化指标进行主成分分析,利用降维技术找出能代表酿酒葡萄的主要理化指标,然后再将得出的主要理化指标与葡萄酒的理化指标进行相关性分析,根据相关系数确定二者理化指标间的关系。结果表明,葡萄酒的理化指标除了由相对应的酿酒葡萄的理化指标决定外,还可由其它相关性大的理化指标决定。

最后,对问题四建立多元线性回归分析模型,对第一问中计算出了红、白葡萄酒和葡萄的样本相关系数进行比较,发现用葡萄的理化指标衡量葡萄酒的质量是不全面的,芳香物质可能会影响酒的香气从而影响酒的整体质量。因此在第二小问中,先根据葡萄酒中芳香物质的化学成分将其分类(醛、烃、醇、酯、酸、酮以及其他含氧有机物),再利用多元线性回归模型计算出其样本相关系数,说明芳香物质通过酒的香气来影响酒的品质,从而说明了理化指标分析和主观评分在葡萄酒质量分析中的差异性。

关键词:t检验相关性分析聚类分析主成分分析多元线性回归

一、问题重述

葡萄酒是世界公认的对人体有益的健康酒精饮品,其生产方式方便, 经济, 且风味极佳. 因而越来越受到广大市民的青睐,同时葡萄酒的质量以及等级划分也越来越受到人们的关注。

葡萄酒化学成分复杂,葡萄酒的质量是各种化学成分的综合反映。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。

葡萄酒的质量与酿酒葡萄的好坏直接相关。葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,它们是对酿酒葡萄与葡萄酒进行分级的重要依据。

现已知某一年份一些葡萄酒的评价结果,以及该年份这些葡萄酒的和酿酒葡萄的成分数据。本文将建立数学模型讨论以下问题:

问题一:根据附件所给两组评酒员对葡萄酒各项指标的不同评分数据,分析两组评价结

果有无显著性差异,如果差异显著,确定哪一组结果可信度更高。

问题二:根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

问题三:酿酒葡萄的理化指标与葡萄酒的理化指标密切相关,分析二者间的联系。 问题四:分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和

葡萄酒的理化指标来评价葡萄酒的质量。

二、模型的基本假设

1、 两组评酒员对葡萄酒的评分服从正态分布,且针对每个葡萄酒样品,两组评酒员评分正态总体的方差相等。

2、 附录所给酿酒葡萄与葡萄酒理化指标的数据均准确,没有错误。

3、 附录中的理化指标为酿酒葡萄与葡萄酒的所有理化指标。

4、 葡萄和葡萄酒的理化指标1x ,2x ......n x 与葡萄酒的质量Y 为线性相关。

5、 红酒的质量仅由评酒师的主观评分决定,与其他因素无关。

三、符号说明

α

显著性水平; 1-α

置信度;

2212,S S

两组葡萄酒所得总分的样本方差;

j r 酿酒葡萄的第j 种理化指标与葡萄酒质量间的相关系数; ij d

第i 种与第j 种酿酒葡萄的样本距离; m

原指标的个数;

k x 原指标的观测值(k =1,2,3…,m ); *k x

k x 标准化后的数(k =1,2,3…,m )

; k s

k x 的标准差(k =1,2,3…,m )。

四、模型建立及求解

4.1 问题一

4.1.1 问题分析

对于两组评价结果的显著性差异问题,因为每个评酒员对葡萄酒的质量的评价是由其对该葡萄酒各项指标所评总分决定的,为将问题简化,我们首先计算出各评酒员给出的每一个葡萄酒样品各项指标的总分并进行比较,并由此判定两组评价结果的差异性及可信程度。

易知两组评酒员对葡萄酒样品的评分都服从正态分布且是相互独立的,由于均是对相同的葡萄酒进行评价,我们认为两正态总体的方差相等,问题转化为对两个独立正态总体下样本均值的比较,本文采用t 检验法检验具有相同方差的两正态分布均值差的假设。

要确定哪一组的评价结果更可信,我们将复杂问题简单化,考虑通过比较两组分数样本的方差,方差大小反应数据的集中程度,方差越小,样本数据分布越集中越稳定,各数据更接近均值,代表结果的可信度更高。同时,可分别算出两组平均分的置信区间,比较各组落在区间内分数的个数,从而对分析结果进行检验。 4.1.2 模型建立 (一)显著性差异分析[1]

22122212121012121022212(,)(,),,,,...(,),,...(,),,,,t N N X X X N Y Y Y N X Y S S μσμσμμσμσμσ检验法:

设两组评酒员对葡萄酒样品的评分分别服从正态分布和,根据假设1,两总体方差相等,均未知。是来自正态总体的样本,是来自正态总体的样本,且两样本独立。分别记它们的样本均值为方差为现在要检验问题:

012112: , : H H μμμμ=≠

0H 为零假设,1H 为备择假设,显著性水平为α。

检验统计量为:

X Y T =

其中

w S 2 t m n +- 当两个总体的均值差异不明显时,该统计量应服从自由度为的分布。由此分别对两组评酒员对红葡萄酒与白葡萄酒的评价结果进行均值差假设的检验。(二)可信度比较

2212,S S 两组数据样本方差分别为:

22

1122

2

11=()11()1n

i i n

i i S X X n S Y Y n ==?-?-???=-?-?

∑∑

因为各组均有10为评酒员进行评分,故n =10。

定义变量R :

22

1222

12

0 , = 1 , S S R S S ??? 22

1

21

, ,n

i i S S R n =∑ 分别计算出每一个葡萄酒样品的,得到的值也就是在个样品中第二

组比第一组评分可信度的更高的样品个数,从而比较两组数据可信度。

4.1.3 模型求解

(一)t 检验结果:

首先,根据所给数据算出每位评酒员对各红葡萄酒样品的总评分,见表4-1(详见附件1):

表4-1:各红葡萄酒样品所得各项指标总分

由此得出两个正态总体的样本,比如,对红葡萄酒样品1,两组样本分别为:

第一组:51 66 49 54 77 61 72 61 74 62

第二组:68 71 80 52 53 76 71 73 70 67

α水平上进行两个样本的t检验(程序见附下面用MATLAB的统计工具箱在=0.05

h,表示不能拒绝零假设,即两组评价结果录一)。用h的值反映结果的差异性,其中=0

h,表示评价结果有显著差异。

无显著差异;=1

所得结果见下表:

表4-2: 对红葡萄酒评价的显著性差异分析结果

对于样品1,=0h ,表示两组评价结果没有显著差异;显著性水平1-α=0.2128,表示在100次试验中,约有21次t 统计量大于或等于均值差;均值差的95%置信区间为[-14.1832 , 3.3832]。

由表可知,对于编号2、5、11、12、13、16、19、23、24这9个红葡萄酒样品,=1h ,也就是说,在27个红葡萄酒样品中,两组评酒员对其中9个样品的评价结果都有显著差异,所以对红葡萄酒两组评酒员的评价结果有显著性差异。

同理,对于白葡萄酒,首先根据所给数据算出个评酒员对每个葡萄酒样品的总评分,见表4-3(详见附件1):

表4-3:各白葡萄酒样品所得各项指标总分

用MATLAB 的统计工具箱在=0.05α水平上进行两个样本的t 检验,结果见下表:

表4-4:对白葡萄酒评价的显著性差异分析结果

由表可知,对于编号13、17、27这3个红葡萄酒样品,=1h ,也就是说,在28个白葡萄酒样品中,其中有3个样品的评价结果存在显著差异,所以对白葡萄酒两组评酒员的评价结果有显著性差异。

综合红葡萄酒与白葡萄酒的检验结果可知,两组评酒员对葡萄酒质量的评价结果存在显著性差异,其中对红葡萄酒的评价结果差异更明显。

(二)可信度比较:

运用EXCEL 对每一个葡萄酒样品的两组得分进行计算,求得其得分的样本方差与平均分置信区间(见附件1),作出两组数据方差对比图,如下:

(1)红葡萄酒:

图4-1:红葡萄酒两组得分样本方差对比图

由上图可知,第一组评价结果的方差普遍较第二组大,比如对样品17,第一组分数的方差达到了88.01,说明各评酒员对17号酒样品的打分差异很大,分数较分散;而第

二组评分结果的方差仅为9.16,第二组评酒员对该样品的评价较为一致,所给分数分布更集中。

通过统计,对于红葡萄酒有

27

1

20, i

i

R =

=

∑即对27个葡萄酒样品中有20个样品的得分

方差第一组大于第二组,同时经比较,第二组评酒员所打分数落在平均分置信区间的个数更多,这表明对于红葡萄酒的评分第二组的结果更可信。

(2)白葡萄酒:

图4-2:白葡萄酒两组得分样本方差对比图

由图可知,第一组评分的方差与第二组相比,仍明显偏大,统计得到,对白葡萄酒

27

1

22, i

i

R =

=

∑即对28个白葡萄酒样品中有22个样品的得分方差第一组大于第二组。同样,

第二组评酒员所打分数落在平均分置信区间的个数更多,这表明对于白葡萄酒的评分第二组的结果仍比一组可信。

综上所述,两组评酒员对两种葡萄酒质量的评价结果都存在显著性差异,且对红葡萄酒的评价结果差异更明显。其中第二组评酒员对两组葡萄酒的评分更集中更稳定,其评价结果较第一组也更可信。

4.2 问题二

4.2.1 问题分析

葡萄酒的质量与酿酒葡萄各理化指标存在着严格的依存关系,要对酿酒葡萄进行分级,首先就要确定两者间的关系,根据各理化指标对葡萄酒质量的影响以及不同酿酒葡萄成分的差异对葡萄划分等级。

根据第一问的结论,葡萄酒的质量由可信度更高的第二组评酒员所给的分数确定。而理化指标与葡萄酒质量间是呈线性相关的,可以采用统计学中的相关性分析,将二者的关系通过它们之间的相关系数反映出来。

对酿酒葡萄进行分级的问题,也就是根据相似程度对样品进行分类,统计学中常采

用的是聚类分析的方法,它将定性和定量的分析结合起来,通过选取元素的许多共同指标,然后分析元素的指标值来分辨元素间的差距,从而达到分类的目的。对酿酒葡萄分类后,可以根据每一类葡萄所得质量分数的平均值对其进行等级的划分。这里针对酿酒葡萄的理化指标,可以只选取与葡萄酒质量的相关系数较大的一部分,以简化模型。聚类分析方法直观,结论简明,可以很好地解决酿酒葡萄分级的问题。 4.2.2 模型建立 名词说明:

相关系数:在直线相关条件下,说明两个变量之间相关程度以及相关方向的统计分析指标;

样品距离:将每个样品看成是m 个变量对应的m 维空间中的一个点,然后在该空间中所定义的,距离越近,则亲密程度越高。 (一) 相关性分析[2]: 采用相关性分析确定葡萄酒的质量与酿酒葡萄各理化指标的线性关系,本文最常用的Pearson 相关系数,它适用于线性相关的情形,其计算公式为:

()()

(-11)n

ij

j i j x

x y y r r --=

≤≤∑,

, ,ij i j x i j y i x y 其中,表示第种酿酒葡萄第种指标含量表示第种葡萄酒质量得分;

分别对应其平均值。

根据r 所具有的符号来表示变量相关的方向,“+”号表示正相关,即0≤r ≤1。“﹣”表示负相关,即-1≤r ≤0;两个变量之间的相关程度用相关系数r 的绝对值表示,其绝对值越接近1,表明两个变量的相关程度越高;其绝对值越接近于0,表明两个变量相关程度越低;如果其绝对值等于零1,则表示两个变量完全直线相关;如果其绝对值为零,则表示两个变量完全不相关(不是直线相关)。

表4-5:相关系数范围对应关系表

由此可确定各项理化指标与葡萄酒质量的关联程度,选出相关系数绝对值大者,并据此进行酿酒葡萄的分类。 (二) 聚类分析[3]

对酿酒葡萄进行分级,就是根据各样品中理化指标的相似程度对样品划分等级,下面我们采用的是聚类分析的方法对酿酒葡萄样品进行分类。

聚类分析的思想是:设集合G 中有n 个样本X 1,X 2,…X n ,首先每个样本独自成为一类,计算类内样本间的距离,将距离最近的两个类聚为一类。然后再计算新类间的距离,并将最近的两个类聚为一类。以此循环,直到所有的类聚为一类。

其中,计算第i 种与第j 种酿酒葡萄样本距离的公式为:

,1,2,...,)ij d i j n =

=

其中,it x ,jt x 分别表示第i 种与第j 种酿酒葡萄的第t 个理化指标含量。 常用的聚类方法有最短距离法、最长距离法、重心法等多种方法,我们选用组间平均联结法联结类,它将两个类的所有成对案例(各来自一个类)间的平均距离作为类间距离并要求该距离最小。它能利用两个类中所有成对指标的信息,使数据得到充分利用。

针对本题,各种酿酒葡萄即为各类,用聚类分析对所给酿酒葡萄进行分类的步骤为: (1) 对附件所给的成分数据进行预处理,对经过多次测试的项目数据取平均值。 (2) 计算各理化指标与葡萄酒质量的Pearson 相关系数,选出0.2r >的理化指标。 (3) 将酿酒葡萄样品进行分类,计算距离,将样品视为p 维空间的一点,通过计算不

太样品的距离,距离接近的点归为一类,距离远的点归为不同类,并由此得到距离矩阵D 。

(4) 将每个酿酒葡萄样本独自成类G i ={ X i }(i =1,2,…,n )。

(5) 由距离矩阵D ,找到当前最小的D ij ,并将类G i ,G j 合为一类得到一个新类

G r ={G i ,G j }。

(6) 重新计算类间的距离,得到新的矩阵D 。重复第(5)步直到全部合为一类。

对所有酿酒葡萄根据其各项理化指标分好类之后,再根据附件所给评分数据,计算出每一类葡萄质量得分的评价值,根据分数高低进行等级划分。

4.2.3 模型求解 (一)相关性结果

首先,根据第一问的结果,我们选择第二组评酒员对各葡萄酒样的评分平均值代表葡萄酒的质量分数(附录二),将各样品质量得分按从高到低排列,见表4-6(部分):

表4-6:葡萄酒样品所得质量分数

运用spss 软件进行指标含量与葡萄酒质量得分的相关性分析,本文均采用酿酒葡萄的二级指标,保证数据利用率最大,计算出各项指标与葡萄酒质量的Pearson 相关系数(见附件2),从中选出0.2r >以及接近0.2的理化指标,代表与葡萄酒质量相关性较大的指标,结果见下表:

对红葡萄酒,

表4-7:红葡萄理化指标与葡萄酒质量相关系数(0.2r ≥)

结果分析:上表结果确定了21 个与红葡萄酒质量显著相关的理化指标,比如果皮颜色a*指标,由于果皮颜色对红葡萄酒色泽、澄清度影响较大,这直接影响着葡萄酒的外观得分,所以这项指标与红葡萄酒质量的相关系数达到了0.992,表明果皮颜色对红葡萄酒质量影响很大;而对于果梗比,它与红葡萄酒的相关系数为-0.256,代表果梗比的含量与葡萄酒质量呈负相关关系。这21 个指标在较大程度上影响了质量得分。

对白葡萄酒,

表4-8:白葡萄理化指标与葡萄酒质量相关系数(0.2r ≥)

由表可知,对于白葡萄酒,共有15个与白葡萄酒质量显著相关的理化指标。 (三) 分级结果:

根据上述相关性分析结果,选出的相关系数较大的指标,将它们在各葡萄酒样品中的含量以及相应葡萄酒质量得分导入spss 软件,首先得到样品距离柱状图(见附录二)与平均联结树状图,从而对酿酒葡萄进行分类。

(1)红葡萄分级结果:

运用组间平均联结法联结类的结果如下图:

图4-3:红葡萄平均联结聚类树状图

树状图由许多倒置的U形线连接系统聚类树中的对象绘成,每一个U的水平长度代表着两个相连对象之间的距离。由此得到酿酒葡萄样品的距离矩阵D,并对其进行分类。

参照葡萄酒分类的国际等级模式[4],本文分别将酿酒葡萄根据其对应的葡萄酒质量分别分为三类、四类、五类,再分别计算各类葡萄质量得分的平均值,对其进行分级,相应等级为A级、B级、C级…,级别越高代表酿酒葡萄质量越好,所得结果见下表:

表4-9:红葡萄分级结果

由表可知,当将红葡萄分为三类时,样品20为A级,代表其级别最高,质量最好;样品1,7,8为C级,级别最低,这些酿酒葡萄质量最差;其余样品介于二者之间。同理,将红葡萄分为四类、五类的结果与此相似。

(2)白葡萄分级结果:

组间平均联结法联结类的结果如下图:

图4-4:白葡萄平均联结聚类树状图

白葡萄分级结果见表4-10:

表4-10:白葡萄分级结果

由表可知,当将白葡萄分为三类时,样品5,15,26,28为A级,级别最高,质量最好;样品3为B级,质量次之;其余样品被列为C级,代表质量最差。同理,将白葡萄分为四类、五类的结果与此相似。

4.3问题三

4.3.1问题分析

酿酒葡萄和葡萄酒的理化指标是经过专业仪器和技术测试出来的。酿酒葡萄的理化指标的大小由葡萄本身决定,葡萄酒是经过酿酒葡萄加工而成,其理化指标与酿酒葡萄有密切关系。

要求分析酿酒葡萄和葡萄酒的理化指标之间的联系,本文首先根据附录所给酿酒葡萄理化指标的数据对其进行主成分分析,选出主要理化指标。主成分分析能对对理化指

标进行降维处理便于后期问题的处理。选出酿酒葡萄的主要理化指标后,将其与葡萄酒的理化指标进行相关性分析,根据相关系数的大小确定影响每一个葡萄酒理化指标的主要酿酒葡萄的理化指标,使酿酒葡萄与葡萄酒的理化指标之间的关系变得清晰。 4.3.2:模型的建立与求解 (一)主成分分析:

主成分分析法:主成分分析是将多项指标重新组合成一组新的互相无关的几个综合指标,根据实际需要从中选取尽可能少的综合指标,以达到尽可能多的反映原指标信息的分析方法。

主成分分析的一般步骤:

(1)由观测数据计算k x 的平均数及k s (k =1,2,3…,m ). (2) 由相关系数矩阵R 得到特征值j λ(j =1,2,…,m )及各个主成分的方差贡献、贡献率,并根据累计贡献率确定主成分保留的个数。 (3)写出m 个基本方程组:

其中j =1,2, …,m

利用施密特正交方法,对每一个j λ求它的对应基本方程组的解()1j x ,()2j x ,…,()

j m x ,

然后令()

j kj b 从而得到用***12,,...,m x x x 所表示的主成分*j kj k k

z b x =∑,

或将*k k

k k x x x s -=

代入后得到用1,2,...,m x x x 所表示的主成分*j kj k j k

z b x a =+∑。 (4)将1,2,...,m x x x 的观测值代入主成分的表达式中计算各个主成分的值。 (5)计算原指标与主成分的相关系数,解释主成分的意义。

下面对模型进行求解:

首先,我们对酿酒葡萄的理化指标在spss 软件中用主成分分析法进行处理。附录二中提供的数据既有一级指标,又有二级指标,二级指标经过主成分分析后会划分在同一大类中,因此,我们直接采用一级指标进行主成分分析,避免了对数据的重复处理。对于进行多次测试的理化指标,我们取其平均值作为此理化指标的值。

(1)对红葡萄的理化指标进行主成分分析,得到八个主成分,累计贡献率为82.92%,可以反映很多原理化指标信息,说明主成分分析的结果是准确可靠的。

由主成分矩阵(见附录三)可知八个主成分与各理化指标的线性关系。如果主成分中理化指标的系数的绝对值大于0.5,我们认为此理化指标对主成分的影响较大。将系数的绝对值大于0.5的理化指标统计出来,即得出各个主成分包含的主要理化指标如下:

()()()()11112211

()()()()21122222()()()()

1122............

...j j j j m m j j j j j m m j j j j j m m mm m j m r x r x r x x r x r x r x x r x r x r x x λλλ+++=+++=+++=

表4-11:红葡萄中各个主成分包含的主要理化指标

由此可见,进行主成分分析后,红葡萄的30个理化指标降为14个。

(2)对白葡萄的理化指标进行主成分分析,得到十个主成分,累计贡献率为83.22%,可以反映很多原理化指标信息,说明主成分分析的结果是准确可靠的。

同理我们得出各个主成分包含的主要理化指标见下表:

表4-12:白葡萄中各个主成分包含的主要理化指标

同理,经过主成分分析后,白葡萄的30个理化指标降为了13个。

(二)相关性分析:

在数据分析的过程中,常常需要分析两个或两个以上变量之间的相关关系,在这里我们同样采用第二问的相关性分析方法,它不需要区分自变量和因变量,两个或者多个变量之间是平等的关系,通过相关分析可以了解变量之间的关系密切程度。

要进一步分析酿酒葡萄理化指标与葡萄酒理化指标的关系,我们采用相关性分析的方法,在spss软件中求出主成分分析后酿酒葡萄理化指标与葡萄酒理化指标的相关系数,(相关系数矩阵见附件3)。

根据两变量之间相关系数的大小,我们很容易找出他们之间的相关关系。根据表4-5,相关系数大于0.8时,两参数高度相关。在相关系数矩阵中,我们选出高度相关的两变量,然后确定了与葡萄酒理化指标高度相关的酿酒葡萄的理化指标。结果如下:

分析上表可知,红葡萄酒中与红葡萄酒理化指标高度相关的理化指标,除了本身外,还有其他理化指标。且总酚,葡萄总黄酮与很多葡萄酒的理化指标都有密切关系,不可忽视。

(2)表4-14:白葡萄酒与酿酒葡萄的高度相关理化指标

分析上表可知,白葡萄酒中与白葡萄酒理化指标高度相关的理化指标,除了本身外,还有其他理化指标。且总酚,与很多葡萄酒的理化指标都有密切关系,不可忽视。

比较红白葡萄酒的理化指标,发现葡萄中总酚与葡萄总黄酮是重要的理化指标,决定着很多葡萄酒的理化指标,影响着葡萄酒的质量。

4.4问题四:

4.4.1问题分析

葡萄酒质量是其外观、香气、口味、典型性的综合表现。评酒师根据红酒的味道,香气,口感等主观指标划分红酒的质量,而红酒的这些主观指标主要由两种因素决定,即红酒本身的理化指标以及酿酒葡萄的理化指标。红酒的质量和理化指标之间存在着一定的依赖关系,故建立多元线性回归模型。而又由于理化指标特别是葡萄的理化指标众多,全部进行线性回归分析会导致计算较为繁杂,故在进行葡萄的理化指标进行处理时,运用第二问对红、白葡萄理化指标因子分析的结果,求出葡萄中对于酒的质量影响较大

的理化指标与葡萄酒质量的关系。

对于第二小问,依然用多元线性回归模型来求出葡萄酒中的芳香物质对于葡萄酒香气评价的样本相关系数,从而判断出芳香物质对香气的影响。 4.4.2符号说明:

12,,...n x x x :葡萄与葡萄酒的各项理化指标

12,,...n βββ:各项理化指标所对应的系数 4.4.3模型的建立[5]

根据假设4,理化指标i x 和葡萄酒质量Y 的关系可以表示为:

10122......n n Y x x x ββββε=++++

要求解该模型只需求出系数1......n ββ即可。 系数的求解:

有n 组数据12(,......,)i i im i x x x y ,1,2......i n =,则有:

10112201122............

......i i m im n i i m im

y x x x y x x x ββββββββ=+++=+++

建立目标优化函数:

2

21011221

1

min (......)[(......)]n

n

n i i i i n im i i Q y x x x ββεββββ====-+++∑∑

为此,该问题转化为一个优化问题即: 令:

01m 0,0,1 (i)

Q i m ββββ?==?(,,......)

将上式的方程整理得一个1m +元的线性组,再经整理,得正则方程组:

T T X Y X X β=

其中:

111m nm x X x ?? ?= ? ??

? , 12

n y y Y y ??

????=?????? , 01m ββββ??????=??????

记该正解方程的解为?β

,则称它为参数β的估计量,即:1?()T T X X X Y β-=, 所以,其对应的回归方程可以写为:

011????......m m

y x x βββ=++,

为了验证Y 与1,,n x x 的关系,引入样本相关系数r ,定义r 的表达式为:

()()

?n

i

i

x x y y r

--

--=∑

其中?r

是理论相关系数的一个点估计值,其值越接近1时,线性相关度越强。 4.4.4数据的处理与分析

用spss 软件中的最小二乘法得关系表,在这里以红葡萄理化指标中的各理化指标对应系数为例:

表4-15:红葡萄的指标对于红葡萄酒质量影响参数表:

红白葡萄、葡萄酒的线性相关系数如下表所示:

表4-16:葡萄、葡萄酒的相关系数

根据表4-5可知,当0.71r <<时可以认为有较强的线性相关性,所以葡萄的理化指标对于衡量葡萄酒的理化指标来说,并不是很准确。而我们又根据附表一中的数据可知,香气分析在葡萄酒的评判中占有一定的比例,而葡萄酒中的香气则是由其中的芳香物质所决定的,因此仅仅凭借葡萄和葡萄酒中的理化指标评判其质量是不科学的,还应加入对于酒中的芳香物质含量情况的考虑。

我们认为,具有相同或相近化学成分(如羧基,羟基)的芳香物质对于香气的贡献相同或相近,所以,本文将具有相同或相近的成分分为一组,则将附表三中的数据分为醛,烃,醇,酯,酸,酮,以及其他含氧有机物七种物质,将其成分分别叠加。假设这七种物质和葡萄酒香气分析的评价呈线性相关,以红葡萄酒为例,用spss 软件求得各成分对应的系数如下表所示:

表4-17:红葡萄酒各大类芳香物质系数表

其中,其相关系数r =0.723,从表中可以看出红葡萄酒中脂类物质对于红酒气味无影响,而其余芳香物质和红酒的气味水平呈线性相关,因此,仅仅从理化指标来评价葡萄酒的质量是不合理的,应从理化指标和芳香物质共同考虑。这也说明了由于芳香物质的影响使对红酒的主观评价和理化指标评价具有一定的差异性。

五、模型评价

5.1 模型优点

葡萄酒的质量是由葡萄酒中各种成分协调平衡的结果,葡萄酒的成分之间存在着复杂的关系,采用科学的方法使存在于这些复杂关系的问题简单化,进而更加清楚地了解它们之间的相互关系,本文采用的统计学方法无疑开辟了一条有效的途径。

(1)对问题一,本文运用较为简便的假设检验和方差分析求出了差异性和可信度,比其余的方法更为简单明了,并且结果较为准确。

(2)针对问题二,找出了与葡萄质量相关度较高的理化指标,并用它们进行分类,避免了变量过多引起的计算繁杂和结果的不准确性;运用聚类分析直观地列出了三种分类方案,考虑较为周全,且简单明了直观。

(3)对问题三的处理,首先采用主成分分析,利用降维技术用少数几个综合变量来代

替原始多个变量,这些综合变量集中了原始变量的大部分信息;然后运用相关性分析进一步分析酿酒葡萄理化指标与葡萄酒理化指标的关系,很好地说明各指标之间的关系密切程度,从而确定指标之间的关系。

(4)对问题四的处理,引入多元线性回归模型,通过相关系数,很好地反应出各个指标与红酒质量的线性相关性。 5.2 模型缺点与改进

(1)问题一中,本文假设评委评分均服从正态分布,没有考虑到打分不服从某一特定分布的情况。

(2)对酿酒葡萄分级时,只依据每种理化指标的数值进行客观分析,没有从生物化学的角度考虑各指标间的相互联系。 (3)问题三中只对酿酒葡萄的理化指标与葡萄酒的理化指标之间的关系做了详细分析,没有对葡萄酒自己的理化指标之间的关系做具体分析,经验告诉我们葡萄酒的理化指标之间也是相关的。

(4)多元线性回归模型只认为各指标与葡萄酒的质量呈线性相关,而没有考虑到各个因素相互作用的非线性情况,可将表达式改为下面的非线性相关模型:

011111.............i i i i n i i Y x x x x x x βββββ+-=++++,考虑两个因素间的相互影响(相互抵消

或相互加强等)给葡萄酒质量带来的差异性,从而对模型进行改进。

六、参考文献

[1] 盛骤,谢式千,潘承毅,概率论与数理统计(第四版),北京:高等教育出版社,2008

年。

[2] 李运,李记明,姜中军,统计分析在葡萄酒质量评价上的应用,酿酒科技,第4期:

79-82,2009年。

[3] 汪晓银,周保平,数学建模与数学实验,武汉:科学出版社,2010年。

[4] 杨和财,沈忠勋,王灿辉,我国葡萄酒质量等级制度的构建,酿酒科技,第3期:

118-122,2008年。

[5] 丁燕,史红梅,酚类物质对葡萄酒品质的影响,酿酒科技,第4期:55-59,2011年。

相关主题
相关文档
最新文档