【原创】WEKA聚类算法wine数据集分析研究报告(附代码数据)

WEKA聚类算法wine数据集分析研究

1实验目的

希望通过实验研究葡萄酒的差异化，并分析造成这种差异化的原因，可以更深刻的掌握聚类分析的原理；进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能；达到能综合运用所学基本理论和专业知识；锻炼收集、整理、运用资料的能力的目的；希望能会调用WEKA软件聚类分析有关过程命令，并且可以对数据处理结果进行正确判断分析，作出综合评价。

2实验数据

Wine这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

该实验的数据集是MostPopular Data Sets（hits since 2007）中的wine数据集，这是是对在意大利同一地区生产的三种不同品种的酒，做大量分析所得出的数据。这些数据包括了三种酒中13种不同成分的数量。

经过几天对数据集以及分类算法的研究，详细研究了朴素贝叶斯分类器和其他学习算法，包括决策树和神经网络等等。同时由于这个数据集有13个属性，用决策树实现起来会很复杂。我最终选择了用贝叶斯分类算法来实现。我将178个样本分成118个训练样本和60个测试样本，采用朴素贝叶斯分类算法，计算出先验概率和后验概率，通过比较概率的最大值，判别出测试样本所属于的酒的类型，同时输出测试样本计算的正确率和错误率。

这些数据包括了三种酒中13种不同成分的数量。13种成分分别为：Alcohol，Malicacid，Ash，Alcalinity of ash，Magnesium，Total phenols，Flavanoids，Nonflavanoid phenols，Proanthocyanins，Color intensity，Hue，OD280/OD315 of diluted wines，Proline。在“wine.data”文件中，每行代表一种酒的样本，共有178个样本；一共有14列，其中，第一列为类标志属性，共有三类，分别记为“1”，“2”，“3”；后面的13列为每个样本的对应属性的样本值。其中第1类有59个样本，第2类有71个样本，第3类有48个样本。

3实验方法

聚类是对数据对象进行划分的一种过程，与分类不同的是，它所划分的类是

未知的，故此，这是一个“无指导的学习” 过程，它倾向于数据的自然划分。其中聚类算法常见的有基于层次方法、基于划分方法、基于密度以及网格等方法。本文中对近年来聚类算法的研究现状与新进展进行归纳总结。一方面对近年来提出的较有代表性的聚类算法，从算法思想。关键技术和优缺点等方面进行分析概括；另一方面选择一些典型的聚类算法和一些知名的数据集，主要从正确率和运行效率两个方面进行模拟实验，并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析。最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题等。

实验中主要选择了K 均值聚类算法、FCM 模糊聚类算法并以UCI Machine Learning Repository 网站下载的WINE 数据集为基础，然后以WINE 数据集在学习了解Weka 软件接口方面的基础后作聚类分析，使用最常见的K 均值（即K-means ）聚类算法和FCM 模糊聚类算法。下面简单描述一下K 均值聚类的步骤。

K 均值算法首先随机的指定K 个类中心。然后：

（1）将每个实例分配到距它最近的类中心，得到K 个类；

（2）计分别计算各类中所有实例的均值，把它们作为各类新的类中心。重复（1）和（2），直到K 个类中心的位置都固定，类的分配也固定。在实验过程中通过利用Weka 软件中提供的simpleKmeans （也就是K 均值聚类算法对WINE 数据集进行聚类分析，更深刻的理解k 均值算法，并通过对实验结果进行观察分析，找出实验中所存在的问题。然后再在学习了解Weka 软件接口方面的基础上对Weka 软件进行一定的扩展以加入新的聚类算法来实现基于Weka 平台的聚类分析。

3.1 K 均值聚类算法

3.1.1 K 均值聚类算法理论

K 均值算法是一种硬划分方法，简单流行但其也存在一些问题诸如其划分结果并不一定完全可信。K 均值算法的划分理论基础是

21min i c k i

k A i x v ∈=-∑∑ （1）

其中c 是划分的聚类数，i A 是已经属于第i 类的数据集i v 是相应的点到第i 类的平均距离，即 1,i

N k

k i k i i x v x A N ==∈∑ （2）

其中i N 表示在数据集i A 中的对象数。

3.1.2 算法的基本过程

1:step 任意选择K 个对象作为初始的类的中心；

2:step repeat ；

3:step 根据类中的平均值,将每个数据点 (重新)赋给最相近的类；

4:step 更新

类的平均值；

5:step until 不再发生变化,即没有对象进行被重新分配时过程结束。

3.2 FCM 模糊聚类算法

FCM 算法也是一种基于划分的聚类算法，它的思想就是使得被划分到同一类的对象之间相似度最大，而不同类之间的相似度最小。模糊C 均值算法是普通C 均值算法的改进，普通C 均值算法对于数据的划分是硬性的，而FCM 则是一种柔性的模糊划分。在介绍FCM 具体算法之前我们先介绍一些模糊集合的基本知识。

3.2.1 FCM 模糊聚类算法的理论

1) 理论基础-模糊集基本知识

首先说明隶属度函数的概念。隶属度函数是表示一个对象x 隶属于集合A 的程度的函数，通常记做()A x μ，其自变量范围是所有可能属于集合A 的对象（即集合A 所在空间中的所有点），取值范围是[]0,1，即()01A x μ≤≤。()1A x μ=表示x 完全隶属于集合A ，相当于传统集合概念上的x A ∈。一个定义在空间

{}X x =上的隶属度函数就定义了一个模糊集合A ，

或者叫定义在论域{}X x =上的模糊子集。在聚类的问题中，可以把聚类生成的类看成模糊集合，因此每个样本点隶属于每个类的隶属度就是[]0,1区间里面的值。

2) FCM 的算法理论

1973年，Bezdek 提出了该算法，并作为早期硬C 均值聚类（HCM ）方法的一种改进，命名为模糊C 均值聚类简称FCM 是一种目标函数法。假设将样本空间X 要分为k 个类，则类中心集123(,,,

,)k C c c c c =使下式的目标函数值最小 211min n k m m ij i j

i j J x c μ===-∑∑ （3）

11k ij j μ==∑ （4）且有

[0,1]1,2,,;1,2,,ij i n j k μ∈== 其中

()ij U μ=

被称为模糊隶属度矩阵。ij μ表示的是数据i x 隶属于类中心j c 的隶属度。m 是模

糊加权参数，用于控制在模糊类间的程度依据参考的文献中一般取值为15。应用拉格朗日乘法并基于上述约束可得到如下式 2

111ij m c ij t tj D D μ-==?? ? ???

∑ （5）且

1,1i c j N ≤≤≤≤ 1

11N m ij j

j i N m ij

j x C i c μ

===≤≤∑∑ （6）其中ij D 是i X 到第j 类中心j C 的欧氏距离，即 i j X C -。

3.2.2 FCM 模糊聚类算法的过程

1:step 置初始化参数值，包含模糊加权参数值m 和聚类数k ，以及迭代的次数s 和算法终止误差ε。

2:step 随机化置初始化聚类的中心0,0C t =。

3:step 计算隶属度矩阵U 可通过（5）式计算s U 得来。

4:step 依据（6）式迭代计算聚类的中心1s C +。

5:step 检验1s s U U ε+-<是否成立，成立则算法结束否则goto 3step 。

3.2.3 实验配置

实验配置过程与K 均值算法的实验配置过程基本相同，只是在FCM 模糊聚类算法实验中要用到模糊隶属度参数，一般将其设置在1~5之间在实验中设置如下param.m=2。也可以根据需要对其进行修改。

3.2.4 FCM 模糊聚类算法特点

FCM 算法需要两个参数一个是聚类数目c ，另一个是参数m 。一般来讲c 要远远小于聚类样本的总个数，同时要保证1c >。对于m ，它是一个控制算法的柔性的参数，如果m 过大，则聚类效果会很次，而如果m 过小则算法会接近K 均值聚类算法。算法的输出是c 个聚类中心点向量和*c N 的一个模糊划分矩阵，这个矩阵表示的是每个样本点属于每个类的隶属度。根据这个划分矩阵按照模糊集合中的最大隶属原则就能够确定每个样本点归为哪个类。聚类中心表示的是每个类的平均特征，可以认为是这个类的中心代表。

FCM 算法是图像分割使用最多的方法之一，它的成功主要归功于为解决每

个图像像素的隶属需要引入了模糊性。与K均值聚类相比较来说FCM能够保留初始图像的更多信息。FCM对孤立点和其他人造图像非常敏感。

3.3基于weka的聚类分析

3.4.1数据的预处理

从网站下载的WINE原始数据集wine.data文件，而Weka软件需要的是ARFF 文件格式的数据。因此需要将数据转换成Weka支持的ARFF文件格式的。

转换过程如下

首先用记事本方式打开文件发现文件中的数据之间是以逗号来划分的，因此可以将数据文件的名称改为wine.csv。然后，打开Weka选择Tools选项下的ArffViewer如下图

打开ArffViewer后选择File选项下的Open弹出如下图的打开窗口，在文件类型一栏选择CSV data files（*.csv）项。

然后找到相应的文件后单击打开后如下图

数据挖掘_Dataset of Amtrak procurement providers(特拉克采购供应商数据集)

Dataset of Amtrak procurement providers(特拉克采购供应商数据集) 数据摘要： This data set is about list of vendors of services and products to AMTRAK. Amtrak is goverment owned providing passenger train services in United States. 中文关键词：计算机科学,商业,特拉克,采购供应商,美国, 英文关键词： Computer science,Business,Amtrak,Procurement providers,USA, 数据格式： TEXT 数据用途： The data can be used for data mining and analysis.

数据详细介绍： Dataset of Amtrak procurement providers ?Abstract This data set is about list of vendors of services and products to AMTRAK. Amtrak is government owned providing passenger train services in United States. ?Data Description Columns: ID, COMPANY, ADDRESS 1, ADDRESS 2, CITY, STATE, ZIPCODE, CORE COMPETENCY, NATURE of BUSINESS, CONTACT NAME, TITLE, PHONE, FAX, EMAIL, WEBSITE, FEDERAL TAX ID, DUNS NO., OWNERSHIP MINORITY Database Number of rows: 879, of Businesses in the Amtrak Procurement Directory Data raw sample 1 1st JMG & Associates LLC 12006 Brandywine Road Clinton MD 20735 Information Technology Information Technology management Consulting; Service and Acquisition Support J. Milton Goodman President/ CEO 301-782-7340 301-782-7341 mgoodman@https://www.360docs.net/doc/cb5732222.html, https://www.360docs.net/doc/cb5732222.html, 90-0114848 Black American Male 2 2IM Group LLC 118 N. Clinton Ave. Suite 440 Chicago IL 60661 Civil Engineering Civil engineering design; roadway; parking lot; drainage design; sustainable damage Luis Montgomery President 312-441-9554; ext. 1 312-441-9558 luis.m@https://www.360docs.net/doc/cb5732222.html, https://www.360docs.net/doc/cb5732222.html, 42-1679389 Hispanic Male 3 4 Connectivity Inc. 8945 Ridge Ave. Suite 10 Philadelphia PA 19128 Information Technology Professional consulting services in enterprise integration architecture; services oriented architecture; project management and software development Nancy Krystkiewicz President 215-469-2223 clientservices@https://www.360docs.net/doc/cb5732222.html, https://www.360docs.net/doc/cb5732222.html, 27-0278512 832923184 Female 4 503 Corporation 5019 Mulberry Street Philadelphia PA 19124 Security Systems Security Systems Installation and Distribution Raymond A Yabor President 215-535-3100 215-535-3106 info@https://www.360docs.net/doc/cb5732222.html,

机器学习_Wine Data Set(酒数据集)

Wine Data Set(酒数据集) 数据摘要： Using chemical analysis determine the origin of wines 中文关键词：多变量,分类,酒,UCI, 英文关键词： Multivariate,Classification,Wine,UCI, 数据格式： TEXT 数据用途： This data is used for classfication. 数据详细介绍： Wine Data Set

Source: Original Owners: Forina, M. et al, PARVUS - An Extendible Package for Data Exploration, Classification and Correlation. Institute of Pharmaceutical and Food Analysis and Technologies, Via Brigata Salerno, 16147 Genoa, Italy. Donor: Stefan Aeberhard, email: stefan '@' https://www.360docs.net/doc/cb5732222.html,.au Data Set Information: These data are the results of a chemical analysis of wines grown in the same region in Italy but derived from three different cultivars. The analysis determined the quantities of 13 constituents found in each of the three types of wines. I think that the initial data set had around 30 variables, but for some reason I only have the 13 dimensional version. I had a list of what the 30 or so variables were, but a.) I lost it, and b.), I would not know which 13 variables are included in the set. The attributes are (dontated by Riccardo Leardi, riclea '@' anchem.unige.it ) 1) Alcohol 2) Malic acid 3) Ash 4) Alcalinity of ash 5) Magnesium 6) Total phenols 7) Flavanoids 8) Nonflavanoid phenols 9) Proanthocyanins 10)Color intensity 11)Hue 12)OD280/OD315 of diluted wines 13)Proline In a classification context, this is a well posed problem with "well behaved" class structures. A good data set for first testing of a new classifier, but not very challenging.

WINE葡萄酒大赛得奖酒榜单

2014年WINE100葡萄酒大赛得奖酒榜单关于WINE100 WINE100葡萄酒大赛是首个定位中国消费者日常饮酒的专业比赛。大赛以“专业、轻松、高品质”的理念，通过专业的评委、严格的赛制、公正的评比，成为了中国最权威的葡萄酒评比。关于葡萄酒大师MW 葡萄酒大师是全球葡萄酒行业中的顶级头衔，这个头衔由英国葡萄酒大师协会认证颁发，获得认证的候选人可在自己的名字后面加上MW (Master of Wine) –这个葡萄酒行业最耀眼的光环。全球目前仅有312位葡萄酒大师，比宇航员的人数还少。

金奖 Gold 阿玛罗尼经典巴维诺干红葡萄酒AMARONE DELLA VALPOLICELLA PAVERNO CLASSICO 2010 美鹿国际贸易（上海）有限公司 Craggy Range Pinot Noir, Te Muna Road Vineyard, Martinborough 2012 Craggy Range 金殿之子红葡萄酒Alba De Domus 2009 上海巍影实业有限公司天鹅庄1908单一百年葡园希拉Auswan Creek 1908 Single Centenarian Vineyard Shiraz 2012 澳大利亚天鹅酿酒公司天鹅庄孔雀珍藏希拉Auswan Creek Peacock Reverse Shiraz 2012 澳大利亚天鹅酿酒公司

贝尔莱第三纪元干红葡萄酒Beronia III.AC 2008 2010 也买酒比安德奥里诺酒庄布鲁尼诺PIAN DELL'ORINO Brunello di Montalcino 2006 重庆云泽进出口有限公司加州乐事纳帕谷赤霞珠红葡萄酒Carlo Rossi Napa Valley Cabernet Sauvignon 2010 E J Gallo Winery 美国嘉露酒庄高登城堡红葡萄酒Chateau Gaudin 2009 洋文贸易鲁臣迪斯潘格兰德红葡萄酒Chateau Rauzan Despagne Grand Vin - Rouge 2010 洋文贸易宝丽凯红色丘陵干红COLDIPIETREROSSE 2009 杭州品蓝贸易有限公司康溪庄园纳帕谷赤霞珠Conn Creek Napa Valley Cabernet Sauvignon 2009 沈阳庆铭商贸有限公司/SMWE

高斯混合模型实现——【机器学习与算法分析精品资源池】

实验算法高斯混合模型实验【实验名称】高斯混合模型实验【实验要求】掌握高斯混合模型应用过程，根据模型要求进行数据预处理，建模，评价与应用；【背景描述】高斯混合模型（Gaussian Mixed Model）指的是多个高斯分布函数的线性组合，理论上GMM 可以拟合出任意类型的分布，通常用于解决同一集合下的数据包含多个不同的分布的情况。属于无监督机器学习，用于对结构化数据进行聚类。【知识准备】了解高斯混合模型的使用场景，数据标准。了解Python/Spark数据处理一般方法。了解spark 模型调用，训练以及应用方法【实验设备】 Windows或Linux操作系统的计算机。部署Spark，Python，本实验提供centos6.8环境。【实验说明】采用UCI机器学习库中的wine数据集作为算法数据，除去原来的类别号，把数据看做没有类别的样本，训练混合高斯模型，对样本进行聚类。【实验环境】 Spark 2.3.1，Pyrhon3.X，实验在命令行pyspark中进行，或者把代码写在py脚本，由于本次为实验，以学习模型为主，所以在命令行中逐步执行代码，以便更加清晰地了解整个建模流程。【实验步骤】第一步：启动pyspark： 1

命令行中键入pyspark --master local[4],本地模式启动spark与python：第二步：导入用到的包，并读取数据： (1).导入所需的包 from pyspark import SparkContext, SQLContext, SparkConf from math import sqrt from pyspark.sql.functions import monotonically_increasing_id (2).读取数据源 df_wine = sc.textFile(u"file:/opt/algorithm/gaussianMixture/wine.txt").map( lambda x: str(x).split(",")).map(lambda x: [float(z) for z in x]) (3).数据转换为Data df_wine_rdd = sqlContext.createDataFrame(df_wine) (4).数据展示 df_wine_rdd.show() 1

葡萄酒品评术语 Wine Tasting Terms

Wine Tasting Terminology Intensity Intensity refers to the amount of fruit flavour in the wine: a high-quality wine will have more phenolic (flavour compounds in the grape) characters, giving it a greater intensity. Complexity Complexity is a 'sliding scale', from very one-dimensional wines to those showing many aromas, flavours and tastes, which may change and develop the longer the wine is open. Perhaps unsurprisingly, the best wines are also the most complex. Balance Balance refers to the relationship between taste factors such as fruit concentration, acidity, sweetness, alcohol and tannin. If they're all in harmony with each other, the wine is balanced: if one obviously stands out above the rest, and detracts from your enjoyment, it's unbalanced. As a rule, the better the balance, the finer the wine. Length This is a measure of how long the taste lingers in your mouth after you've swallowed or expelled the wine. A long length, during which more flavours may develop, usually signifies a great wine. Pleasure Ultimately, the most important question you can ask of any wine is: "Am I enjoying it?" And as long as the answer is "Yes", none of the above really matters! Wine Tasting Terms ACIDIC: Used to describe wines whose total acid is so high that they taste tart or sour and have a sharp edge on the palate. AERATION: The process of letting a wine “breathe” in the open air, or swirling wine in a glass. It’s debatable whether aerating bottled wines (mostly reds) improves their quality. Aeration can soften young, tannic wines; it can also fatigue older ones.

BP神经网络实验——【机器学习与算法分析精品资源池】

实验算法BP神经网络实验【实验名称】 BP神经网络实验【实验要求】掌握BP神经网络模型应用过程，根据模型要求进行数据预处理，建模，评价与应用；【背景描述】神经网络：是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。BP神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络，是目前应用最广泛的神经网络。其基本组成单元是感知器神经元。【知识准备】了解BP神经网络模型的使用场景，数据标准。掌握Python/TensorFlow数据处理一般方法。了解keras神经网络模型搭建，训练以及应用方法【实验设备】 Windows或Linux操作系统的计算机。部署TensorFlow，Python。本实验提供centos6.8环境。【实验说明】采用UCI机器学习库中的wine数据集作为算法数据，把数据集随机划分为训练集和测试集，分别对模型进行训练和测试。【实验环境】 Pyrhon3.X，实验在命令行python中进行，或者把代码写在py脚本，由于本次为实验，以学习模型为主，所以在命令行中逐步执行代码，以便更加清晰地了解整个建模流程。【实验步骤】第一步：启动python： 1

命令行中键入python。第二步：导入用到的包，并读取数据： (1).导入所需第三方包 import pandas as pd import numpy as np from keras.models import Sequential from https://www.360docs.net/doc/cb5732222.html,yers import Dense import keras (2).导入数据源,数据源地址:/opt/algorithm/BPNet/wine.txt df_wine = pd.read_csv("/opt/algorithm/BPNet/wine.txt", header=None).sample(frac=1) (3).查看数据 df_wine.head() 1

西班牙葡萄酒指南Spanish Wine Guide

西班牙葡萄酒指南Spanish Wine Guide 西班牙生产优质葡萄酒的历史很长，特别是Rioja地区。令人惊奇的是：Rioja只是西班牙众多葡萄酒产区中很小的一个，西班牙还有很多葡萄酒产区，有的也酿造着非常不错的葡萄酒，但是大部分西班牙葡萄酒都是不怎么吸引人的便宜货。有的产区面积很大，西班牙是世界上酿酒葡萄种植面积最多的国家（意大利是葡萄酒产量最多的国家）。对于喜欢优质的的酒迷来说还有一点很不幸：很多西班牙的葡萄很大的比重是Airen，大部分对“爱人”Airen都不是很熟悉，这是一个不是很出色的白葡萄品种。（跟Chardonnay，Riesling和Sauvignon Blanc 这些贵族品种没法比）西班牙葡萄酒的等级划分和法国和意大利类似，不过西班牙的等级制度是Denominacion de Origen（简称DO）。红葡萄酒标上还常常能看到Crianza（佳酿）、Reserva（珍藏）和Gran Reserva （特级珍藏字样）。在Rioja 和Ribera del Duero, Crianza 葡萄酒必须经过两年的陈酿，其中最少有十二个月的橡木桶中陈酿（其他地方的规定会松一些，木桶中陈酿六个月的葡萄酒也可以是Crianza。Reservas 需要有三年的酒厂陈酿时间(最少有一年是木桶中陈酿), Gran Reservas 须有五年陈酿期(两年木桶中陈酿，三年瓶储陈酿). 用简短的字句来概括整个西班牙葡萄酒的特点，不是很轻松的事，下面介绍几个主要的产区和葡萄酒吧：西班牙北部地区Northern Spain 白Rioja葡萄酒不是很出名但是也有一些不错的酒品。最西北部的Galacia地区的Rias Baixas 葡萄酒很不错，是用Albari?o葡萄酿制而成，很多都是低温发酵而成，保持了白葡萄酒的清爽的口感，这和白Rioja有鲜明的对比。在往东南一点是Rueda。最初是靠雪莉风格的白葡萄酒出名的，现在也有很多不错的白葡萄酒。主要是用Verdejo葡萄酒酿造而成。再往东是斗罗河谷Ribera del Duero, 大片的葡萄酒位于Duero河两岸， Duero河经葡萄牙向西流去，葡萄牙部分叫做Douro是Port酒的主产区。除了Rioja葡萄酒，Ribera del Duero葡萄酒是西班牙最贵的红葡萄酒了。所用的葡萄名字是Vega Sicilia。这里也有很多用国际知名葡萄酿造的葡萄（Cabernet Sauvignon）和当地的天帕尼罗（Tempranillo）混酿的佳酿。. 再往东偏北就来到了著名的Rioja. 几个世纪以来这里一直是西班牙高档葡萄酒的象征，现在依然极佳。风格包括容易入口的Crianzas 和一些Reservas，和可以陈酿数十年的顶级Reservas和Gran Reservas。主要的葡萄品种是Tempranillo，也有少量其他品种如

新手入门葡萄酒术语及解释

新手入门-葡萄酒术语及解释红酒（Red Wine）是葡萄酒的通称，并不一定特指红葡萄酒。红酒有许多分类方式。以成品颜色来说，可分为红葡萄酒、白葡萄酒及三类。其中红葡萄酒又可细分为、半干红葡萄酒、半甜红葡萄酒和甜红葡萄酒，白葡萄酒则细分为葡萄酒、半干白葡萄酒、半甜白葡萄酒和甜白葡萄酒。优雅（elegant）：这是一个好的形容词，优雅一词有些人认为是不够浓郁的委婉说法，我倒认为不是。优雅代表着一种平衡，如同交响音乐一般，各个部分在恰如其分地协奏，而没有突出某一个特定的乐器。同时优雅也代表着香气的持久，有时细若游丝，却萦绕不散。优雅是上好的Pinot Noir和Riesling的特点，的确有时它们的香气并不浓烈，但是复杂持久且富于变化。酒体（Body）：关于酒体因为有酒友再一次问到，所以我觉得有必要再详细地解释一下。酒体是酒在舌头上的重量的感觉，他决定于酒精，决定于酒里面单宁和干浸出物（extraction）的多少，决定于酸度的高低。酸度越高会显得酒体偏轻，酒精度，单宁，干浸出物高则会显得酒体偏重。新酿造的Sauvignon Blanc通常是轻酒体的，而Barbaresco，Barolo，澳大利亚Barossa Valley的Shiraz通常是重酒体的。了解酒体需要多多感觉，多多比较。现在的国际趋势是越来越多的人喜欢，重的酒，也就是重酒体full- bodied。酿造重酒体的酒本身并不困难，但是有时过重的酒体会影响葡萄酒优雅的特征，这样就叫做over-extraction。是否能够酿造 full-bodied的酒，要根据葡萄的天生条件。质地（Texture）：上一次解释了质地的本身含义，这里要对一些形容质地的形容词作一些解释。脆crispy，硬hard，钢铁一样的steely，这一系列词汇通常代表酸度由低到高；蜡质般的waxy，油脂般的creamy，油一样的oily，是白酒内形容较浓的葡萄酒的质感的词汇，同时也代表着酸度不高。柔和smooth，圆润round，富饶rich，代表着甜味由弱到强（在干型葡萄酒里，往往意味着酒精度和橡木带来的甜味），柔和 smooth，柔软supple，丝绸般的silky，丝绒般的velvety，可咀嚼的chewy代表着得安宁从弱到强，形容单宁还可以用细致 fine,确实firmed，但是这些并非是形容质感的词汇。 Acetic. Term applied to wines which have undergone acetification and to the odour of such wines. 醋酸的：用于描述发生醋酸化的葡萄酒，以及此类葡萄酒所散发出的气味。 Acid. Term applied to a wine containing an excessive amount of acid, usually a wine made from grapes not completely ripe. 酸：用于描述含有过量酸的葡萄酒，通常是因为原料葡萄没有完全成熟。

K-means聚类实验

实验算法K-means聚类实验【实验名称】 K-means聚类实验【实验要求】掌握K-means模型应用过程，根据模型要求进行数据预处理，建模，评价与应用；【背景描述】聚类算法是一种典型的无监督学习算法，在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧式距离法。【知识准备】了解K-means模型的使用场景，数据标准。了解Python/Spark数据处理一般方法。了解spark 模型调用，训练以及应用方法【实验设备】 Windows或Linux操作系统的计算机。部署Spark，Python，本实验提供centos6.8环境。【实验说明】采用UCI机器学习库中的wine数据集作为算法数据，除去原来的类别号，把数据看做没有类别的样本，训练K-means模型，对样本进行聚类。【实验环境】 Spark 2.3.1，Pyrhon3.X，实验在命令行pyspark中进行，或者把代码写在py脚本，由于本次为实验，以学习模型为主，所以在命令行中逐步执行代码，以便更加清晰地了解整个建模流程。

【实验步骤】第一步：启动pyspark：命令行中键入pyspark --master local[4],本地模式启动spark与python：第二步：导入用到的包，并读取数据： (1).导入所需的包 from pyspark import SparkContext, SQLContext, SparkConf from math import sqrt (2).读取数据源,数据源地址为:/opt/algorithm/kmeans/wine.txt df_wine = sc.textFile(u"file:/opt/algorithm/kmeans/wine.txt").map( lambda x: str(x).split(",")).map(lambda x: [float(z) for z in x]) (3).数据转换为DataFrame df_wine_rdd = sqlContext.createDataFrame(df_wine)

葡萄酒情人节(Wine Day)

葡萄酒情人节（Wine Day）一、节日简介：每年的10月14日，是葡萄酒情人节（Wine Day）！这一天，恋人们，会轻啜葡萄美酒，庆祝这充满诗意的秋天！通常，小两口会选择在浪漫且别致的餐厅里，共进晚餐。然后，聊聊彼此对未来的规划。以及共同的目标等话题。二、节日酒类的选择： 1、香槟即便是在非常开放的法国，男女之间，还是存在许多刻板的差异的！例如，上餐厅吃饭，负责挑选葡萄酒的，多半还是男人。男女约会晚餐，

就更是如此！在法国，流传着这样的话：“要知道男人什么时候不再爱你，其实很简单，就从上餐厅并不再为你点香槟的那一天开始！”。所以，无论在餐厅要一杯香槟，即使多么昂贵，男人们，也丝毫不能犹豫！尤其是在西方情人节（Valentine’s Day）这一天！ 2、粉红酒熏衣草和粉红酒，是普罗旺斯的代表！熏衣草，是浪漫指数最高的香草！而粉红酒的颜色，最容易讨女人的欢心！因此，纯净、清爽的颜色，闪耀着阳光的色泽，清洌爽口的清淡滋味，非常适合年轻人的爱情！ 3、冰酒在零下6度的温度下，由冰冻的葡萄酿造而成的冰酒，经常闪着黄金般的颜色！一入口，便冲击着味蕾！那种极酸的、却又极甜的强烈的对比感，再配上极端浓郁的水果香气，就构成了冰酒最独特迷人的特征。产自冰天雪地，稀有而昂贵！冰酒般的爱情，其实更加丰富而甜蜜！ 4、贵腐甜酒酿造贵腐甜酒，其实，每年都是和自然的一场豪赌——挂在树上的贵腐葡萄，就像沾染着灰碳的腐烂葡萄干。很难想像，这样丑恶的葡萄，最后，居然会成为非常美丽、闪亮的黄金酒液！贵腐霉，并不仅仅让葡萄的糖分提高，而且，还会产生让口感更圆滑、滋润的甘油。以及形成特殊的香味！如，水果干、蜂蜜、葡萄干及贵腐霉的浓郁香味。而每年，都得冒着全部葡萄烂光的风险，就等着真正浓缩的葡萄来酿酒！ ——爱情，似乎也是如此！……难道不是吗？

聚类算法分析报告汇总

嵌入式方向工程设计实验报告学院班级：130712 学生学号：13071219 学生姓名：杨阳同作者：无实验日期：2010年12月

聚类算法分析研究 1 实验环境以及所用到的主要软件 Windows Vista NetBeans6.5.1 Weka3.6 MATLAB R2009a 2 实验内容描述聚类是对数据对象进行划分的一种过程，与分类不同的是，它所划分的类是未知的，故此，这是一个“无指导的学习” 过程，它倾向于数据的自然划分。其中聚类算法常见的有基于层次方法、基于划分方法、基于密度以及网格等方法。本文中对近年来聚类算法的研究现状与新进展进行归纳总结。一方面对近年来提出的较有代表性的聚类算法，从算法思想。关键技术和优缺点等方面进行分析概括；另一方面选择一些典型的聚类算法和一些知名的数据集，主要从正确率和运行效率两个方面进行模拟实验，并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析。最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题等。实验中主要选择了K 均值聚类算法、FCM 模糊聚类算法并以UCI Machine Learning Repository 网站下载的IRIS 和WINE 数据集为基础通过MATLAB 实现对上述算法的实验测试。然后以WINE 数据集在学习了解Weka 软件接口方面的基础后作聚类分析，使用最常见的K 均值（即K-means ）聚类算法和FCM 模糊聚类算法。下面简单描述一下K 均值聚类的步骤。 K 均值算法首先随机的指定K 个类中心。然后：（1）将每个实例分配到距它最近的类中心，得到K 个类；（2）计分别计算各类中所有实例的均值，把它们作为各类新的类中心。重复（1）和（2），直到K 个类中心的位置都固定，类的分配也固定。在实验过程中通过利用Weka 软件中提供的simpleKmeans （也就是K 均值聚类算法对WINE 数据集进行聚类分析，更深刻的理解k 均值算法，并通过对实验结果进行观察分析，找出实验中所存在的问题。然后再在学习了解Weka 软件接口方面的基础上对Weka 软件进行一定的扩展以加入新的聚类算法来实现基于Weka 平台的聚类分析。 3 实验过程 3.1 K 均值聚类算法 3.1.1 K 均值聚类算法理论 K 均值算法是一种硬划分方法，简单流行但其也存在一些问题诸如其划分结果并不一定完全可信。K 均值算法的划分理论基础是 2 1 min i c k i k A i x v ∈=-∑∑ （1）其中c 是划分的聚类数，i A 是已经属于第i 类的数据集i v 是相应的点到第i 类的平均距离，即

1.Python数据分析预处理实训

Python数据分析与处理实训数据集说明一、开始了解你的数据探索Chipotle快餐数据 1.将数据集存入一个名为chipo的数据框内 2.查看前10行内容 3.数据集中有多少个列(columns)？ 4.打印出全部的列名称 5.数据集的索引是怎样的？ 6.被下单数最多商品(item)是什么? 7.在item_name这一列中，一共有多少种商品被下单？ 8.一共有多少个商品被下单？ 9.将item_price转换为浮点数 10.在该数据集对应的时期内，收入(revenue)是多少？ 11.在该数据集对应的时期内，一共有多少订单？ 12.每一单(order)对应的平均总价是多少？

二、数据过滤与排序探索2012欧洲杯数据 1.将数据集存入一个名为euro12的数据框内。 2.只选取Goals这一列。 3.有多少球队参与了2012欧洲杯？ 4.该数据集中一共有多少列(columns)? 5.将数据集中的列Team, Yellow Cards和Red Cards单独存为一个名叫discipline的数据框。 6.对数据框discipline按照先Red Cards再Yellow Cards进行排序。 7.计算每个球队拿到的黄牌数的平均值。 8.找到进球数Goals超过6的球队数据。 9.选取以字母G开头的球队数据。 10.选取前7列。 11.选取除了最后3列之外的全部列。 12.找到英格兰(England)、意大利(Italy)和俄罗斯(Russia)的射正率(Shooting Accuracy)。三、数据分组探索酒类消费数据 1.将数据框命名为drinks 2.哪个大陆(continent)平均消耗的啤酒(beer)更多？ 3.打印出每个大陆(continent)的红酒消耗(wine_servings)的描述性统计值。 4.打印出每个大陆每种酒类别的消耗平均值。 5.打印出每个大陆每种酒类别的消耗中位数。 6.打印出每个大陆对spirit_servings饮品消耗的平均值，最大值和最小值。

葡萄酒产区及法国红酒文化(Wine producing areas and French wine culture)

葡萄酒产区及法国红酒文化（Wine producing areas and French wine culture） French wine culture If tea is an integral part of Chinese culture, then wine is the indispensable part of French culture. Talking French, you have to talk about wine. Since ancient brave seaman put the grapes from the Nile Valley branch and Crete to southern Greece, Sicily and Italy, then it spread to France, grape planting and brewing technology has been improved, the generational ascension and carry forward in this hexagonal soil. The wine culture not only represents the pursuit of the fine and beautiful life of the French people, but also an integral part of French civilization and culture. Martin, a famous French chemist? Ancient Duohua once said: "the wine reflects many things in the history of human civilization, it shows the religion and universe, nature, spirit and life to us. It is an encyclopedia of life and death, sex, aesthetics, society and politics." Wine history and religious legends Wine culture is part of French traditional culture. The Bible refers to wine and vineyards. The production of French wines dates back to the first Century bc. The grape was first grown in the Rhone Valley in southern France, arrived in Bordeaux in second Century. The long tradition of Viticulture and brewing techniques, combined with the latest and most stringent wine making methods, makes French wines more aristocratic. French

数据挖掘实验2

实验二：决策树要求：实现决策树分类算法,在两种不同的数据集上(iris.txt 和wine.txt)比较算法的性能。有趣的故事介绍一下决策树。[白话决策树模型](https://www.360docs.net/doc/cb5732222.html,/shujuwajue/2441.html) 首先第一个数据集iris.txt。 iris数据集记录的是鸢尾植物。Scikit-learn自带了iris数据集。其中iris.data记录的就是它的四个属性：萼片/花瓣的长和宽。一个150*4的矩阵。 Iris.target就是每一行对应的鸢尾植物的种类，一共有三种。测试结果：可以看到，本算法的性能大约是，准确率为0.673333333333。附录-Python代码： import sys from math import log import operator from numpy import mean def get_labels(train_file): ''' 返回所有数据集labels(列表) ''' labels = [] for index,line in enumerate(open(train_file,'rU').readlines()): label = line.strip().split(',')[-1] labels.append(label) return labels

def format_data(dataset_file): ''' 返回dataset(列表集合)和features(列表) ''' dataset = [] for index,line in enumerate(open(dataset_file,'rU').readlines()): line = line.strip() fea_and_label = line.split(',') dataset.append([float(fea_and_label[i]) for i in range(len(fea_and_label)-1)]+[fea_and_label[len(fea_and_label)-1]]) #features = [dataset[0][i] for i in range(len(dataset[0])-1)] #sepal length（花萼长度）、sepal width（花萼宽度）、petal length（花瓣长度）、petal width（花瓣宽度） features = ['sepal_length','sepal_width','petal_length','petal_width'] return dataset,features def split_dataset(dataset,feature_index,labels): ''' 按指定feature划分数据集，返回四个列表: @dataset_less:指定特征项的属性值＜=该特征项平均值的子数据集 @dataset_greater:指定特征项的属性值＞该特征项平均值的子数据集 @label_less:按指定特征项的属性值＜=该特征项平均值切割后子标签集 @label_greater:按指定特征项的属性值＞该特征项平均值切割后子标签集 ''' dataset_less = [] dataset_greater = [] label_less = [] label_greater = [] datasets = [] for data in dataset: datasets.append(data[0:4]) mean_value = mean(datasets,axis = 0)[feature_index] #数据集在该特征项的所有取值的平均值 for data in dataset: if data[feature_index] > mean_value: dataset_greater.append(data) label_greater.append(data[-1]) else: dataset_less.append(data) label_less.append(data[-1]) return dataset_less,dataset_greater,label_less,label_greater def cal_entropy(dataset): ''' 计算数据集的熵大小 '''

SOWINE(舒万)葡萄酒真空储酒机

SOWINE(舒万)葡萄酒真空储酒机产地：法国电压: 220V 功率: 87W 尺寸：高426mm×深245mm×宽248mm 重量：5.4公斤最长开瓶后储存时间：10天紅葡萄酒的适饮溫度：16℃至18℃ 白葡萄酒和粉红葡萄酒的适饮温度：8℃至10℃ 产品特点 * 电子自动抽真空系统,使已开瓶的葡萄酒延迟氧化,能保存多达10天,不再为未饮用完的葡萄酒保存而烦恼。* 双独立恒温装置,确保红葡萄酒或白葡萄酒最佳品尝温度。 * 一机两用,两个独立存酒空间,每个空间都能适应不同葡萄酒存放温度的要求。 * 可放2瓶（红葡萄酒或白葡萄酒），也可以放1瓶红葡萄酒和1瓶白葡萄酒。 * 设计时尚、操作简单、轻巧便携，可灵活应用于厨房、办公室、客厅、野餐以及船上。使用说明一. 将未开瓶的葡萄酒调校到适饮温度红酒 * 将未开瓶的酒瓶放于机器中, 並确保酒瓶放置于正中位置,将门关上. * 按下"温度计"按钮一次, 以选择红酒恒温模式. * 将相对的抽气活塞处于上升位置.

* 红色温度指示灯确认系统被设为红酒模式(16℃~18℃). 白酒/玫瑰酒 * 将未开瓶的酒瓶放于机器中, 並确保酒瓶放置于正中位置,将门关上. * 按下"温度计"按钮两次, 以选择白酒恒温模式. * 将相对的抽气活塞处于上升位置. * 黄色温度指示灯确认系统被设为白酒模式(8℃~10℃). 二. 将已开瓶的葡萄酒保存 * 将已开瓶的酒瓶放于机器中, 置于开瓶状态(确保瓶颈干净,切勿用酒塞或其他物体阻塞),将门关上. * 轻轻将抽气活塞按下至"咔"一声,抽真空系统即会自动开启. * 按下"温度计"按钮一次以启动红酒恒温模式(16℃~18℃),或按两次以启动白酒恒温模式(8℃~10℃), 或三次以关闭恒温功能. * 稳定显示的绿色抽气运作指示灯表示酒已保存在最佳环境中. * 若抽气运作指示灯为红色並闪烁,请检查酒瓶是否放置正确, 及瓶颈有否异物阻塞. * 保存已开瓶的酒时, 抽真空系统会重复启动. * 需要取出酒瓶时, 将门打开, 抽气活塞会自动上升释放酒瓶. 常见问题解答 1.如何确定我的酒瓶保存在正确的状态？氧气抽取装置正常运作时，绿色指示灯是稳定的。绿色指示灯不停闪动这是正常的氧气抽取启用以改善不可避免的轻微泄漏。 2.我可以放气泡酒吗？可以把未开封后的气泡酒保存在正确的温度。但这不是为了保护开瓶后的气泡酒不被氧化，因这些类型的葡萄酒释放大量的二氧化碳，这是和该设备不相容的运作。 3.我可以放大的酒瓶吗？该设备只能放入标准瓶(75cl)。 4.看不到温度显示，也无法调整? Sowine的设计理念是易于使用和自动计算温度。这是一個葡萄酒服务设备，它提供了红或白/粉红葡萄酒的理想温度，葡萄酒降低温度的时间太长了，尤其是白葡萄酒，葡萄酒的温度不要下降太快，避免它的味道变差。 5.抽气次数过于频繁? 抽气频繁有两种原因：一、瓶身倾斜未放正。二、瓶口与sowine接触面有异物，需清洁瓶口与sowine接触面。