《地域联系》习题汇总

《人类活动的地域联系》试题汇编右图为某半岛区域示意图，读图回答1～2题

1．T1107公路在甲段有多处连续弯曲，最可

能的原因是该路段（）

A ．地形高差较大，为减缓公路坡度

B ．生态环境脆弱，为保护生物资源

C ．聚落人口密集，为增加交通流量

D ．地下矿产丰富，为接近原料产地 2．乙城市是图示区域中规模最大的聚落和著

名疗养城市，据此判断其形成的主要区位因素是（）

A ．地处沿海地区，暖流强，气温高

B ．周围地貌多样，耕地多，产粮足

C ．全年降水丰富，水质好，资源丰

D ．地形平坦宽广，交通便，风景

鲜切水果是为了满足消费者的即食需求，对新鲜水果进行处理，使产品保持生鲜状态的鲜切制品。鲜果切从加工到送至客户手中不超过6小时，以确保用户能食用到最新鲜的果切。读图，回答3~4题。 3．影响鲜切水果业布局的主导区位因素是 A ．市场 B ．原料 C ．交通

D ．劳动力

4．该企业产品的销售主要依靠

A ．大型商场

B ．超市

C ．专卖店

D ．电子商务平台

2014年11月16日，兰新高铁的乌鲁木齐南至哈密段开通运营，标志着新疆正式进入高铁时代。读兰新高铁线路示意图，回答5～6题。

5．兰新高铁在新疆境内的部分路段(左图)采用“以桥代路”，其原因最可能是 A ．节约土地资源

B ．穿越大江大河

C ．保护生态和文物古迹

D ．解决冻土层地基不稳

6．为了保护行车安全，兰新高铁沿线修建了长达440千米的防护设施(如右景观图)，其主要作用是 A ．防暴雨 B ．防泥石流 C ．防风沙 D ．防噪声

2014年12月26日贵广高铁开通运营，贵州迈入了高铁时代，在贵州境内桥梁隧道占总线的比例高达91.3%，图3为贵州等高线及贵广高铁贵州境内段示意图，读图完成7～8题。 7．贵州境内桥隧比例高的主要原因是

A ．地形起伏大

B ．降低建设成本

C ．占用耕地少

D ．气候变化多样 8．贵广高速铁路的建设有利于

A. 减轻东部地区环境污染

B. 更好承接珠三角产业转移，促进产业结构升级

C. 增强我国南北方的产业联系

D. 加大煤炭、天然气资源的输送量

下图为我国东部地区某城市土地利用类型分布示意，该城市市区人口的5万人。读图，完成9~10题。

9．图中甲、乙、丙为该城市主要功能区。丙功能区的布局优势是 A ．上风上水，环境优美 B ．地处城镇边缘，地价较低 C ．靠近城市，水源优质 D ．公路过河点位置，交通便利 10．为完善城市交通网，该城市应尽快增建 A ．市内地铁 B ．城市环路 C ．高速铁路 D ．过河桥梁

环勃海经济圈之所以难以像珠三角、长三角那样，形成完整、连续、统一的经济圈，实现区域经济一体化发展，主要原因是环渤海南北两岸相隔，成为交通死角。跨渤海海底隧道或将纳入“十三五”规划，届时半个小时就可以跨越渤海湾。读渤海海底隧道规划图回答11～12题。

11．下列关于渤海海底隧道建设意义的叙述，错误．．的是 A ．有利于环渤海湾地区的经济一体化 B ．有利于辽东半岛的工业向山东半岛转移

C ．有利于促进东北地区和山东半岛乃至华东地区的经济文化交流

D ．缩短了东北地区和华东地区的通行时间

12．渤海海底隧道工程被认为是最困难的工程，主要原因是

A ．山东半岛和辽东半岛地区的协调困难大

B ．海洋潮汐变化的影响大

C ．劳动力紧缺，用工成本高

D ．海底地质条件复杂

2013年9月29日，我国大陆境内的第一个自贸区上海自由贸易试验区正式挂牌成立。

该区是根据

图

我国法律在上海划出4个海关特殊监管区域，用于专营境外加工与对外贸易。之后许多跨国公司总部纷纷落户上海自贸区。读下图，完成13～15题。

13．吸引跨国公司总部落户上海自贸区的最主要因素是

A．交通B．政策

C．技术D．市场

14．上海自贸区的建立有利于吸引

①能密集型产业集聚②高端制造业集聚

③航运服务业集聚④金融服务业集聚

A．①②③B．②③④

C．①③④D．①②④

15．图中的上海磁悬浮列车专线(龙阳路站至浦尔国际机场)是世界上第一条商业运营的磁悬浮专线，它带的影响可能是

A．中心商务区将移至郊区B．沿线地带形成大型工业区

C．中心城区辐射作用增强D．城市其他交通运输方式衰落

下图为中国某区域铁路网络电子地图截屏，读图完成16～17题。

16．制作该区域电子地图主要应用的地理信息技术是

A．全球定位系统

B．遥感

C．地理信息系统

D．数字地球

17．影响图中东西部铁路密度差异的主要自然因素是

A．地形B．气候

C．河流D．资源

毛里求斯岛是地处印度洋西南部的一座火山岛。读毛里求斯岛及附近区域示意图，完成18～19题。

18．对毛里求斯岛的叙述，正确的是

A.地势中间低四周高 B．全年受副热带高气压带控制

C．降水量东多西少 D．沿岸有寒流流经

19．路易港是毛里求斯的首都和最大港口，其港口选址的有利条件包括

①海岸线平直②风浪较小③交通便利④以城市为依托⑤与非洲大陆距离较近

A.②③④ B．①③⑤ C．①②④ D．③④⑤

花卉种植产业已成为海口市农业经济增长的新亮点，尤其是鲜切叶生产交易量，目前已占到全国市场份额的80％。2015年春节前，天猫、淘宝网的鲜切叶交易及物流配送异常繁忙。读图回答20～22题。

20．海口市发展鲜切叶产业的有利条件是

①地形以丘陵为主，土地资源丰富②水热充足，雨热同期

③市场需求量大④海陆运输便利

A．①②B．③④C．②③D．①④

21．网络销售模式对海口市鲜切叶生产的最大影响是

A．改变了生产工序B．改变了种植模式C．降低了生产成本D．扩大了销售市场

22．在鲜切叶物流配送过程中，实现全程查询所用到的地理信息技术是

A．RS B．GIS C．GPS D．数字地球

《数据挖掘》试题与标准答案

一、解答题（满分3０分，每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据，并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估，并把有价值的知识集成到企业的智能系统中。知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程，其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识，接着建立目标数据集，并专注所选择的数据子集;再作数据预处理，剔除错误或不一致的数据；然后进行数据简化与转换工作；再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型；最后经过解释和评价成为有用的信息。 2.时间序列数据挖掘的方法有哪些，请详细阐述之时间序列数据挖掘的方法有: １)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说，假设未来行为与现在的行为有关，利用属性现在的值预测将来的值是可行的。例如，要预测下周某种商品的销售额，可以用最近一段时间的实际销售量来建立预测模型。２）、随机时间序列预测方法：通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Ｒegressiｖe，简称AR)模型、移动回归模型(Ｍovｉng Ａveｒage,简称ＭＡ）或自回归移动平均(Aｕto Regrｅssive Moｖiｎg Aｖeraｇe，简称AＲMＡ)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练，通过数学统计模型估计神经网络的各层权重参数初值，就可能建立神经网络预测模型,用于时间序列的预测。

药理学——考试题库及答案

糖皮质激素大剂量突击疗法适用于收藏 A. 恶性淋巴瘤 B. 肾病综合征 C. 感染中毒性休克 D. 结缔组织病回答错误!正确答案：C 氧氯普胺的作用机制与哪个受体有关收藏 A. 5-HT3 B. M1 C. H1 D. D2 回答错误!正确答案：哪种情况不可以用甲氧氯普胺止吐收藏 A. 胃肠功能失调所致呕吐 B. 晕车所致呕吐 C. 给予顺铂所致呕吐 D. 放疗所致呕吐回答错误!正确答案：B 甲状腺机能亢进的内科治疗宜选用收藏 A. 甲状腺素 B. 甲硫咪唑 C. 小剂量碘剂 D. 大剂量碘剂回答错误!正确答案：B

关于碘下列说法不正确的是收藏 A. 长期大量应用可诱发甲亢 B. 小剂量碘参与甲状腺激素合成 C. 大剂量碘抑制甲状腺激素合成 D. 大剂量碘可治疗单纯性甲状腺肿回答错误!正确答案：D 属于广谱抗心律失常药的是收藏 A. 奎尼丁 B. 苯妥英钠 C. 普罗帕酮 D. 利多卡因回答错误!正确答案：A 关于呋噻米的药理作用特点中，叙述错误的是收藏 A. 影响尿的浓缩功能 B. 抑制髓袢升支对钠、氯离子的重吸收 C. 肾小球滤过率降低时仍有利尿作用 D. 肾小球滤过率降低时无利尿作用回答错误!正确答案：D 氯丙嗪引起视力模糊、心动过速和口干、便秘等是因为阻断了收藏 A. 多巴胺受体 B. M受体 C. β受体 D. N受体回答错误!正确答案：B

与双胍类药物作用无关的是收藏 A. 可减少肠对葡萄糖的吸收 B. 增加外周组织对葡萄糖的摄取 C. 对正常人血糖几无影响 D. 对胰岛功能缺乏的糖尿病人无降糖作用回答错误!正确答案：D 羧苄西林和下列何药混合注射会降低疗效收藏 A. 庆大霉素 B. 青霉素G C. 磺胺嘧啶 D. 红霉素回答错误!正确答案：A 主要毒性为视神经炎的抗结核药是收藏 A. 链霉素 B. 利福平 C. 乙胺丁醇 D. 异烟肼回答错误!正确答案：C 高血钾症用哪种药物治疗收藏 A. 氯化钾 B. 葡萄糖、胰岛素 C. 二甲双胍 D. 格列喹酮回答错误!正确答案：B

数据挖掘考试题库【最新】

一、填空题 1.Web挖掘可分为、和3大类。 2.数据仓库需要统一数据源，包括统一、统一、统一和统一数据特征 4个方面。 3.数据分割通常按时间、、、以及组合方法进行。 4.噪声数据处理的方法主要有、和。 5.数值归约的常用方法有、、、和对数模型等。 6.评价关联规则的2个主要指标是和。 7.多维数据集通常采用或雪花型架构，以表为中心，连接多个表。 8.决策树是用作为结点，用作为分支的树结构。 9.关联可分为简单关联、和。 10.B P神经网络的作用函数通常为区间的。 11.数据挖掘的过程主要包括确定业务对象、、、及知识同化等几个步骤。 12.数据挖掘技术主要涉及、和3个技术领域。 13.数据挖掘的主要功能包括、、、、趋势分析、孤立点分析和偏差分析7个方面。 14.人工神经网络具有和等特点，其结构模型包括、和自组织网络 3种。 15.数据仓库数据的4个基本特征是、、非易失、随时间变化。 16.数据仓库的数据通常划分为、、和等几个级别。 17.数据预处理的主要内容(方法)包括、、和数据归约等。 18.平滑分箱数据的方法主要有、和。 19.数据挖掘发现知识的类型主要有广义知识、、、和偏差型知识五种。 20.O LAP的数据组织方式主要有和两种。 21.常见的OLAP多维数据分析包括、、和旋转等操作。 22.传统的决策支持系统是以和驱动，而新决策支持系统则是以、建立在和技术之上。 23.O LAP的数据组织方式主要有和2种。 24.S QL Server2000的OLAP组件叫，OLAP操作窗口叫。 25.B P神经网络由、以及一或多个结点组成。 26.遗传算法包括、、3个基本算子。 27.聚类分析的数据通常可分为区间标度变量、、、、序数型以及混合类型等。 28.聚类分析中最常用的距离计算公式有、、等。 29.基于划分的聚类算法有和。

数据挖掘考试题库完整

一、名词解释 1.数据仓库：是一种新的数据处理体系结构.是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合.为企业决策支持系统提供所需的集成信息。 2.孤立点：指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。 3.OLAP：OLAP是在OLTP的基础上发展起来的.以数据仓库为基础的数据分析处理.是共享多维信息的快速分析.是被专门设计用于支持复杂的分析操作.侧重对分析人员和高层管理人员的决策支持。 4.粒度：指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小.同时影响数据仓库所能回答查询问题的细节程度。 5.数据规范化：指将数据按比例缩放(如更换大单位).使之落入一个特定的区域（如0－1）以提高数据挖掘效率的方法。规范化的常用方法有：最大－最小规范化、零－均值规范化、小数定标规范化。 6.关联知识：是反映一个事件和其他事件之间依赖或相互关联的知识。如果两项或多项属性之间存在关联.那么其中一项的属性值就可以依据其他属性值进行预测。 7.数据挖掘：从大量的、不完全的、有噪声的、模糊的、随机的数据中.提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 8.OLTP：OLTP为联机事务处理的缩写.OLAP是联机分析处理的缩写。前者是以数据库为基础的.面对的是操作人员和低层管理人员.对基本数据进行查询和增、删、改等处理。 9.ROLAP：是基于关系数据库存储方式的.在这种结构中.多维数据被映像成二维关系表.通常采用星型或雪花型架构.由一个事实表和多个维度表构成。 10.MOLAP：是基于类似于“超立方”块的OLAP存储结构.由许多经压缩的、类似于多维数组的对象构成.并带有高度压缩的索引及指针结构.通过直接偏移计算进行存取。 11.数据归约：缩小数据的取值范围.使其更适合于数据挖掘算法的需要.并且能够得到和原始数据相同的分析结果。 12.广义知识：通过对大量数据的归纳、概括和抽象.提炼出带有普遍性的、概括性的描述统计的知识。 13.预测型知识：是根据时间序列型数据.由历史的和当前的数据去推测未来的数据.也可以认为是以时间为关键属性的关联知识。 14.偏差型知识：是对差异和极端特例的描述.用于揭示事物偏离常规的异常现象.如标准类外的特例.数据聚类外的离群值等。 15.遗传算法：是一种优化搜索算法.它首先产生一个初始可行解群体.然后对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体.并最终达到全局最优。 16.聚类：是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程.使得在同一个簇中的对象之间具有较高的相似度.而不同簇中的对象差别较大。 17.决策树：是用样本的属性作为结点.用属性的取值作为分支的树结构。它是分类规则挖掘的典型方法.可用于对新样本进行分类。 18.相异度矩阵：是聚类分析中用于表示各对象之间相异度的一种矩阵.n个对象的相异度矩阵是一个nn维的单模矩阵.其对角线元素均为0.对角线两侧元素的值相同。 19.频繁项集：指满足最小支持度的项集.是挖掘关联规则的基本条件之一。 20.支持度：规则A→B的支持度指的是所有事件中A与B同地发生的的概率.即P(A∪B).是 AB同时发生的次数与事件总次数之比。支持度是对关联规则重要性的衡量。 21.可信度：规则A→B的可信度指的是包含A项集的同时也包含B项集的条件概率P(B|A).

大学《药理学》试题及答案

大学《药理学》试题及答案一、名词解释： 1、药理学：研究药物和机体相互作用规律及作用机制的科学。 2、不良反应：用药后出现与治疗目的无关的作用。 3、受体拮抗剂：药物与受体亲和力高，但无内在活性，能阻断激动剂与受体结合，拮抗激动剂作用。 4、道光效应（首关效应）：指某些口服药物经肠粘膜和肝脏被代谢灭活，再进入体循环的药量减小的现象。 5、生物利用度：指药物被机体吸收进入体循环的分量和速度。 6、眼调节麻痹：因M受体被阻断，睫状肌松弛，悬韧带拉紧，晶体处扁平，屈光度降低，视近物，此现象称为调节麻痹。二、单选题（每题2分，共40分） 1、药理学是（C） A.研究药物代谢动力学 B.研究药物效应动力学 C.研究药物与机体相互作用规律及作用机制的科学 D.研究药物的临床应用的科学 2、注射青霉素过敏，引起过敏性休克是（D） A．副作用 B.毒性反应 C.后遗效应 D.变态反应 3、药物的吸收过程是指（D） A．药物与作用部位结合 B.药物进入胃肠道 C.药物随血液分布到各组织器官 D.药物从给药部位进入血液循环 4、下列易被转运的条件是（A） A．弱酸性药在酸性环境中 B.弱酸性药在碱性环境中 C.弱碱性药在酸性环境中 D.在碱性环境中解离型药 5、药物在体内代谢和被机体排出体外称（D） A．解毒 B.灭活 C.消除 D.排泄 E.代谢 6、M受体激动时，可使（C） A．骨骼肌兴奋 B.血管收缩，瞳孔放大 C.心脏抑制，腺体分泌，胃肠平滑肌收缩 D.血压升高，眼压降低 7、毛果芸香碱主要用于（D） A．肠胃痉挛 B.尿潴留 C.腹气胀 D.青光眼 8、新斯的明最强的作用是（B） A.兴奋膀胱平滑肌 B.兴奋骨骼肌 C.瞳孔缩小 D.腺体分泌增加 9、氯解磷定可与阿托品合同治疗有机磷酸酯类中毒最显著缓解症状是（C） A．中枢神经兴奋 B.视力模糊 C.骨骼肌震颤 D.血压下降

药理学试题库和答案

药理学题库及答案一．填空题 1．药理学的研究内容是（）和（）。 2．口服去甲肾上腺素主要用于治疗（）。 3．首关消除较重的药物不宜（）。 4．药物排泄的主要途径是（）。受体激动时（）兴奋性增强。 5．N 2 6．地西泮是（）类药。 7．人工冬眠合剂主要包括（）、（）和（）。8．小剂量的阿司匹林主要用于防治（）。 9．山梗菜碱属于（）药。（填药物类别） 10．口服的强心甙类药最常用是（）。 11．阵发性室上性心动过速首选（）治疗。 12．螺内酯主要用于伴有（）增高的水肿。受体阻断药主要用于（）过敏反应性疾病。 13．H 1 14．可待因对咳漱伴有（）的效果好.但不宜长期应用.因为它有（）性。 15．胃壁细胞H+泵抑制药主要有（）。 16．硫酸亚铁主要用于治疗（）。 17．氨甲苯酸主要用于（）活性亢进引起的出血。 18．硫脲类药物用药2-3周才出现作用.是因为它对已经合成的（）无效。硫脲类药物用药期间应定期检查（）。 19．小剂量的碘主要用于预防（）。 20．伤寒患者首选（）。 21．青霉素引起的过敏性休克首选（）抢救。 22．氯霉素的严重的不良反应是（）。 23．甲硝唑具有（）、（）和抗阿米巴原虫的作用。 24.主要兴奋大脑皮层的中枢兴奋药物药物有__________,主要通过刺激化学感受器间接兴奋呼吸中枢的药物有____________。

25.久用糖皮质激素可产生停药反应.包括（1）._______________（2）.__________ 26．抗心绞痛药物主要有三类.分别是；和药。27．药物的体内过程包括、、和排泄四个过程。 28．氢氯噻嗪具有、和作用。30．联合用药的主要目的是、、。31．首关消除只有在（）给药时才能发生。 32．药物不良反应包括（）、（）、（）、（）。33．阿托品是M受体阻断药.可以使心脏（）.胃肠道平滑肌（）. 腺体分泌（）。 34．氯丙嗪阻断α受体.可以引起体位性（）。 35．腹部手术止痛时.不宜使用吗啡的原因是因为吗啡能引起（）。36．对乙酰氨基酚也叫（）。 37．解热镇痛药用于解热时用药时间不宜超过（）。 38．洛贝林属于（）药。 39．硝酸甘油舌下含服.主要用于缓解（）。 40．心得安不宜用于由冠状血管痉挛引起的（）型心绞痛。 41．小剂量维持给药缓解慢性充血性心衰.常用药物是（）。 42．螺内酯主要用于伴有（）增多的水肿。 43．扑尔敏主要用于（）过敏反应性疾病。 44．对β 受体选择性较强的平喘药有（）、（）等。 2 45．法莫替丁能抑制胃酸分泌.用于治疗（）。 46．硫酸亚铁用于治疗（）。 47．氨甲苯酸可用于（）活性亢进引起的出血。

数据挖掘考试题

数据挖掘考试题 LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】

数据挖掘考试题一．选择题 1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。 (单链) (全链) C.组平均方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C关联规则分析 D聚类 4.关于K均值和DBSCAN的比较，以下说法不正确的是( ) 均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象。均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇 5.下列关于Ward’s Method说法错误的是：( ) A.对噪声点和离群点敏感度比较小 B.擅长处理球状的簇 C.对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差 D.当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似 6.下列关于层次聚类存在的问题说法正确的是：( ) A.具有全局优化目标函数 B.Group Average擅长处理球状的簇

C.可以处理不同大小簇的能力 D.Max对噪声点和离群点很敏感 7.下列关于凝聚层次聚类的说法中，说法错误的事：( ) A.一旦两个簇合并，该操作就不能撤销 B.算法的终止条件是仅剩下一个簇 C.空间复杂度为()2m O D.具有全局优化目标函数 8.规则{牛奶，尿布}→{啤酒}的支持度和置信度分别为：( ) 9.下列( )是属于分裂层次聚类的方法。 Average 10.对下图数据进行凝聚聚类操作，簇间相似度使用MAX计算，第二步是哪两个簇合并：( ) A.在{3}和{l,2}合并 B.{3}和{4,5}合并 C.{2,3}和{4,5}合并 D. {2,3}和{4,5}形成簇和{3}合并二．填空题： 1.属性包括的四种类型：、、、。 2.是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。 3. 基本凝聚层次聚类算法空间复杂度，时间复杂度，如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将为。 4. 聚类中，定义簇间的相似度的方法有（写出四个）：、、、。 5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法：、。 6. 组平均是一种界于和之间的折中方法。

数据挖掘概念与技术-课后题答案汇总汇总

数据挖掘——概念概念与技术 Data Mining Concepts and T echniques 习题答案第1章引言 1.1 什么是数据挖掘？在你的回答中，针对以下问题： 1.2 1.6 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。解答： ?特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge) 的信息，还有所修的课程的最大数量。 ?区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。 ?关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为： major(X, “c omputing science”) owns(X, “personal computer”) [support=12%, c onfid e nce=98%] 其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12% （支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。 ?分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。 ?聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。 ?数据延边分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 1.3 1.9 列举并描述说明数据挖掘任务的五种原语。解答：用于指定数据挖掘任务的五种原语是：

《药理学》常考大题及答案整理

第二章第三章：药效学和药动学基本上不出大题，但是喜欢出选择题，所以还是要理解一些关键性的概念（比如药效学里头的神马效能，效价强度，治疗指数，激动药和拮抗药啊，药动学里头的ADME过程中的一些关键概念等）（还有就是药动学那里的一些公式可以不用理会，考试不考计算）。总论部分兰姐会讲得比较细，只要大家把她讲的内容掌握就差不多了。以前考过的大题有： 1效价强度与效能在临床用药上有什么意义？（1）效价强度是达到一定效应（通常采用50%全效应）所需剂量，所需剂量越小作用越强，它反映药物对受体的亲和力。其意义是效价强度越大时临床用量越小。（2）效能是药物的最大效应，它反映药物的内在活性，其意义一是表明药物在达到一定剂量时可达到的最大效应，如再增加剂量，效应不会增加；二是效能大的药物能在效能小的药物无效时仍可起效。 2什么是非竞争性拮抗药？非竞争性拮抗药是指拮抗药与受体结合是相对不可逆的，它能引起受体够性的改变，从而干扰激动药与受体的正常结合，同时激动药不能竞争性对抗这种干扰，即使增大激动药的剂量也不能使量效曲线的最大作用强度达到原有水平。随着此类拮抗药剂量的增加，激动药量效曲线逐渐下降。 3 肝药酶活化剂对合用药物的作用和浓度的影响？第六章到十一章：传出神经系统药一般会出简答题，但不会出论述题。从第七章到十一章的内容都比较重要，但是从历年大题来看以β受体阻断药考得最多，其次是阿托品。总结性表格可以参照博济资料（中山医那边的人写的）或者是兰姐的PPT(貌似更好)，但是建议在认真看完课本的基础上再去记忆表格，否则效果不佳。以前考过的大题有： 1普萘洛尔的药理作用，临床用途和不良反应药理作用：心血管：阻断心肌β1受体，产生负性肌力、负性节律和负性传导，心输出量、耗氧量降低。阻断外周血管β2受体，引起血管收缩和外周阻力增强，但是由于外周血流量减少，长期用药的综合效应还是降低血压。支气管：阻断β2受体，支气管平滑肌收缩，增加呼吸道阻力，可加重或诱发支气管哮喘的发作。代谢分泌：抑制脂肪和糖原的分解，出现低血糖。减少肾血流，增加钠潴留，需要与利尿药联用。临床应用：心绞痛、心肌梗死、心律失常：减少心肌耗氧量。对室上性心律失常有效，对室性心律失常无效。高血压：减少心排血量。青光眼、偏头痛：收缩眼部、脑部血管，减少房水生成，降低压力。甲亢：控制其心律失常。不良反应：反跳现象：长期使用时突然停药可引起病情恶化，如高血压病人血压骤升，心绞痛患者频繁发作。心脏抑制和外周血管痉挛：心功能不全、心动过缓、传导阻滞和外周血管痉挛性疾病禁用。支气管收缩：加重或诱发支气管哮喘。代谢紊乱：出现低血糖。注意事项：药物敏感个体差异大，从小剂量开始，不能突然停药。 2普萘洛尔对心脏有哪些作用，可用于哪些心血管疾病的治疗 3请叙述阿托品的药理作用和临床应用。药理作用：心脏：兴奋，正性肌力，正性频率，正性传导。平滑肌：血管平滑肌舒张，皮肤潮红。

《数据挖掘》试题与答案

一、解答题（满分30分，每小题5分） 1. 怎样理解数据挖掘和知识发现的关系？请详细阐述之首先从数据源中抽取感兴趣的数据，并把它组织成适合挖掘的数据组织形式；然后，调用相应的算法生成所需的知识；最后对生成的知识模式进行评估，并把有价值的知识集成到企业的智能系统中。知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程，其最终目标是掌握数据的模式。流程步骤：先理解要应用的领域、熟悉相关知识，接着建立目标数据集，并专注所选择的数据子集；再作数据预处理，剔除错误或不一致的数据；然后进行数据简化与转换工作；再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型；最后经过解释和评价成为有用的信息。 2. 时间序列数据挖掘的方法有哪些，请详细阐述之时间序列数据挖掘的方法有： 1）、确定性时间序列预测方法:对于平稳变化特征的时间序列来说，假设未来行为与现在的行为有关，利用属性现在的值预测将来的值是可行的。例如，要预测下周某种商品的销售额，可以用最近一段时间的实际销售量来建立预测模型。 2）、随机时间序列预测方法:通过建立随机模型，对随机时间序列进行分析，可以预测未来值。若时间序列是平稳的，可以用自回归(Auto Regressive，简称AR)模型、移动回归模型(Moving Average，简称MA)或自回归移动平均(Auto Regressive Moving Average，简称ARMA)模型进行分析预测。 3）、其他方法:可用于时间序列预测的方法很多，其中比较成功的是神经网络。由于大量的时间序列是非平稳的，因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练，通过数学统计模型估计神经网络的各层权重参数初值，就可能建立神经网络预测模型，用于时间序列的预测。

药理学题库

1 药理学题库一、单项选择题(1104小题,每小题1分,共1104分) [第01章总论] 1、药物是（ D ） A.一种化学物质 B.能干扰细胞代谢活动的化学物质 C.能影响机体生理功能的物质 D.用以防治及诊断疾病的物质 E.有滋补、营养、保健、康复作用的物质 2、药理学是医学教学中的一门重要学科，是因为它（ D ） A.阐明了药物的作用机制 B.能改善药物质量、提高药物疗效 C.为开发新药提供实验资料与理论依据 D.为指导临床合理用药提供理论基础 E.具有桥梁学科的性质 3、药理学的研究方法是实验性的是指（ A ） A.严格控制条件、观察药物对机体的作用规律及原理 B.采用动物进行实验研究 C.采用离体、在体的实验方法进行药物研究 D.所提供的实验数据对临床有重要的参考价值 E.不是以人为研究对象 4、药效学是研究（ E ） A.药物临床疗效 B.提高药物疗效的途径 C.如何改善药物质量 D.机体如何对药物进行处置 E.药物对机体的作用及作用机制 5、药动学是研究（ A ） A.药物在机体影响下的变化及其规律 B.药物如何影响机体 C.药物发生的动力学变化及其规律 D.合理用药的治疗方案 E.药物效应动力学 6、药理学是研究（ E ） A.药物效应动力学 B.药物代谢动力学 C.药物 D.与药物有关的生理科学 E.药物与机体相互作用及其规律 7、新药进行临床试验必须提供（ E ） A.系统药理研究数据 B.急、慢性毒性观察结果 C.新药作用谱 D.LD50 E.临床前研究资料 8、阿司林的pKa值为3.5,它在pH值为7.5的肠液中可吸收约（ C ） A.1% B.0.10% C.0.01% D.10% E.99% 9、在酸性尿液中弱碱性药物（ B ） A.解离少，再吸收多，排泄慢 B.解离多，再吸收少，排泄快 C.解离少，再吸收少，排泄快 D.解离多，再吸收多，排泄慢 E.排泄速度不变 10、促进药物生物转化的主要酶系统是（ A ） A.细胞色素P450酶系统 B.葡萄糖醛酸转移酶 C.单胺氧化酶 D.辅酶II E.水解酶 11、pKa值是指（ C ） A.药物90％解离时的pH值 B.药物99％解离时的pH值 C.药物50％解离时的pH值 D.药物不解离时的pH值 E.药物全部解离时的pH值 12、药物在血浆中与血浆蛋白结合后可使（ E ） A.药物作用增强 B.药物代谢加快 C.药物转运加快 2

数据挖掘考试题库知识讲解

1.数据仓库：是一种新的数据处理体系结构，是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合，为企业决策支持系统提供所需的集成信息。 2.孤立点：指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。 3.OLAP：OLAP是在OLTP的基础上发展起来的，以数据仓库为基础的数据分析处理，是共享多维信息的快速分析，是被专门设计用于支持复杂的分析操作，侧重对分析人员和高层管理人员的决策支持。 4.粒度：指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小，同时影响数据仓库所能回答查询问题的细节程度。 5.数据规范化：指将数据按比例缩放(如更换大单位)，使之落入一个特定的区域（如0－1）以提高数据挖掘效率的方法。规范化的常用方法有：最大－最小规范化、零－均值规范化、小数定标规范化。 6.关联知识：是反映一个事件和其他事件之间依赖或相互关联的知识。如果两项或多项属性之间存在关联，那么其中一项的属性值就可以依据其他属性值进行预测。 7.数据挖掘：从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 8.OLTP：OLTP为联机事务处理的缩写，OLAP是联机分析处理的缩写。前者是以数据库为基础的，面对的是操作人员和低层管理人员，对基本数据进行查询和增、删、改等处理。 9.ROLAP：是基于关系数据库存储方式的，在这种结构中，多维数据被映像成二维关系表，通常采用星型或雪花型架构，由一个事实表和多个维度表构成。 10.MOLAP：是基于类似于“超立方”块的OLAP存储结构，由许多经压缩的、类似于多维数组的对象构成，并带有高度压缩的索引及指针结构，通过直接偏移计算进行存取。 11.数据归约：缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 12.广义知识：通过对大量数据的归纳、概括和抽象，提炼出带有普遍性的、概括性的描述统计的知识。 13.预测型知识：是根据时间序列型数据，由历史的和当前的数据去推测未来的数据，也可以认为是以时间为关键属性的关联知识。 14.偏差型知识：是对差异和极端特例的描述，用于揭示事物偏离常规的异常现象，如标准类外的特例，数据聚类外的离群值等。 15.遗传算法：是一种优化搜索算法，它首先产生一个初始可行解群体，然后对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体，并最终达到全局最优。 16.聚类：是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程，使得在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。 17.决策树：是用样本的属性作为结点，用属性的取值作为分支的树结构。它是分类规则挖掘的典型方法，可用于对新样本进行分类。 18.相异度矩阵：是聚类分析中用于表示各对象之间相异度的一种矩阵，n个对象的相异度矩阵是一个nn维的单模矩阵，其对角线元素均为0，对角线两侧元素的值相同。 19.频繁项集：指满足最小支持度的项集，是挖掘关联规则的基本条件之一。 20.支持度：规则A→B的支持度指的是所有事件中A与B同地发生的的概率，即P(A∪B)，是AB同时发生的次数与事件总次数之比。支持度是对关联规则重要性的衡量。 21.可信度：规则A→B的可信度指的是包含A项集的同时也包含B项集的条件概率P(B|A)，是AB同时发生的次数与A发生的所有次数之比。可信度是对关联规则的准确度的衡量。 22.关联规则：同时满足最小支持度阈值和最小可信度阈值的规则称之为关联规则。 1.何谓数据挖掘？它有哪些方面的功能？从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。数据挖掘的功能包括：概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。 2.何谓数据仓库？为什么要建立数据仓库？数据仓库是一种新的数据处理体系结构，是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合，为企业决策支持系统提供所需的集成信息。建立数据仓库的目的有3个：

数据仓库与数据挖掘考试试题

一、填空题（15分） 1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。 2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。 3.OLAP技术多维分析过程中，多维分析操作包括切片、切块、钻取、旋转等。 4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构，其中企业级数据仓库是中心，源数据系统和数据集市在输入和输出范围的两端。 5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库，也叫运营数据存储。二、多项选择题（10分） 6.在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ） A 分类 B 关联 C 估值 D 预言 7.数据仓库的数据ETL过程中，ETL软件的主要功能包括（ＡＢＣ） A 数据抽取 B 数据转换 C 数据加载 D 数据稽核 8.数据分类的评价准则包括（ ABCD ） A 精确度 B 查全率和查准率 C F-Measure D 几何均值 9.层次聚类方法包括（ BC ） A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法 10.贝叶斯网络由两部分组成，分别是（ A D ） A 网络结构 B 先验概率 C 后验概率 D 条件概率表三、计算题（30分） 11.一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目，假定sup min=40%，conf min=40%，使用Apriori算法计算生成的关联规则，标明每趟数据库扫描时的候选集和大项目集。（15分）解：（1）由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1，计算其支持度，取出支持度小于sup min的项集，形成1-频繁集L1，如下表所示：

《数据仓库与数据挖掘》复习题

2014-2015-1《数据仓库与数据挖掘》期末考试题型一、单项选择题（每小题2分，共20分）二、填空题（每空1分，共20分）三、简答题(每题6分，共30分) 四、析题与计算题(共30分) 请同学们在考试时不要将复习资料带入考场！！！单选题 1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准？(A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD？(A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（A） A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？(A)

数据挖掘考试习题汇总

第一章 1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2、元数据是描述数据仓库内数据的结构和建立方法的数据，它为访问数据仓库提供了一个信息目录，根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3、数据处理通常分成两大类：联机事务处理和联机分析处理。 4、多维分析是指以“维”形式组织起来的数据（多维数据集）采取切片、切块、钻取和旋转等各种分析动作，以求剖析数据，使拥护能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据集中的信息。 5、ROLAP是基于关系数据库的OLAP实现，而MOLAP是基于多维数据结构组织的OLAP实现。 6、数据仓库按照其开发过程，其关键环节包括数据抽取、数据存储与管理和数据表现等。 7、数据仓库系统的体系结构根据应用需求的不同，可以分为以下4种类型：两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。 8操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的（但是可“挥发”的）、企业级的、详细的数据库，也叫运营数据存储。 9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。 10、从应用的角度看，数据仓库的发展演变可以归纳为5个阶段：以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。第二章 1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。 2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此，我们要求ETL 过程产生的数据（即调和数据层）是详细的、历史的、规范的、可理解的、即时的和质量可控制的。 3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库，增量抽取用于进行数据仓库的维护。 4、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小，细节程度越高，综合程度越低，回■ 答查询的种类越多。 5、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理，主要数据都在庞大的事实表中。 6、维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式：一种是采用自然键，另一种是采用代理键。 7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。 8数据仓库中存在不同综合级别的数据。一般把数据分成4个级别：早期细节级、当前细节级、轻度综合级和高度综合级。第三章 1、SQL Server SSAS提供了所有业务数据的同意整合试图，可以作为传统报表、在线分析处理、关键性能指示器记分卡和数据挖掘的基础。 2、数据仓库的概念模型通常采用信息包图法来进行设计，要求将其5个组成部分（包括名称、维度、类别、层次和度量）全面地描述岀来。 3、数据仓库的逻辑模型通常采用星型图法来进行设计，要求将星型的各类逻辑实体完整地描述岀来。 4、按照事实表中度量的可加性情况，可以把事实表对应的事实分为4种类型：事务事实、快照事实、线性项目事实和事件事实。 5、确定了数据仓库的粒度模型以后，为提高数据仓库的使用性能，还需要根据拥护需求设计聚合模型。 6、在项目实施时，根据事实表的特点和拥护的查询需求，可以选用时间、业务类型、区域和下属组织等多种数据分割类型。 7、当维表中的主键在事实表中没有与外键关联时，这样的维称为退化维。它于事实表并无关系，但有时在查询限制

武汉大学计算机专业数据仓库及数据挖掘期末考试题

武汉大学计算机学院 2014级研究生“数据仓库和数据挖掘”课程期末考试试题要求：所有的题目的解答均写在答题纸上，需写清楚题目的序号。每张答题纸都要写上姓名和学号。一、单项选择题（每小题2分，共20分） 1. 下面列出的条目中，（）不是数据仓库的基本特征。B A.数据仓库是面向主题的 B.数据仓库是面向事务的 C.数据仓库的数据是相对稳定的 D.数据仓库的数据是反映历史变化的 2. 数据仓库是随着时间变化的，下面的描述不正确的是（）。 A.数据仓库随时间的变化不断增加新的数据内容 B.捕捉到的新数据会覆盖原来的快照 C.数据仓库随事件变化不断删去旧的数据内容C D.数据仓库中包含大量的综合数据，这些综合数据会随着时间的变化不断地进行重新综合 3. 以下关于数据仓库设计的说法中（）是错误的。A A.数据仓库项目的需求很难把握，所以不可能从用户的需求出发来进行数据仓库的设计，只能从数据出发进行设计 B.在进行数据仓库主题数据模型设计时，应该按面向部门业务应用的方式来设计数据模型 C.在进行数据仓库主题数据模型设计时要强调数据的集成性 D.在进行数据仓库概念模型设计时，需要设计实体关系图，给出数据表的划分，并给出每个属性的定义域 4. 以下关于OLAP的描述中（）是错误的。A A.一个多维数组可以表示为（维1，维2，…，维n） B.维的一个取值称为该维的一个维成员 C.OLAP是联机分析处理 D.OLAP是数据仓库进行分析决策的基础 5. 多维数据模型中，下列（）模式不属于多维模式。D A.星型模式 B.雪花模式 C.星座模式 D.网型模式 6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是（）。C A.频繁项集?频繁闭项集?最大频繁项集 B.频繁项集?最大频繁项集?频繁闭项集 C.最大频繁项集?频繁闭项集?频繁项集 D.频繁闭项集?频繁项集?最大频繁项集

数据挖掘考试题库

1.何谓数据挖掘？它有哪些方面的功能？从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。数据挖掘的功能包括：概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。 2.何谓粒度？它对数据仓库有什么影响？按粒度组织数据的方式有哪些？粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小，同时影响数据仓库所能回答查询问题的细节程度。按粒度组织数据的方式主要有： ①简单堆积结构 ②轮转综合结构 ③简单直接结构 ④连续结构 3.简述数据仓库设计的三级模型及其基本内容。概念模型设计是在较高的抽象层次上的设计，其主要内容包括：界定系统边界和确定主要的主题域。逻辑模型设计的主要内容包括：分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。物理数据模型设计的主要内容包括：确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。在物理数据模型设计时主要考虑的因素有: I/O存取时间、空间利用率和维护代价等。提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。 4.在数据挖掘之前为什么要对原始数据进行预处理？原始业务数据来自多个数据库或数据仓库，它们的结构和规则可能是不同的，这将导致原始数据非常的杂乱、不可用，即使在同一个数据库中，也可能存在重复的和不完整的数据信息，为了使这些数据能够符合数据挖掘的要求，提高效率和得到清晰的结果，必须进行数据的预处理。为数据挖掘算法提供完整、干净、准确、有针对性的数据，减少算法的计算量，提高挖掘效率和准确程度。 5.简述数据预处理方法和内容。 ①数据清洗：包括填充空缺值，识别孤立点，去掉噪声和无关数据。 ②数据集成：将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。 ③数据变换：将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化，还可能需要进行属性的重构。 ④数据归约：缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 6.简述数据清理的基本内容。 ①尽可能赋予属性名和属性值明确的含义； ②统一多数据源的属性值编码； ③去除无用的惟一属性或键值(如自动增长的id)； ④去除重复属性(在某些分析中，年龄和出生日期可能就是重复的属性，但在某些时候它们可能又是同时需要的) ⑤去除可忽略字段(大部分为空值的属性一般是没有什么价值的，如果不去除可能造成错误的数据挖掘结果) ⑥合理选择关联字段(对于多个关联性较强的属性，重复无益，只需选择其中的部分用于数据挖掘即可，如价格、数据、金额) ⑦去掉数据中的噪音、填充空值、丢失值和处理不一致数据。 7.简述处理空缺值的方法。 ①忽略该记录； ②去掉属性； ③手工填写空缺值； ④使用默认值； ⑤使用属性平均值； ⑥使用同类样本平均值； ⑦预测最可能的值。 8.常见的分箱方法有哪些？数据平滑处理的方法有哪些？分箱的方法主要有： ①统一权重法(又称等深分箱法) ②统一区间法(又称等宽分箱法) ③最小熵法 ④自定义区间法数据平滑的方法主要有：平均值法、边界值法和中值法。