企业数据分析专业试题_含答案

企业数据分析专业试题

姓名：得分：

一、单选题：（每题2分，共20分）

1、资产入户中房间和资产的关系是：(A)

A. 一个房间对应多条资产

B. 多个房间对应相同资产

C. 多个房间对应一条资产

2、某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A)

A. 关联规则发现

B. 聚类

C. 分类

D. 自然语言处理

3、本地资产落地规则优先级最高的是：（C）

A. 按照融合套餐落地

B. 资产按GIS网格资源归属落地

C. 按资产对应VIP客户的客户经理区域落地

D. 按入网受理点落地

4、融合套餐用户落地规则：(C)

A. 按营销工号落地

B. 按入网受理点落地

C. 按融合套餐中固网落地信息归属

D. 按客户经理归属区域落地

5、什么是KDD？(A)

A. 数据挖掘与知识发现

B. 领域知识发现

C. 文档知识发现

D. 动态知识发现

6、为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？(B)

A. 探索性数据分析

B. 建模描述

C. 预测建模

D. 寻找模式和规则

7、划小承包收入口径中的坏账指：(B)

A. 新增的一个月以上（财务）欠费

B. 新增的三个月以上（财务）欠费

C. 新增的四个月以上（财务）欠费

D. 新增的六个月以上（财务）欠费

8、划小承包用户收入口径是：(C)

A. 计费出账收入

B. 全业务税后收入

C. 财务口径主营业务税后收入（含减收）

D. 主营业务税后收入

9、数据仓库是随着时间变化的,下面的描述不正确的是(C)

A. 数据仓库随时间的变化不断增加新的数据内容;

B. 捕捉到的新数据会覆盖原来的快照;

C. 数据仓库随事件变化不断删去旧的数据内容;

D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综

合

10、一张表的主键个数为( C )

A．至多3个

B．没有限制

C．至多1个

D．至多2个

二、多选题：（每题4分，共40分，多选、少选、错选不得分）

1、用户需凭有效身份鉴权信息进行用户个人信息查询和变更，有效身份鉴权信息包括：

（ABCD）

A.个人有效身份证件

B.单位用户的经办人有效身份证件及单位授权书

C.用户密码

D.手机验证码或用户用本机号码拨打10000号

2、关于批量提取需求管理，以下说法正确的是：（ABCD）

A. 需求提出必须遵循工作相关性和信息最小化原则

B. 需求审批需经数据使用部门、数据提取部门领导审核，如批量数据超过5万条或提

供给第三方，需经用户信息安全管理部门审核，并报公司分管领导审批

C．数据传递采用加密、直接交递或内网传递、只读文件以PDF格式导出并加使用人水印和导出时间

D．数据使用后要及时删除

3、以下信息属于敏感信息字段的有：（BCDE）

A. 电话号码

B. 客户名称

C. 证件号码

D. 联系人

E. 银行帐号

4、对账号密码设置要求，以下说法正确的是：（ABDE）

A. 不允许采用纯数字或者纯字母，必须使用混合字符

B. 密码的长度必须大于等于6位

C. 对于程序帐号的密码，不能以明文的方式在源代码、配置文件或者数据库等任何地方保留，可以在程序代码中写死密码

D. 至少每3个月更改一次密码

E. 不能使用最近3次使用过的密码

5、营销支撑CRM客户生成VIP卡号需要满足那几个条件：(BCD)

A. 客户证件类型是营业执照

B. 客户类型是政企客户

C. 客户等级为商客D及以上

D. 客户认领到客户经理

6、资产入户可以通过那几个操作实现：(ABCD)

A. CRM前台地址认领入户

B. 营销支撑系统手工认领入户

C. 承包助手资产入户

D. 爱装维工单资产入户

7、本地单C资产落地规则包含那些：(ABD)

A．按营销工号落地 B. 按入网受理点落地

C. 按资源归属落地

D. 按客户经理归属区域落地

8、五级划小的佣金组成有哪些？（ABCDE）

A．存增量提成 B. 开店补贴

C．计件计量 D. 发展佣金 E. 达量奖励

9、以下各项均是针对数据仓库的不同说法，你认为正确的有（BCDE ）。

A．数据仓库就是数据库

B．数据仓库是一切商业智能系统的基础

C．数据仓库是面向业务的，支持联机事务处理（OLTP）

D．数据仓库支持决策而非事务处理

E．数据仓库的主要目标就是帮助分析，做长期性的战略制定

10、以下属于聚类算法的是（ABD ）。

A. K均值

B. DBSCAN

C. Apriori

D. Jarvis-Patrick（JP）

三、简答题：（第1题8分，第2题12分）

1、存在一张营业区账期欠费表(t1)如下:

请用SQL语句将欠费转换成如下格式展现

;

参考答案:

select 营业区,

sum(decode(账期,'201801',欠费,0)) 欠费201801,

sum(decode(账期,'201802',欠费,0)) 欠费201802,

sum(decode(账期,'201803',欠费,0)) 欠费201803

from t1

group by 营业区

;

select 营业区,

sum(case when 账期='201801' then 欠费else 0 end) 欠费201801,

sum(case when 账期='201802' then 欠费else 0 end) 欠费201802,

sum(case when 账期='201803' then 欠费else 0 end) 欠费201803

from t1 a

group by 营业区

2、资产新增表EVT_NEW_ASSET_H中包含字段:

ACCS_NBR,

ASSET_ROW_ID,

STD_PROM_LVL3_ID ,

STD_PROM_LVL3_ID,

STD_PROM_LVL3_NAME,

STD_PROM_LVL4_ID,

STD_PROM_LVL4_NAME,

PROM_NAME,

PROM_AMT,

PROM_ROW_ID;

销售品配置五级表DMN_COM_STD_PROM_LVL5包含以下字段： PROM_ROW_ID,

STD_PROM_LVL1_ID,

STD_PROM_LVL1_NAME,

STD_PROM_LVL2_ID,

STD_PROM_LVL2_NAME,

STD_PROM_LVL3_ID,

STD_PROM_LVL3_NAME,

STD_PROM_LVL4_ID,

STD_PROM_LVL4_NAME,

STD_PROM_LVL5_ID,

STD_PROM_LVL5_NAME,

BRAND_TYPE_NAME,

BRAND_TYPE_NAME_LVL3,

CONT_TYPE_NAME_LVL3,

PROM_NAME,

PROM_AMT

由于市场部调整了不限量套餐的命名规则，造成资产新增表中的PROM_NAME字段部分为空，请通过一段脚本更新修复该异常。

参考脚本:

UPDATE EVT_NEW_ASSET_H P1

SET P1.PROM_NAME =

(SELECT P2.PROM_NAME

FROM DMN_COM_STD_PROM_LVL5 P2

WHERE P1.PROM_ROW_ID = P2.PROM_ROW_ID)

WHERE EXISTS(SELECT*

FROM DMN_COM_STD_PROM_LVL5 P3

WHERE P1.PROM_ROW_ID = P3.PROM_ROW_ID

)

AND P1.PROM_NAME IS NULL

;

COMMIT;

3、假设有一张库存表t3, 字段ID和CNT，分别代表商品ID和商品库存数量。现新到一批货物，商品数量，存放在入库表t4中，请用sql语句，将入库表的商品数量增加到库存表中。

t3 t4

参考答案: (直接update会将t3表中id=5的cnt置空，采用nvl 或者not exists 来规避该情况的发生)

update t3

set https://www.360docs.net/doc/b912851365.html,t=https://www.360docs.net/doc/b912851365.html,t+ nvl((select nvl(https://www.360docs.net/doc/b912851365.html,t,0) from t4 where t3.ID=t4.ID(+)),0)

;

或者

update t3

set https://www.360docs.net/doc/b912851365.html,t=(select https://www.360docs.net/doc/b912851365.html,t+https://www.360docs.net/doc/b912851365.html,t from t4 where t3.id=t4.id)

where exists (select * from t4 where t3.id=t4.id)

;

数据分析笔试题

数据分析笔试题一、编程题（每小题20分）（四道题任意选择其中三道）有一个计费表表名jifei 字段如下：phone(8位的电话号码)，month（月份），expenses （月消费，费用为0表明该月没有产生费用）下面是该表的一条记录：64262631,201011,30.6 这条记录的含义就是64262631的号码在2010年11月份产生了30.6元的话费。按照要求写出满足下列条件的sql语句： 1、查找2010年6、7、8月有话费产生但9、10月没有使用并（6、7、8月话费均在51-100 元之间的用户。 2、查找2010年以来（截止到10月31日）所有后四位尾数符合AABB或者ABAB或者AAAA 的电话号码。（A、B 分别代表1—9中任意的一个数字） 3、删除jifei表中所有10月份出现的两条相同记录中的其中一条记录。

4、查询所有9月份、10月份月均使用金额在30元以上的用户号码（结果不能出现重复）二、逻辑思维题（每小题10分）须写出简要计算过程和结果。 1、某人卖掉了两张面值为60元的电话卡，均是60元的价格成交的。其中一张赚了20%，另一张赔了20%，问他总体是盈利还是亏损，盈/亏多少？ 2、有个农场主雇了两个小工为他种小麦，其中A是一个耕地能手，但不擅长播种；而B 耕地很不熟练，但却是播种的能手。农场主决定种10亩地的小麦，让他俩各包一半，于是A从东头开始耕地，B从西头开始耕。A耕地一亩用20分钟，B却用40分钟，可是B播种的速度却比A快3倍。耕播结束后，庄园主根据他们的工作量给了他俩600元工钱。他俩怎样分才合理呢? 3、1 11 21 1211 111221 下一行是什么？ 4、烧一根不均匀的绳，从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子，问如何用烧绳的方法来计时一个小时十五分钟呢？（绳子分别为A 、B、C、D、E、F 。。。。。来代替）

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案导读：探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验，欢迎参考阅读。 1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计，然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中，找出那个频率最大的IP，即为所求。或者如下阐述：算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)24值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址; 3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。)，请你统计最热门的10个查询串，要求使用的内存不能超过1G。典型的Top K算法，还是在这篇文章里头有所阐述，文中，给出的最终算法是：第一步、先对这批海量数据预处理，在O(N)的时间内用Hash表完成统计(之前写成了排序，特此订正。July、2011.04.27); 第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O(N) + N’*O(logK)，(N为1000万，N’为300万)。ok，更多，详情，请参考原文。或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10 个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。方案：顺序读文件中，对于每个词x，取hash(x)P00，然后按照该值存到5000 个小文件(记为x0，x1，…x4999)中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等)，并取出出现频率最大的100个词(可以用含100 个结点的最小堆)，并把

大数据试题答案与解析_最全

1、当前大数据技术的基础是由（ C）首先提出的。（单选题，本题2分） A：微软 B：百度 C：谷歌 D：阿里巴巴 2、大数据的起源是（C ）。（单选题，本题2分） A：金融 B：电信 C：互联网 D：公共管理 3、根据不同的业务需求来建立数据模型，抽取最有意义的向量，决定选取哪种方法的数据分析角色人员是（ C）。（单选题，本题2分） A：数据管理人员 B：数据分析员 C：研究科学家 D：软件开发工程师 4、（D ）反映数据的精细化程度，越细化的数据，价值越高。（单选题，本题2分） A：规模 B：活性 C：关联度 D：颗粒度 5、数据清洗的方法不包括（ D）。（单，本题2分）

A：缺失值处理 B：噪声数据清除 C：一致性检查 D：重复数据记录处理 6、智能健康手环的应用开发，体现了（ D）的数据采集技术的应用。（单选题，本题2分） A：统计报表 B：网络爬虫 C：API接口 D：传感器 7、下列关于数据重组的说法中，错误的是（ A）。（单选题，本题2分） A：数据重组是数据的重新生产和重新采集 B：数据重组能够使数据焕发新的光芒 C：数据重组实现的关键在于多源数据融合和数据集成 D：数据重组有利于实现新颖的数据模式创新 8、智慧城市的构建，不包含（ C）。（单选题，本题2分） A：数字城市 B：物联网 C：联网监控 D：云计算大数据的最显著特征是（ A）。（单选题，本题2分） A：数据规模大 B：数据类型多样

C：数据处理速度快 D：数据价值密度高 10、美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的（B ）。（单选题，本题2分） A：在数据基础上倾向于全体数据而不是抽样数据 B：在分析方法上更注重相关分析而不是因果分析 C：在分析效果上更追究效率而不是绝对精确 D：在数据规模上强调相对数据而不是绝对数据 11、下列关于舍恩伯格对大数据特点的说法中，错误的是（D ）。（单选题，本题2分） A：数据规模大 B：数据类型多样 C：数据处理速度快 D：数据价值密度高 12、当前社会中，最为突出的大数据环境是（A ）。（单选题，本题2分） A：互联网 B：物联网 C：综合国力 D：自然资源 13、在数据生命周期管理实践中，（ B）是（单选题，本题2分） A：数据存储和备份规 B：数据管理和维护 C：数据价值发觉和利用

数据分析笔试题全解

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题，从笔试题的几个要求我们一起来看看数据分析的职业要求。一、异常值是指什么？请列举1种识别连续型变量异常值的方法？异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’ test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度

招行-DW-BI-数据面试题及答案

DW/BI 数据库面试题一、基础题 1. 2.描述Tablespace和Datafile之间的关系. 3.描述日志的作用. 4. 5.

7. 8. 9.FACT Table上需要建立何种索引？二、SQL试题

1.有一张表T（F1，F2，F3，F4），要根据字段F2排序后取第8-16条记录显示，请写出SQL。 2.指出下面SQL语句的执行顺序： select a.column1 , COUNT(*) AS CountValue, SUM(b.column3) AS SumValue from TableAainnerjoinTableB b on a.column1 = b.column1 and a.column2 = 1 where b.column3 = 10 group by a.column1 having COUNT(*)> 10 order by a.column1 1. From 2. ON 3. INNER JOIN 4. WHERE 5. GROUP BY 6. having 7. SELECT8. ORDER BY 三、DW/BI 试题 1.描述ROLAP、MOLAP、HOLAP的区别与优势。

3.描述一下DW设计架构，及ETL设计方法。 4.描述你所熟悉的数据模型，如一些行业的模型，实际参与的设计及主题。财务数据模型，主要是凭证，会计科目，供应商，客户，等主事实表就是会计分录、凭证等。因为凭证有表头和表体。所以事实表由两个表组成，一个是存储表头一个是表体。会计科目、供应商、客户是作为单独维度表。其他维度作为辅助维度存储在在一张表中。

阿里数据分析笔试题

2016阿里巴巴数据分析师职位笔试题目阿里巴巴作为全球领先的小企业电子商务公司，招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的)，又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下：首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下： (1)从n个数据对象任意选择k 个对象作为初始聚类中心;

2016年数据分析面试常见问题

1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。或者如下阐述：算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理； 2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)24值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址； 3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址； 4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP； 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。典型的Top K算法，还是在这篇文章里头有所阐述，文中，给出的最终算法是：

第一步、先对这批海量数据预处理，在O（N）的时间内用Hash表完成统计（之前写成了排序，特此订正。July、2011.04.27）；第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O（N）+ N’*O（logK），（N为1000万，N’为300万）。ok，更多，详情，请参考原文。或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。方案：顺序读文件中，对于每个词x，取hash(x)P00，然后按照该值存到5000个小文件（记为x0,x1,…x4999）中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map 等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。 4、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个

数据分析期末试题及答案

数据分析期末试题及答案一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)的数据，试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解： 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系上图是以人均GDP(x1)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间没有呈线性关系。尝试多种模型后采用曲线估计，得出表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系

上图是以成人识字率(x2)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间基本呈正线性关系。上图是以疫苗接种率(x3)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间没有呈线性关系。 x）为横轴，地区平均寿命(y)为纵轴的散点图，上图是以疫苗接种率(x3)的三次方（3 3 由图可知，他们之间呈正线性关系所以可以采用如下的线性回归方法分析。

2.线性回归先用强行进入的方式建立如下线性方程设Y=β0+β1*（Xi1）+β2*Xi2+β3* X+εi i=1.2 (24) 3i 其中εi（i=1.2……22）相互独立，都服从正态分布N（0，σ^2）且假设其等于方差 R值为0.952，大于0.8，表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)一起表示出来。建立总体性的假设检验提出假设检验H0：β1=β2=β3=0，H1,：其中至少有一个非零得如下方差分析表上表是方差分析SAS输出结果。由表知，采用的是F分布，F=58.190，对应的检验概率P值是0.000.，小于显著性水平0.05，拒绝原假设，表示总体性假设检验通过了，平均寿命(y)与人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

21个必知数据科学面试题和答案

21个必知数据科学题和答案 2016-03-10分类：其他最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门，获得了一月的阅读量排行首位。但是这些问题并没有提供答案，所以KDnuggets的小编们聚在一起写出了这些问题的答案。我还加了一个特别提问——第21问，是20个问题里没有的。下面是答案。 Q1.解释什么是正则化，以及它为什么有用。回答者：Matthew Mayo 正则化是添加一个调优参数的过程模型来引导平滑以防止过拟合。(参加KDnuggets文章《过拟合》) 这通常是通过添加一个常数到现有的权向量。这个常数通常要么是L1(Lasso)要么是L2(ridge)，但实际上可以是任何标准。该模型的测算结果的下一步应该是将正则化训练集计算的损失函数的均值最小化。 Xavier Amatriain在这里向那些感兴趣的人清楚的展示了L1和L2正则化之间的比较。图1.Lp球:p的值减少,相应的L-p空间的大小也会减少。 Q2.你最崇拜哪些数据科学家和创业公司？回答者：Gregory Piatetsky 这个问题没有标准答案，下面是我个人最崇拜的12名数据科学家，排名不分先后。 Geoff Hinton, Yann LeCun, 和 Yoshua Bengio-因他们对神经网络的坚持不懈的研究，和开启了当前深度学习的革命。 Demis Hassabis，因他在DeepMind的杰出表现——在Atari游戏中实现了人或超人的表现和最近Go的表现。来自datakind的Jake Porway和芝加哥大学DSSG的Rayid Ghani因他们让数据科学对社会产生贡献。 DJ Patil，美国第一首席数据科学家，利用数据科学使美国政府工作效率更高。 Kirk D. Borne，因其在大众传媒中的影响力和领导力。

数据分析师面试常见的77个问题

数据分析师面试常见的77个问题 2013-09-28数据挖掘与数据分析随着大数据概念的火热，数据科学家这一职位应时而出，那么成为数据科学家要满足什么条件？或许我们可以从国外的数据科学家面试问题中得到一些参考，下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题，供各位同行参考。 1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。 2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？ 3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？ 4、什么是：协同过滤、n-grams, map reduce、余弦距离？ 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？ 6、如何设计一个解决抄袭的方案？ 7、如何检验一个个人支付账户都多个人使用？ 8、点击流数据应该是实时处理？为什么？哪部分应该实时处理？ 9、你认为哪个更好：是好的数据还是好模型？同时你是如何定义“好”？存在

所有情况下通用的模型吗？有你没有知道一些模型的定义并不是那么好？ 10、什么是概率合并（AKA模糊融合）？使用SQL处理还是其它语言方便？对于处理半结构化的数据你会选择使用哪种语言？ 11、你是如何处理缺少数据的？你推荐使用什么样的处理技术？ 12、你最喜欢的编程语言是什么？为什么？ 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是？ 15、什么是大数据的诅咒？ 16、你参与过数据库与数据模型的设计吗？ 17、你是否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？ 18、你喜欢TD数据库的什么特征？ 19、如何你打算发100万的营销活动邮件。你怎么去优化发送？你怎么优化反应率？能把这二个优化份开吗？ 20、如果有几个客户查询ORACLE数据库的效率很低。为什么？你做什么可以提高速度10倍以上，同时可以更好处理大数量输出？ 21、如何把非结构化的数据转换成结构化的数据？这是否真的有必要做这样的转换？把数据存成平面文本文件是否比存成关系数据库更好？ 22、什么是哈希表碰撞攻击？怎么避免？发生的频率是多少？ 23、如何判别mapreduce过程有好的负载均衡？什么是负载均衡？ 24、请举例说明mapreduce是如何工作的？在什么应用场景下工作的很好？云的安全问题有哪些？ 25、（在内存满足的情况下）你认为是100个小的哈希表好还是一个大的哈希表，对于内在或者运行速度来说？对于数据库分析的评价？ 26、为什么朴素贝叶斯差？你如何使用朴素贝叶斯来改进爬虫检验算法？ 27、你处理过白名单吗？主要的规则？（在欺诈或者爬行检验的情况下） 28、什么是星型模型？什么是查询表？

数据分析岗面试题

数据分析岗面试题 It was last revised on January 2, 2021

数据分析岗面试题1、表：table1(Id,class,score),用最高效最简单的SQL列出各班成绩最高的列表，显示班级，成绩两个字段。 2、有一个表table1有两个字段FID，Fno，字都非空，写一个SQL语句列出该表中一个FID对应多个不同的Fno的纪录。 Fid Fno 101 a1001 101 a1001 102 a1002 102 a1003 103 a1004 104 a1005 104 a1006 105 a1007 105 a1007 105 a1007 3、有员工表empinfo ( Fempno varchar2(10) not null pk, Fempname varchar2(20) not null, Fage number not null, Fsalary number not null ); 假如数据量很大约1000万条；写一个你认为最高效的SQL，用一个SQL计算以下四种人： fsalary>9999 and fage > 35 fsalary>9999 and fage < 35 fsalary <9999 and fage > 35 fsalary <9999 and fage < 35 每种员工的数量； 4、 Sheet1: sheet2： Sheet1、sheet2是Excel中两个表，sheet2中记录了各产品类别下面对应的产品编码，现要在sheet1 C列中对应A列产品编码所对应的产品类别，请写出公式。

毕业生笔试题：阿里巴巴数据分析笔试题

《毕业生：阿里巴巴数据分析师笔试题》最近，网上放出了IT大佬们的一些考题出来，让人竞相争看，倒地这些大牛公司的择贤条件是如何的呢？大圣众包（https://www.360docs.net/doc/b912851365.html,）威客平台从网上整理了阿里巴巴招募数据分析师实习生的一道笔试题，让大家提前试试水。答案在最后，可不要提前偷看哦。 ———————————————问题分割线——————————————— 一、异常值是指什么？请列举1种识别连续型变量异常值的方法？二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。三、根据要求写出SQL 表A结构如下： Member_ID（用户的ID，字符型） Log_time（用户访问页面时间，日期型（只有一天的数据）） URL（访问的页面地址，字符型）

要求：提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）四、销售数据分析根据某一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，如果你是这家公司的分析师， a)从数据中，你看到了什么问题？你觉得背后的原因是什么？ b)如果你的老板要求你提出一个运营改进计划，你会怎么做？五、用户调研某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题： a)试验需要为决策提供什么样的信息？ b)按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

———————————————答案分割线——————————————— 一、异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test（是以FrankE.Grubbs命名的），又叫maximumnormedresidualtest，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。【点评】考察的内容是统计学基础功底。二、聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。聚类分析也叫分类分析（classificationanalysis）或数值分类（numericaltaxonomy）。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchicalmethod）、划分方法（partitioningmethod）、基于密度的方法（density-basedmethod）、基于网格的方法（grid-basedmethod）、基于模型的方法（model-basedmethod）等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后

数据分析岗面试题

数据分析岗面试题-标准化文件发布号：（9556-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据分析岗面试题 1、表：table1(Id,class,score),用最高效最简单的SQL列出各班成绩最高的列表，显示班级，成绩两个字段。 2、有一个表table1有两个字段FID，Fno，字都非空，写一个SQL语句列出 Fno的纪录。 3、有员工表empinfo 4、( 5、Fempno varchar2(10) not null pk, 6、Fempname varchar2(20) not null, 7、Fage number not null, 8、Fsalary number not null 9、); 10、假如数据量很大约1000万条；写一个你认为最高效的SQL，用一个SQL 计算以下四种人： 11、fsalary>9999 and fage > 35 12、fsalary>9999 and fage < 35 13、fsalary <9999 and fage > 35 14、fsalary <9999 and fage < 35 15、每种员工的数量； 4、

Sheet1: sheet2： Sheet1、sheet2是Excel中两个表，sheet2中记录了各产品类别下面对应的产品编码，现要在sheet1 C列中对应A列产品编码所对应的产品类别，请写出公式。 5、某商品零售公司有100万客户资料数据（客户数据信息包括客户姓名、电话、地址、购买次数、购买时间、购买金额、购买产品种类等等），现要从中抽取10万客户，对这些客户发送目录手册，为了能使这批手册产生的利润最大，从已有的客户数据信息，我们应该如何挑选这10万个客户？

大数据面试题剖析讲课稿

单项选择题 1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的 block 默认保存几份? a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与 NameNode 在一个节点启动? a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker

4. Hadoop 作者 a)Martin Fowler b)Kent Beck c)Doug cutting 5. HDFS 默认 Block Size a)32MB b)64MB c)128MB 6. 下列哪项通常是集群的最主要瓶颈 a)CPU b)网络 c)磁盘 d)内存 7. 关于 SecondaryNameNode 哪项是正确的? a)它是 NameNode 的热备 b)它对内存没有要求

c)它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间 d)SecondaryNameNode 应与 NameNode 部署到一个节点多选题 8. 下列哪项可以作为集群的管理工具 a)Puppet b)Pdsh c)Cloudera Manager d)d)Zookeeper 9. 配置机架感知的下面哪项正确 a)如果一个机架出问题，不会影响数据读写 b)写入数据的时候会写到不同机架的 DataNode 中 c)MapReduce 会根据机架获取离自己比较近的网络数据 10. Client 端上传文件的时候下列哪项正确 a)数据经过 NameNode 传递给 DataNode b)Client 端将文件切分为 Block，依次上传

SQL数据库对于海量数据面试题及答案

本文整理和大家分享一些SQL数据库对于海量数据面试题及答案给大家，很不错哦，喜欢请收藏一下。 1. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a，对每个url求取，然后根据所取得的值将url分别存储到1000个小文件（记为）中。这样每个小文件的大约为300M。 s 遍历文件b，采取和a相同的方式将url分别存储到1000各小文件（记为）。这样处理后，所有可能相同的url都在对应的小文件（）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。 s 求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。 2. 有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query 都可能重复。要求你按照query的频度排序。方案1： s 顺序读取10个文件，按照hash(query)%10的结果将query写入到另外10个文件（记为）中。这样新生成的文件每个的大小大约也1G（假设hash函数是随机的）。 s 找一台内存在2G左右的机器，依次对用hash_map(query, query_count)来统计每个query 出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件（记为）。 s 对这10个文件进行归并排序（内排序与外排序相结合）。方案2：一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。

数据分析专员笔试题

XXX公司数据分析专员笔试试题姓名：日期：一、异常值是指什么？请列举1种识别连续型变量异常值的方法？异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’ test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下：（1）从 n个数据对象任意选择 k 个对象作为初始聚类中心；（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；（3）重新计算每个（有变化）聚类的均值（中心对象）；（4）循环（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为 O(NKt)，其中N是数据对象的数目，t是迭代的次数。一般来说，K<

数据分析岗位笔试题目总结

阿里巴巴 1、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值. 常见的异常值检验方法如下： ●基于统计的方法 ●基于距离的方法 ●基于密度的方法 ●基于聚类的方法 ●基于偏差的方法 ●基于深度的方法 t检验：按照t分布的实际误差分布范围来判别异常值，首先剔除一个可疑值，然后按t分布来检验剔除的值是否为异常值。狄克逊检验法：假设一组数据有序x1

指数分布检验： SPSS和R语言中通过绘制箱图可以找到异常值，分布在箱边框外部； 2、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中，前两种算法是利用统计学定义的距离进行度量。常见的聚类方法有：K-pototypes算法，K-Means算法，CLARANS算法（划分方法），BIRCH算法（层次方法），CURE算法（层次方法），DBSCAN算法（基于密度的方法），CLIQUE算法（综合了基于密度和基于网格的算法）； k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下： (1)从 n个数据对象任意选择 k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

数据结构面试题(含答案)

1.栈和队列的共同特点是（只允许在端点处插入和删除元素） 4.栈通常采用的两种存储结构是（线性存储结构和链表存储结构） 5.下列关于栈的叙述正确的是（D） A.栈是非线性结构 B.栈是一种树状结构 C.栈具有先进先出的特征 D.栈有后进先出的特征 6.链表不具有的特点是（B） A.不必事先估计存储空间 B.可随机访问任一元素 C.插入删除不需要移动元素 D.所需空间与线性表xxxx 7.用链表表示线性表的优点是（便于插入和删除操作） 8.在单链表中，增加头结点的目的是（方便运算的实现） 9.循环链表的主要优点是（从表中任一结点出发都能访问到整个链表）1 0."线性表L＝（a1,a2,a3,……ai,……an），下列说法正确的是（D） A.每个元素都有一个直接前件和直接后件 B.线性表中至少要有一个元素 C.表中诸元素的排列顺序必须是由小到大或由大到小

D.除第一个和最后一个元素外，其余每个元素都有一个且只有一个直接前件和直接后件 1 1."线性表若采用链式存储结构时，要求内存中可用存储单元的地址（D） A.必须是连续的 B.部分地址必须是连续的 C.一定是不连续的 D.连续不连续都可以 12."线性表的顺序存储结构和线性表的链式存储结构分别是（随机存取的存储结构、顺序存取的存储结构） 1 3."树是结点的集合，它的根结点数目是（有且只有1） 1 4."在深度为5的满二叉树中，叶子结点的个数为（31） 1 5."具有3个结点的二叉树有（5种形态） 1 6."设一棵二叉树中有3个叶子结点，有8个度为1的结点，则该二叉树中总的结点数为（13） 1

7."已知二叉树后序遍历序列是dabec，中序遍历序列是debac，它的前序遍历序列是（cedba） 1 8."已知一棵二叉树前序遍历和中序遍历分别为ABDEGCFH和DBGEACHF，则该二叉树的后序遍历为（DGEBHFCA） 1 9."若某二叉树的前序遍历访问顺序是abdgcefh，中序遍历访问顺序是dgbaechf，则其后序遍历的结点访问顺序是（gdbehfca） 2 0."数据库保护分为：安全性控制、完整性控制、并发性控制和数据的恢复。 1.在计算机中，算法是指（解题方案的准确而完整的描述） 2.在下列选项中，哪个不是一个算法一般应该具有的基本特征（无穷性）说明：算法的四个基本特征是：可行性、确定性、有穷性和拥有足够的情报。 3.算法一般都可以用哪几种控制结构组合而成（顺序、选择、循环） 4.算法的时间复杂度是指（算法执行过程中所需要的基本运算次数） 5.算法的空间复杂度是指（执行过程中所需要的存储空间） 6.算法分析的目的是（分析算法的效率以求改进） 7.下列叙述正确的是（C） A．算法的执行效率与数据的存储结构无关