阿里巴巴2015实习生笔试题数据分析师(回忆版)

选择题：

1、R=0表示什么

2、聚类分析概念k_means

3、排列组合

4、回归逻辑概念判断

5、小学奥数松鼠搬松果

松鼠搬松子回家，离家100米，共100颗，每次最多搬50颗，每走2米吃一颗松子，最多能搬回家多少颗？

A.0

B.10

C.25

D.50

6、RECALL ROE precision

7、众数中位数平均数概念，公司员工工资平均数3000，众数2000，中位数2500,下列哪个说法错误：

A很多人工资是2500B有一部分高工资拉高了平均数C至少一般人工资高于2500D

8、HIVE

9、置信区间概念

.其他条件相同，置信水平越低，则置信区间上下限差值越()

A.越大

B.越小

C.为0 D不确定

解答题

1、条件概率

普通人患艾滋病的概率是1/100000，有一种药剂可以检测患艾滋病，如果患艾滋病检测出的概率是100%，如果没得艾滋病误诊的概率是1%，一个人被诊断出有艾滋病，请问他确实患有艾滋病的概率是多少？

2、SQL

表一：USD-ID, CITY(字段)，出生年月（字段）

表二：usd-id,yyyymmdd数值型，GVG

表一表二usd-id都是主键

要求建立表三，用USD-ID连接，要求选出广州，深圳，年龄大于16岁，并利用表二的GVG 求和，要求2013年11月的购物额

3、层次分析法(AHP)是什么，步骤是什么？举一个使用的情景和例子

分析题：

1、淘宝上有很多小众但是很有品位的店，作为数据分析师，你要筛选出来并推广，请问该怎么筛选？

2、双十一商家推出很多优惠券，比如200减50,300减100，领取时间10.15-11.10，使用时间11.11，请设计指标并列出可能数据表现，分别对平台和商家提出计划。

阿里数据分析笔试题

2016阿里巴巴数据分析师职位笔试题目阿里巴巴作为全球领先的小企业电子商务公司，招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的)，又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下：首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下： (1)从n个数据对象任意选择k 个对象作为初始聚类中心;

阿里巴巴校园招聘笔试试题研发工程师

第一部分单选题（前10题，每题2分；后10题，每题3分，共50分。选对得满分，选错倒扣1分，不选得0分） 1．12345*12345 1105266261所采用的是多少进制的计算？（） A、2进制 B、8进制 C、10进制 D、16进制 2. 关于HTTP协议的说明，一下哪项是错误的？（） A、在CS模式下，作为一种request-response协议 B、无状态，对每一个请求看成独立的 C、HTTP是WWW和Email使用的协议 D、HTTP响应包括数字状态码，404经常代表“PageNot Found” 3. 以下程序输出结果是哪个？（） char msg[] = “AAAA”; strcpy(msg, “BBB”); strcpy(msg, “CC”); strcpy(msg, “D”); printf(“%s”,msg); A、DCBA B、ABCD C、D D、A 4．使用gcc默认对齐规则的情况下，下列两个数据结构的sizeof各是多少？（）struct FirstStruct{ char a; uint64_t b; uint32_t c; uint32_t d; }; struct SecondStruct{ char a; uint32_t b; uint32_t c; }; A、17,13 B、24,16 C、24,24 D、32,16 5. 关于内联函数，以下哪项叙述是错误的？（） A、递归函数不能定义为内联函数 B、内联函数只能先定义后使用 C、任何源文件，使用内联函数必须包含函数定义 D、Main函数可以内联 6. 执行IO时，直接调用内核异步API，内核完成IO操作后再回调用户，这种IO模式是什么？（） A、BIO B、NIO C、AIO D、FIO

阿里巴巴笔试题+解析(完整)

阿里巴巴面试题 1、 20个阿里巴巴B2B技术部的员工被安排为4排，每排5个人，我们任意选其中4人送给他们一人一本《effective c++》，那么我们选出的4人都在不同排的概率为： A、 5^4*5!*15!/20! B、 4^5*5!*15!/20! C、 5^4*4!*16!/20! D、 4^5*4!*16!/20! 2、若有序表的关键字序列为（b,c,d,e,f,g,q,r,s,t），则在二分查找关键字b的过程中，先后进行的关键字依次为： A、f,c,b B、f,d,b C、g,c,b D、g,d,b 3、 perl里面声明：open（FILE,mode，file）; 操作的描述，下列哪项不正确？ A、 FILE可以用变量$file来代替 B、 mode可以和file写在一起，例如：open（FILE, ‘>file’） C、 mode为+<的时候，只可以读文件，不能写文件（既可以读也可以写） D、 mode可以省略不写 4、有一个虚拟存储系统，若进程在内存中占3页（开始时内存为空），若采用先进先出（FIFO）页面淘汰算法，当执行如下访问页号序列后1，2，3，4，5,1，2，5，1，2，3，4，5，会发生多少缺页？ A、7 B、8 C、9 D、10 5、设有一个顺序栈S，元素s1、s2、s3、s4、s5、s6依次进栈，如果6个元素的出栈顺序为s2、s3、s4、s 6、s5、s1，则顺序栈的容量至少应为多少？ A、2 B、3 C、4 D、5 6、下列关于文件索引结构的叙述中，哪一个是错误的？ A、采用索引结构，逻辑上连续的文件存放在连续的物理块中 B、系统为每个文件建立一张索引表 C、索引结构的优点是访问速度快，文件长度可以动态变化 D、索引结构的缺点是存储开销大 7、在ASC算法team日常开发中，常常面临一些数据结构的抉择，令人纠结。目前大家在策划一个FBI项目（Fast Binary Indexing），其中用到的词汇有6200条，词汇长度在10-15之间，词汇字符是英文字母，区分大小写。请在下面几个数据结构中选择一个使检索速度最快的： A、二叉搜索树，比较函数开销：1次运算/每字符 B、哈希表，hash算法开销：10次运算/每字符 C、链表，比较函数开销：1次运算/每字符 D、 TRIE树，寻找子节点开销：1次运算/每字符 8、【0、2、1、4、3、9、5、8、6、7】是以数组形式存储的最小堆，删除堆顶元素0后的结果是（） A、【2、1、4、3、9、5、8、6、7】 B、【1、2、5、4、3、9、8、6、7】

数据分析笔试题

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题，从笔试题的几个要求我们一起来看看数据分析的职业要求。一、异常值是指什么？请列举1种识别连续型变量异常值的方法？异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。k-means 算法的工作过程说明如下：首先从n个数据对象任意选择k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下：（1）从n个数据对象任意选择k 个对象作为初始聚类中心；（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；（3）重新计算每个（有变化）聚类的均值（中心对象）；（4）循环（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O(NKt)，其中N是数据对象的数目，t是迭代的次数。一般来说，K<

百一测评——2015年阿里巴巴校园招聘在线笔试题目

职业技能题库&在线云笔试平台https://www.360docs.net/doc/a66259412.html, 试卷名称：2015年阿里巴巴校园招聘在线笔试题目试卷描述：在线考试、招聘笔试、微信考试试卷链接：https://www.360docs.net/doc/a66259412.html,/paperDetail?paperId=40473 试卷限时：50分钟一.不定项项选择题每题分值：5分是否题目乱序：是是否选项乱序：是是否可回溯：是难度：中 1.[不定项]通过算法生成的随机数是“伪随机”的，也就是说，在设定好第一个数之后，后面的数字的序列是确定的，并且经过一个非常大的循环会回到第一个数的状态，然后周而复始。显然，摇号、抽奖的程序是不能通过伪随机数来实现的。现实中常常基于某种热噪声来实现真正的随机数。假定某热噪声是标准正态分布，那么能否将它转换成(0,1)区间上的均匀分布______? A. 忽略测量和计算误差，可以转换为(0,1)区间上的均匀分布。 B. 无法转换为(0,1)区间上的均匀分布。 C. 信息不足，无法判断。 D. 借助伪随机数生成算法可以转换为(0,1)区间上的均匀分布。 E. 仅仅靠伪随机数生成算法，就可以生成(0,1)区间上的均匀分布 F. 以上说法都不对。

职业技能题库&在线云笔试平台https://www.360docs.net/doc/a66259412.html, 答案：A 2.[不定项]在一个童话世界里，任意两个人之间要么是朋友关系，要么是敌人关系，不存在其他关系及没有关系的情况。并且，如果A和B是朋友关系，B和C是朋友关系，那么A 和C必然是朋友关系。那么关于这个童话世界中的人群的说法错误的是：______? A. 可能只有1个人群，这个人群内部是朋友关系。 B. 可能有2个人群，人群内部是朋友关系，人群之间是敌人关系。 C. 可能有3个及以上个人群，人群内部是朋友关系，人群之间是敌人关系。 D. 如果存在多个人群，并且人群内部是朋友关系，人群之间是敌人关系，那么这些人群必然是差不多大小的。 E. 选项B中的情况可以是其中一个人群只有一个人，另外一个人群可以由很多人。 F. 这样一个世界里朋友关系是比较不容易发生变化的。答案：D 3.[不定项]12321能被写成______种两个质数相加的形式。 A. 0 B. 1 C. 2 D. 3 E. 4 F. 5 答案：A 4.[不定项]在小端序的机器中，如果

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案导读：探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验，欢迎参考阅读。 1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计，然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中，找出那个频率最大的IP，即为所求。或者如下阐述：算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)24值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址; 3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。)，请你统计最热门的10个查询串，要求使用的内存不能超过1G。典型的Top K算法，还是在这篇文章里头有所阐述，文中，给出的最终算法是：第一步、先对这批海量数据预处理，在O(N)的时间内用Hash表完成统计(之前写成了排序，特此订正。July、2011.04.27); 第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O(N) + N’*O(logK)，(N为1000万，N’为300万)。ok，更多，详情，请参考原文。或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10 个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。方案：顺序读文件中，对于每个词x，取hash(x)P00，然后按照该值存到5000 个小文件(记为x0，x1，…x4999)中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等)，并取出出现频率最大的100个词(可以用含100 个结点的最小堆)，并把

2020阿里巴巴校园招聘阿里云C++笔试试题

阿里云C++ 1、（2分）1）请列出两个线程（或进程）死锁的三个必要条件 2）当异常（Exception）发生的时候，智能指针（SmartPointer）的析构函数是被谁调用的？ 3)一般的台式机硬盘一次随机读写大约需要多少毫秒（0.1ms、1ms、10ms、100ms）？ 4）除了应用程序的系统调用之外，LinuxKernel中的代码在什么情况下还有机会运行？ 2、（1分）求下面函数的返回值。输入x的值为2012。 int func(int x) { int countx=0; while(x) { ++countx; x=x&(x-1); } return countx; } 3、（1分）一进程在执行时，如果按下列页号访问：1、2、3、 4、2、1、 5、 6、2、1、2、3、 7、6、3。进程占用4页物理内存，采用FIFO淘汰算法和LRU淘汰算法时，各产生多少次缺页中断？分别写出使用两种方法时，依次被淘汰的页面号以及最后内存空间中剩余的页面。 4、（1分）写出下列程序的输出结果： #include using name space std; int main() { char *a=”Aliyun”; char **b=&a; *b=”programming test”; char *c=++a; a=”talents.”; return printf(“%c\n,*++c); } 5、（1分）连接A、B两地的公路长240km，现各有一列汽车分别从两地出发相向而行，各自保持匀速50km/h和30km/h。有一鸟儿也和A地的汽车一起从A地出发，以65km/h的速度沿公路朝B地飞行；当它遇到B地的汽车的时候，折返往A飞；再遇到A地汽车的时候，折返往B飞；如此往返。请问当A、B两地出发的汽车相遇的时候，鸟儿飞行了多少km？ 6、（1分）一个骰子有6个面，分别是1个1、2个2、3个3。请问平均需要抛多少次骰子才能使1、2、3这三面都至少出现一次。

阿里巴巴笔试题答案

第一题选C，不解释吧，按位与就行第二题选D，不解释，2*3*sizeof(int*)=48（64位机器上是8字节一个指针）第三题选C，我不确定，不过，应该是的第四题选D，明显考的是补码第5题选D，果断访问错误（这是Java的代码）第6题选B，大家都懂第7题果断A啊第8题果断是B，不解释，大家懂第9题是B，’0’不是’\0’，这个要注意第10题果断是Fibonacci，显然是C，前几个是0，1，2，3，5，8，13，21 第11题选B，计算量是2^35，现在计算机的主频是2^30，所以差不多是几秒的事第12题是B，显然有n=4N1+3N3+2N2+N1+1=N4+n3+n2+n1，所以N0=82，不解释第13题果断是D，这个老题目了，不解释第14题是C，二分查找嘛，大家都会，不解释第15题是Fulkerson算法，算出来是46，每一次选一个增广路径即可，直接选不出来为止第16题选185，显然，它给了120块钱(楼主二了)和一个物品（值65元），所以亏损185 这个题目楼主是这样想的，结果二了第17题是2，不解释Fermart小定理，2^6 mod 7= 1，所以2^100=2^4=16=2 mod 7 第18题，我觉得是B，不知道对不对，这个不会第19题，算得不太精细，选了A，不确定。第20题C，概率与级数运算，不解释第21题，果断B，D，malloc，new申请到的是Virtual Memory，不过，windows里面还真可以申请到物理内存，用的是VirtualAllocEx API即可

第22题B,C肯定对，D不确定，感觉是对的，不过，没敢选第23题，其实就是解n^14<10^16，解出n<= 13，所以选14，15（我是推出n<10^(8/7)然后算出n<=13 第24题，D，因为选出第一个是白的，所以位于A的概率是2/3 第25，不可能，需要2.8*10^8 bit，而蓝牙只能传2.4*10^7bit所以一帧需要0.2S 第26题(mnlogn)不解释，归并而已第27题显然是17分钟第28，错两个地方1，没考虑只有一个数，2，可能死循环（给你数组0，2，3让查找1）楼主两个都想到了，写的时候忘记了写1，悲剧第29题，果断SkipList，地球人懂的O(PLogpN)

2014年阿里巴巴数据分析师笔试题

2014年3月29日阿里巴巴数据分析师（北京）一、10道填空，每题3分 1、小松鼠采到了100颗坚果要运回家。家离放坚果的地方有100米远。小松鼠每次最多运50颗。BUT！小松鼠很馋。。。每走2米就要吃一颗坚果。。。问小松鼠最多能运回家多少颗坚果？ A 0 B 10 C 25 D50 答案：应该是25颗吧！（先运50颗50米，吃了25颗，返回去，回去的途中没吃的了，再运50颗到50米的地方，又吃了25颗，再把剩下的运回家，又吃25颗，还剩25颗。）吐槽一下，题目应该说明：小松鼠足够聪明，至少比参加考试的人聪明。。。 2、标号12345的5个球，一次取两个，和为3或者6的概率是多少？答案：0.3。不解释。 3、考了LOGISTIC回归。 4、聚类分析法，k_means。 5、其他条件相同，置信水平越低，则置信区间上下限差值越() A.越大 B.越小 C.为0 D不确定应该是B吧。 6、precision、ecall、ROC。剩下的不记得了。二、三道题，每题10分。 1、已知每10万人中有1人得艾滋病。现在有一种检查，如果被测者患病则一定能查出来。如果被测者没病，有1%的测试出错也显示阳性。现在一个人检查结果是阳性。问真正得病的概率？答案：貌似所有的讲全概率公式的书上都有这道题。 2、SQL 两张表合并，主键是USER_ID，然后把深圳市、广州市，大于16岁的，发生在2013年12月的一项挑出来加起来。不会SQL的话就写思路。我就不会。。。。。。 3、层次分析法AHP的含义，具体步骤。并举一个适合用层次分析法的案例。三、两道题，每题20分。 1、淘宝上有一些小众但是品位高的店铺，怎么把他们筛选出来捏？ 2、双十一的时候，商家会发优惠券，从商家和平台两个角度设计评价指标，并分析指标不同结果应该对应怎样的措施。资料：优惠券分两种：满200减50，满300减100. 发放日期：10月15-11月10 使用日期：11月11 希望对大家有所帮助！

2015校招-阿里巴巴在线笔试题目

1、某团队有 2/5的人会写Java程序，有3/4的人会写C++程序，这个团队里同时会写Java和C++的最少有______人。 3 4 5 8 15 20 2、下列结构中，______必须随机存取实现。栈队列数组单链表二叉树堆 3、在一个单链表中，q的前一个节点为p，删除q所指向节点，则执行______。delete q; q->next=p->next;delete p; p->next=q->next;delete p; p->next=q->next;delete q; delete p; q->next=p->next;delete q 4、带头结点的单链表head为空的判定条件是：______。 head==NULL head->next==NULL head->next==head head!=NULL *head==NULL *(head->next)==NULL 5、甲乙两路发车间隔均为10分钟的公交车发车时刻分钟数个位分别为1和9，那么对于一个随机到达的乘客，ta乘坐甲车的概率为： 0.1 0.2 0.3 0.4 0.5 0.9 6、硬币游戏：连续扔硬币，直到某一人获胜。A获胜条件是先正后反，B获胜是出现连续两次反面，问AB游戏时A获胜概率是______。 1/6 1/4

1/2 2/3 3/4 7、棋盘上共有2020个格子，从1开始顺序编号。棋子初始放在第1格，通过扔骰子决定前进格子数，扔出x点就前进x格。骰子有6面，分别对应1至6；质量均匀。当棋子到达2014或超过2014，游戏结束。那么，棋子刚好到达2014的概率与______最接近。 2/3 1/2 1/3 2/7 1/6 1/7 8、“秘密”是一款在朋友圈内匿名交流的SNS平台。假定每个人只能看到朋友发的帖子，却不知道具体是谁发的；并且朋友关系是对称的，即如果A是B的朋友，那么B也是A的朋友。某好事者希望知道一篇帖子具体是谁发的，他通过找几个好友看看他们是否是这个帖子楼主的朋友，从而求“交集”，推断楼主是谁。朋友圈是指彼此互为朋友的人群。什么样的楼主容易被发现真实身份？朋友很多的楼主。朋友很少的楼主。发负能量帖子的楼主。有很多个小朋友圈的楼主。发正能量帖子的楼主。只有一个大朋友圈的楼主。 9、H同学每天乘公交上学，早上睡过头或遇到堵车都会迟到；H早上睡过头概率为0.2，路上遇到堵车概率为0.5；若某天早上H迟到了，那么以下推测正确的有______。今天H早上睡过头了今天H早上睡过头的概率为0.2 今天H早上睡过头的概率大于0.2 今天H早上遇到堵车了今天H早上遇到堵车的概率为0.5 今天H早上遇到堵车的概率小于0.5 10、一个合法的表达式由()包围，()可以嵌套和连接，如(())()也是合法表达式；现在有6对()，它们可以组成的合法表达式的个数为______。 15 30 64 132 256 360 11、下列结构中，______必须随机存取实现栈队列

毕业生笔试题：阿里巴巴数据分析笔试题

《毕业生：阿里巴巴数据分析师笔试题》最近，网上放出了IT大佬们的一些考题出来，让人竞相争看，倒地这些大牛公司的择贤条件是如何的呢？大圣众包（https://www.360docs.net/doc/a66259412.html,）威客平台从网上整理了阿里巴巴招募数据分析师实习生的一道笔试题，让大家提前试试水。答案在最后，可不要提前偷看哦。 ———————————————问题分割线——————————————— 一、异常值是指什么？请列举1种识别连续型变量异常值的方法？二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。三、根据要求写出SQL 表A结构如下： Member_ID（用户的ID，字符型） Log_time（用户访问页面时间，日期型（只有一天的数据）） URL（访问的页面地址，字符型）

要求：提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）四、销售数据分析根据某一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，如果你是这家公司的分析师， a)从数据中，你看到了什么问题？你觉得背后的原因是什么？ b)如果你的老板要求你提出一个运营改进计划，你会怎么做？五、用户调研某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题： a)试验需要为决策提供什么样的信息？ b)按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

———————————————答案分割线——————————————— 一、异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test（是以FrankE.Grubbs命名的），又叫maximumnormedresidualtest，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。【点评】考察的内容是统计学基础功底。二、聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。聚类分析也叫分类分析（classificationanalysis）或数值分类（numericaltaxonomy）。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchicalmethod）、划分方法（partitioningmethod）、基于密度的方法（density-basedmethod）、基于网格的方法（grid-basedmethod）、基于模型的方法（model-basedmethod）等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后

阿里巴巴校园招聘阿里云笔试试题题目

1.有一个文件：c:/c.txt,写java程序把该文件内容复制两遍，追加到c:/c.txt; 2.写正则表达式1.邮箱2.数字 3.HashMap 改变map类对用户会不会有影响？ 4.Linux中需查看所有的java进程，用什么命令 ps -ef|grep java 5.Ajax请求的整个流程 AJAX 在浏览器与Web 服务器之间使用异步数据传输（HTTP 请求），这样就可使网页从服务器请求少量的信息，而不是整个页面。 open()：建立到服务器的新请求。 send()：向服务器发送请求。 abort()：退出当前请求。 readyState：提供当前 HTML 的就绪状态。 responseText：服务器返回的请求响应文本。 6.写一个类实现线程同步的单例设计模式 7.一个包含4块硬盘的服务器一年中至少有一块硬盘出故障的概率是99.99%，每块硬盘任意时刻出故障的概率服从相同的分布规律，并且彼此独立，问12块硬盘的服务器一季度内至少有一个硬盘出故障的概率是多少。 8.有一个size1000的ector,删除其中的第5，6，7号元素，要求效率高（C） 9.数列L中有n个整数，其中K个数字出现了两次，1个数字出现了一次，所以n=2k+1；请在使用O（1）空间的前提下，尽快找出只出现一次的那个数字，并说明算法的复杂度。用异或，时间复杂度O(n) 10.有一个文件，存在40亿个不重复的整数（0~4294967295），可用内存只有256M，32比特的整数有4294967295（约42.9亿）种取值可能，如何找出不存在的294967295（约 2.9亿）个数扫描结果数据可存放到文件中，不占用内存分段载入内存，排序，输出，一共要扫描文件2^32/（256*2^20/32）=512遍 BITMAP分16次处理建42.9bits的文件,按200m一段映射,先遍历40亿个数,检查n/有8字节位置是否在当前映射区,否则换映射位置,然后标记。然后读 2.9亿检查,都一个道理,建在共享内存里的bitmap 而已。位图算法，用含有1千万个位的字符串来表示这个文件，文件中有的数据则标识为1，没有则标识为0，最后从第一位读至最后一位，即为有序的集合。这种算法充分利用了题目中给的条件，但也仅仅适合本题目，(不会有重复的数字，同时不与其余的数进行关联)

阿里巴巴 2015校园招聘笔试试题——产品经理岗

2015年阿里巴巴校招产品经理笔试题目【业务性产品经理（商业领域）笔试题】（开放题，每人选做其中五道即可） 1.如果让你作天猫、淘宝7月某类目销量分析，你会怎么做？现在大家都在讲O2O，清谈一下你对O2O的理解以及对客户的价值所在，并且以商家的角度，描述一下你观察到的他们的核心痛点有哪些？ 2.如果你手上的资源短期只能解决一个痛点的话，你会怎么来选择？为什么？后期的优先级是怎么排列的？ 3.如果让你设计一款相册APP，代替系统自带的相册功能，你会怎么设计，列举主要功能（先分析原生相册的不足，用户需求痛点，然后描述下界面设计，并说明为什么用户要使用你的产品） 4.如何验证一个产品优化方案是否有效选择旅游、商品、理财、食品、体育其中一类，设计一个你觉得有需求且目前没有得到较好满足的功能，可以是一款小而美的产品，也可以是承载在某一款产品上的功能你最喜欢的互联网公司，其都有哪些优缺点，如何改进？ 5.最近扶梯安全事故频发，你是扶梯公司ceo，你怎么改善产品，怎么运营，怎么利润最大化？设计一个果汁饮料，竞品有哪些，如何进行竞品分析？如何检测o2o 线下服务质量？ 6.设计一个B2C营销盛典的页面，包括H5游戏。写出主要设计思路。分析淘宝中的 “淘抢购”频道的用户群体，用户需求，用户使用特性等等要设计一款果汁饮料，做竞品分析。写出主要的竞争对手有哪些，并说明主要思路规划一款预订理发的

APP假如您现在需要为一家企业做一款社交软件，请描述一个完整的产品规划到实施的过程包括哪些部分。 7.如果我是一个风投，现在要给你一笔费用和一个团队。请设计一个针对南美市场的跨境电商产品。请说明你需要多少费用和什么样的团队，将在一年内将这个产品做到什么样，达成什么目标？ 8.假设美国亚马逊网站7-8月的网站访客流量比6月下降了10%，如果你是亚马逊网站的流量分析产品经理，请解释分析下这个现象。 9.如果你是上门服务O2O的产品经理你将通过何种方式保证上门服务的质量现在大型超市食品类柜台经常有试吃活动请谈谈顾客是怎样的消费心理，这对用户的购买率是否有影响？为什么？ 10.如果有一位没用任何营销技能，甚至不能说话的销售员，你是否愿意让他/她去试吃柜台为用户服务，这对用户的购买率是否有影响？为什么？ 11.淘宝目前的哪个业务你觉得最受人吐槽，为什么以及如果做好了会怎么样。为老人设计打车软件你熟悉的社交软件相较于其他社交软件的优劣势对天猫淘宝7月份某类目商品销量进行分析。 12.说出你喜欢的获取互联网资讯的途径，比如app，微信微博等，并分析其核心竞争力你自己是否有产品的经历？如果有，需求是如何发现的？解决了什么问题？假如你是一个村支书，村里目前修路需要占用一部分土地，部门村民对被占用土地的赔偿金额感到不满，鼓动了一批民众到工地闹事，已经演变成聚众事件，你将如何解决？【阿里巴巴校招运营专员笔试题】

数据分析师面试常见的77个问题

数据分析师面试常见的77个问题 2013-09-28数据挖掘与数据分析随着大数据概念的火热，数据科学家这一职位应时而出，那么成为数据科学家要满足什么条件？或许我们可以从国外的数据科学家面试问题中得到一些参考，下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题，供各位同行参考。 1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。 2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？ 3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？ 4、什么是：协同过滤、n-grams, map reduce、余弦距离？ 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？ 6、如何设计一个解决抄袭的方案？ 7、如何检验一个个人支付账户都多个人使用？ 8、点击流数据应该是实时处理？为什么？哪部分应该实时处理？ 9、你认为哪个更好：是好的数据还是好模型？同时你是如何定义“好”？存在

所有情况下通用的模型吗？有你没有知道一些模型的定义并不是那么好？ 10、什么是概率合并（AKA模糊融合）？使用SQL处理还是其它语言方便？对于处理半结构化的数据你会选择使用哪种语言？ 11、你是如何处理缺少数据的？你推荐使用什么样的处理技术？ 12、你最喜欢的编程语言是什么？为什么？ 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是？ 15、什么是大数据的诅咒？ 16、你参与过数据库与数据模型的设计吗？ 17、你是否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？ 18、你喜欢TD数据库的什么特征？ 19、如何你打算发100万的营销活动邮件。你怎么去优化发送？你怎么优化反应率？能把这二个优化份开吗？ 20、如果有几个客户查询ORACLE数据库的效率很低。为什么？你做什么可以提高速度10倍以上，同时可以更好处理大数量输出？ 21、如何把非结构化的数据转换成结构化的数据？这是否真的有必要做这样的转换？把数据存成平面文本文件是否比存成关系数据库更好？ 22、什么是哈希表碰撞攻击？怎么避免？发生的频率是多少？ 23、如何判别mapreduce过程有好的负载均衡？什么是负载均衡？ 24、请举例说明mapreduce是如何工作的？在什么应用场景下工作的很好？云的安全问题有哪些？ 25、（在内存满足的情况下）你认为是100个小的哈希表好还是一个大的哈希表，对于内在或者运行速度来说？对于数据库分析的评价？ 26、为什么朴素贝叶斯差？你如何使用朴素贝叶斯来改进爬虫检验算法？ 27、你处理过白名单吗？主要的规则？（在欺诈或者爬行检验的情况下） 28、什么是星型模型？什么是查询表？

2017阿里巴巴招聘笔试题

2017阿里巴巴招聘笔试题 1、iBatis相比JDBC优势的优势有哪些? 答：简单易上手、开发速度快、面向对象，数据库可移植。 (此处应该将优缺点一起分析，才是满意得到回答) 延伸学习： MyBatis和iBatis的区别： ibatis本是apache的一个开源项目，2010年这个项目由apache software foundation 迁移到了google code，并且改名为mybatis (1)Mybatis实现了接口绑定，使用更加方便：在ibatis2.x中我们需要在DAO的实现类中指定具体对应哪个xml映射文件，而Mybatis实现了DAO接口与xml映射文件的绑定， (2)对象关系映射的改进，效率更高 iBatis：优点 : 代码量减少、简单易上手、SQL语句和代码分离(便于修改)、数据库可移植缺点：SQL语句需要自己写、参数只能有一个 Hibernate：优点：对象关系数据库映射、完全面向对象、提供缓存机制、HQL编程缺点：不能灵活使用原生SQL、无法对SQL优化、全表映射效率低下、N+1的问题 JDBC、iBatis、Hibernate明显对比： JDBC更为灵活，更加有效率，系统运行速度快。但是代码繁琐复杂，有的时候用了存储过程就不方便数据库移植了。 hibernate，iBatis 关系数据库框架，开发速度快，更加面向对象，可以移植更换数据库，但影响系统性能。 JDBC:手动手动写sql，不能直接传入一个对象、不能直接返回一个对象。 iBatis的特点:半自动化手动写sql，能直接传入一个对象、能直接返回一个对象。

Hibernate:全自动不写sql,自动封装，能直接传入一个对象、能直接返回一个对象。 2、PrepareStatement相比statement，有哪些优点? 答： (1)直接使用Statement，驱动程序一般不会对sql语句作处理而直接交给数据库; 使用PreparedStament，形成预编译的过程，并且会对语句作字符集的转换(至少在sql server)中如此。如此，有两个好处：对于多次重复执行的语句，使用PreparedStament效率会更高一点，并且在这种情况下也比较适合使用batch;另外，可以比较好地解决系统的本地化问题。 (2)PreparedStatement还能有效的防止危险字符的注入，也就是sql注入的问题。(但是必须使用“对?赋值的方法”才管用) 3、TCP/IP对应于OSI七层模型的哪些层? 答： OSI七层模型分别是：应用层、表示层、会话层、传输层、网络层、数据链路层和物理层。 TCP/IP协议不是TCP和IP协议的合称，而是指因特网整个TCP/IP协议族。从协议分层模型方面来看，TCP/IP由四个层次组成：网络接口层、网络层、传输层和应用层。延伸学习：应用层：由用户自己规定，只要形成的消息能与表示层接口。这包括各机互访协议，分布式数据库协议等。表示层：是在满足用户需求的基础上，尽可能的节省传输费用而设置的。如文本压缩、常用词转换、加密、变更文件格式等。这就是说，只要能表示用户所需的信息，形式上可以改变，并尽可能形成标准格式，以利于传送。对话层：是为用户之间对话的进行而设置的，这包括建立和拆除对话，确定对话对象。如不是授权的对话者，就不予送出信息，以达到可靠的要求，这一层也可与传输层合并。传输层：就是使主机之间或信源和信宿之间能互通信息。这一层因此也可以被称为源--宿层或端--端层，这一般是主机操作系统的一部分。它负责把上一层

生意参谋数据分析师考试题复习(三)

《生意参谋数据分析师》考试 1、单选题分值: 1 王家杂货铺的掌柜在复盘上月数据时发现客服小甲有12个咨询是没回复；如果小甲上个月总共有100个咨询量，那么他当时的回复率是多少？ A: 0.12 B: 0.58 C: 0.82 D: 0.88 答案解析："参考章节：店铺客服转化率诊断本题考点：客服回复率答案解析：客服回复率是指客服对于咨询他的客户进行回复的百分占比，如果有100个咨询量，其中12个没有回复，那么回复率就是（10 0-12）/100=88%" 2、单选题分值: 1 小芳根据数据分析发现主推宝贝标题里很多关键词没有带来访客数和转化率，于是想要替换这些关键词，她应该替换什么关键词进去？ A: 从生意参谋的搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词，如果标题里没有的，就可以找出来替换进去。 B: 看看别人标题都用什么词，自己没有的，加进来 C: 加类目大词进来引流量 D: 选一些长尾词转化率高

答案解析：参考章节：快速优化标题提升手淘搜索流量本题考点：优质关键词寻找和标题优化答案解析：生意参谋—市场—搜索排行—搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词。 3、单选题分值: 1 小明是吹风机类目的商家，他想做类目趋势对比表，为此他需要收集近几年的相关数据作为参考？ A: 近5年 B: 近4年 C: 近3年 D: 近2年答案解析：参考章节：品类罗盘—商品年度规划（一）本题考点：市场趋势表格制作试题解析：在大数据的背景下，我们做类目数据对比时，会去抓取近3年子类目数据为参考维度。 4、单选题分值: 1 小明店铺的无线首页，模块1跳转店内爆款，每天点击量200，模块2跳转店内新品，每天点击量80；因为新品数据良好，有次爆款潜力，小明决定交换模块1和模块2跳转商品！ A: 正确 B: 错误答案解析：参考章节：页面效果如何提升？本题考点：页面数据分析答案解析：根据页面板块的点击数、点击率、转化率等数据来确定优化方向 5、单选题分值: 1 为了尽量减少花费，小李想选择免费方法实现新品破0 ；以下那种破0 方法不是免费的？

阿里巴巴2014秋季校园招聘-软件研发工程师笔试题

阿里巴巴2014秋季校园招聘-软件研发工程师笔试题 2013-09-21 22:381089人阅读评论(4)收藏举报校园招聘阿里巴巴软件研发算法百度 1. 单选题 1. 假设把整数关键码K散列到N个槽列表，以下哪些散列函数是好的散列函数 A: h(K)=K/N; B: h(K)=1; C: h(K)=K mod N; D: h(K)=(K+rand(N)) mod N, rand(N)返回0到N-1的整数答案:D 2. 下面排序算法中，初始数据集的排列顺序对算法的性能无影响的是： A: 堆排序B：插入排序 C: 冒泡排序D:快速排序答案:A（插入排序：最优时间复杂度O（n）最差时间复杂度O（n^2）平均时间复杂度O （n^2）冒泡排序：最优时间复杂度O（n）最差时间复杂度O（n^2）平均时间复杂度O（n^2）快速排序：最优时间复杂度O（nlogn）最差时间复杂度O（n^2）平均时间复杂度O（nlogn）堆排序：最优时间复杂度O（nlogn）最差时间复杂度O（nlogn）平均时间复杂度O（nlogn）） 3. 下面说法错误的是： A: CISC计算机比RISC计算机指令多 B: 在指令格式中，采用扩展操作码设计方案的目的是为了保持指令字长不变而增

加寻址空间 C:增加流水线段数理论上可以提高CPU频率 D:冯诺依曼体系结构的主要特征是存储程序的工作方式答案:B 4. 不属于冯诺依曼体系结构必要组成部分是： A:CPU B: Cache C:RAM D:ROM 答案:B 5. 一个栈的入栈序列式ABCDE则不可能的出栈序列是: A:DECBA B:DCEBA C:ECDBA D:ABCDE 答案:C 6.你认为可以完成编写一个C语言编译器的语言是： A：汇编B:C语言C:VB D:以上全可以答案：D 7. 关于C++/JAVA类中的static成员和对象成员的说法正确的是：A：static成员变量在对象构造时候生成 B: static成员函数在对象成员函数中无法调用 C: 虚成员函数不可能是static成员函数 D: static成员函数不能访问static成员变量答案：A 8：