阿里巴巴2016数据挖掘工程师笔试

时长:90分钟 总分:100分

148浏览 0人已完成答题

题型介绍
题型 单选题 多选题 简答题
数量 10 5 2
1.
想要了解上海市小学生的身高,需要抽取500个样本,这项调查中的样本是?
问题详情




2.
以下对k-means聚类算法解释正确的是
问题详情




3.
以下哪个是常见的时间序列算法模型
问题详情




4.
有个袋子装有2个红球,2个蓝球,1个黄球,取出球以后不再放回,请问取两次出来的球是相同颜色的概率是多少
问题详情




5.
65,8,50,15,37,24,()。括号中的数字是()
问题详情




6.
一组数据,均值>中位数>众数,问这组数据
问题详情




7.
SQL语言允许使用通配符进行字符串匹配的操作,其中‘%’可以表示
问题详情




8.
关于正态分布,下列说法错误的是:
问题详情




9.
在以下不同的场景中,使用的分析方法不正确的有
问题详情




10.
下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测
问题详情




11.
excel工作簿a中有两列id、age,工作簿b中有一列id,需要找到工作薄b中id对应的age,可用的函数包括
问题详情






12.
现在有M个桶,每桶都有N个乒乓球,乒乓球的颜色有K种,并且假设第i个桶第j种颜色的球个数为Cij, 比例为Rij=Cij/N,现在要评估哪个桶的乒乓球颜色纯度最高,下列哪种算法和描述是合理的?
问题详情






13.
关于相关系数,下列描述中正确的有:
问题详情






14.
关于线性回归的描述,以下正确的有:
问题详情






15.
下列哪些方法可以用来对高维数据进行降维:
问题详情






16.
查询成交表a中的城市city的成交金额大于0的购买人数(buyer_id)和成交金额(amt)
问题详情

查询成交表a中的城市city的成交金额大于0的购买人数(buyer_id)和成交金额(amt)
city buyer_id order_id    amt
a           1           1           100
a           1           2           100
b           2           3           100
b           3           4           20
c           4           5           0
17.
公司要构建淘宝商家健康指数,所以要对最近1年内有交易的淘宝商家进行问卷调研。为不过于打搅商 家,问卷调研采取抽样的方式进行确定商家名单。怎么抽样比较好?
问题详情