摩拜2018校招数据分析工程师笔试卷
时长:120分钟 总分:100分
214浏览 0人已完成答题
题型介绍
题型 | 单选题 | 简答题 |
---|---|---|
数量 | 25 | 5 |
A表字段a 类型int中有100条记录,值分别为1至100。如下语句 SELECT a FROM A WHERE a BETWEEN 1 AND 50 OR (a IN (25,70,95) AND a BETWEEN 25 AND 75) 则如下哪个值在这个sql语句返回的结果集中?
某人在被诊断为癌症后,他真正患癌症的概率为()
求一个被检查成合格品的产品确实为合格品的概率?
执行以下 SQL ,下面哪个名字会被查询出来() SELECT Fir...
执行以下 SQL ,下面哪个名字会被查询出来()
SELECT FirstName FROM StaffList WHERE FirstName LIKE’_A%’
There are 3 doors, behind which are t...
There are 3 doors, behind which are two goats and a car.
You pick a door (call it door A). You’re hoping for the car of course.
The game show host examines the other doors (B & C) and always opens one of them with a goat (Both doors might have goats he’ll randomly pick one to open)
So what is the chance of winning the game if you switch doors?
有如下两张表格Orders, City_conf,表格结构如下 ...
Id | Coupon_fee | Order_fee | Citycode |
1 | 2.0 | 1.0 | 010 |
2 | 1.0 | 0.5 | NA |
3 | 1.0 | 2.0 | 021 |
4 | 2.0 | 0.5 | 182 |
5 | 1.0 | 1.5 | *&……%¥# |
6 | 0 | 1.0 | 99999 |
...... | ...... | ...... | ...... |
Name | Citycode | Area |
北京 | 010 | North |
苏州 | 0512 | East |
深圳 | 0755 | South |
成都 | 027 | West |
...... | ...... | ...... |
Orders表示订单表,包括优惠券金额,订单金额及产生订单的城市代码(注:城市代码包括已开城市Citycode及乱码/NA/不在已开城市代码中的数字)。City_conf表示摩拜所开城市列表,包括城市名称,城市代码及所属大区。请统计每个城市优惠券cover的订单费用。(注:1. 如果优惠券金额大于订单金额则cover的是订单费,否则为优惠券金额。2. 所有归不到城市列表中的订单统一为others)
有如下两张表格Metro,Orders,表格结构如下 Metro ...
有如下两张表格Metro,Orders,表格结构如下
Metro
Lng | Lat | |
中关村地铁站 | 121.442132 | 24.22421 |
望京地铁站 | 121.0284938 | 24.09839 |
。。。。 | 。。。。 | 。。。。 |
Orders
Id | Lng | Lat | Time |
1 | 121.442132 | 24.22421 | 2017-07-01 22:11:14 |
2 | 121.0284938 | 24.09839 | 2017-07-01 22:11:15 |
。。。。 | 。。。。 | 。。。。 |
|
Metro表示地铁站列表,包括地铁站站名及经纬度坐标等字段。Oders表示订单表,包括开锁经纬度坐标及开锁时间等字段。 请统计每个地铁站周边1km范围内的订单,找出7月1日早上7:00-9:00期间 出行量最大的前10个地铁站。(先验知识:经度和纬度的小数点后两位相等即表示在一公里范围内)
请写出在数据预处理过程中如何处理以下问题 1) 为了预测摩拜每天订单...
请写出在数据预处理过程中如何处理以下问题
1) 为了预测摩拜每天订单数,我们建立了一个线性回归模型,其中有一个自变量为天气类型(分类变量),分为晴、阴、雾霾、沙尘暴、雨、雪等6种类型,请问如何处理这种变量
<o:p> </o:p>
<o:p> </o:p>
2) 仍然是1) 中的线性回归模型,其中有一个自变量为每天红包车的数量,但是这个变量有1/4的数据是缺失值,请写出至少两种处理缺失值的方法
<o:p> </o:p>
<o:p> </o:p>

请问是否有问题?如有,请写出解决方法
摩拜单车的车锁寿命(以小时计)为一随机变量,服从以标准差为300的正态分布...
摩拜单车的车锁寿命(以小时计)为一随机变量,服从以标准差为300的正态分布。在一批样品中随机抽取 n = 25个车锁进行测试,得出平均寿命为10380小时。
1) 请计算总体平均车锁寿命miu的95%置信区间(confidence interval)
<o:p> </o:p>
2) 在上面的研究中,假设我们有99%的信心认为误差界限(margin of error)不大于60小时,则需要随机抽取多少个车锁才能达到这一结果。

你在公交车站A等3路车,公交车到达车站符合泊松过程,且平均到达时间为10分...
你在公交车站A等3路车,公交车到达车站符合泊松过程,且平均到达时间为10分钟(lambda = 0.1/min)。假设公交车已经运营了一段时间,并且你在随机一个时间到达公交车站,请问
1) 等下一辆车来,你平均需要等多长时间?写出等车时间的概率密度函数
<o:p> </o:p>
2) 等第a辆车来,你平均需要等多长时间?写出等车时间的概率密度函数
<o:p> </o:p>
3) 接2),你在公交车站A等到第a辆3路车来,坐车到公交车站B等6路车,再等b辆6路车来,假设6路公交车到达车站也符合泊松过程,且平均到达时间也为10分钟。设第一阶段等待时间为T1,第二阶段等待时间为T2,则第一阶段等车时间占总共等车时间的比例为W = T1/(T1+T2),请写出W的概率密度函数。