2021届阅文大数据方向笔试卷

时长:120分钟 总分:100分

136浏览 0人已完成答题

题型介绍
题型 填空题 简答题
数量 2 21
1.
请列出你所知道的hadoop调度器,并简要说明其工作方法
问题详情
2.
hive 内部表和外部表的区别?
问题详情
3.
在Linux环境下,用Linux基本命令完成如下操作: 1、重...
问题详情

在Linux环境下,用Linux基本命令完成如下操作:
1、重命名/home/qqbook/script/下的aa.txt 文件名为:cc.txt ;
2、清空/home/qqbook/script目录下的所有内容。
4.
在Linux环境下,用Linux基本命令完成如下操作: 1、切...
问题详情

在Linux环境下,用Linux基本命令完成如下操作:
1、切换到/home/qqbook/script目录下 ;
2、在该目录下,查找包含有“feidu”文本内容的所有文件名。
5.
有两个文件,分别有20亿个QQ号(bigint类型,8字节),我们只有2G...
问题详情

有两个文件,分别有20亿个QQ号(bigint类型,8字节),我们只有2G内存,如何找到两个文件交集?
6.
QQ阅读的阅读行为日志的文件/home/log/aa.txt,占用存储1....
问题详情

QQ阅读的阅读行为日志的文件/home/log/aa.txt,占用存储1.5T,在Linux环境下,用Linux基本命令完成如下操作:
1、统计该文件具体有多少行记录;
2、查看第12行到第15行这四行记录。【提示:有非常多种方法:①使用管道;②使用awk;③使用sed。总之请1行搞定。】
7.
我们知道Kimball的维度建模里面将事实表按粒度划分成了三种主要的事实表...
问题详情

我们知道Kimball的维度建模里面将事实表按粒度划分成了三种主要的事实表,包括:事务事实表,周期快照事实表和累积快照事实表。请问这三种事实表有什么区别?
【提示:可从定义、粒度、用途、事实表更新机制、使用场景等多个角度进行比较】
8.
谈谈数据倾斜是如何发生的?并给出优化方案
问题详情
9.
hdfs存储机制是怎样的?
问题详情
10.
Hive中两大表连接,发生了数据倾斜,有一个reduce无法完成,检查发现...
问题详情

Hive中两大表连接,发生了数据倾斜,有一个reduce无法完成,检查发现t1中guid=''的记录有很多,其他guid都不重复,这条语句该怎样优化?
select t1.*
,nvl(t2.x,1)
from t1
left join t2
on t1.guid = t2.guid

11.
某种产品中,合格品率为0.96.一个合格品被检查成次品的概率是0.02,一...
问题详情

某种产品中,合格品率为0.96.一个合格品被检查成次品的概率是0.02,一个次品被检查成合格品的概率为0.05.
问题:求一个被检查成合格品的产品确实为合格品的概率.
12.
有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存...
问题详情

有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M,要求返回频数最高的100个词
13.
hive 中的压缩格式 RCFile、TextFile、SequenceF...
问题详情

hive 中的压缩格式 RCFile、TextFile、SequenceFile各有什么区别?
14.
写出下面各逻辑表达式的值(真:1,假:0)。设 a=3,b=4,c=5。 ...
问题详情

写出下面各逻辑表达式的值(真:1,假:0)。设 a=3,b=4,c=5。
(1)a+b>c && b==c
(2)a || b+c && b-c
(3)!(a>b) && ! c || 1
(4)!(x=a) && (y=b) && 0

15.
Hive 的 sort by 和 order by 的区别?
问题详情

Hive 的 sort byorder by 的区别?
16.
常见的聚类算法可以分为几类?
问题详情
17.
常见分类算法有哪些?
问题详情
18.
起点APP每天访问数据存放在表wsd.t_sd_qidain_access...
问题详情

起点APP每天访问数据存放在表wsd.t_sd_qidain_access_log里面,该表总共有98个字段,其中包含日期字段ds(格式:YYYY-MM-DD,如:2020-01-28),用户类型user_type,用户账号user_id,用户访问时间log_time,请问在2020年2月份里:
【脚本书写整齐很关键!】

1、输出每天每个类型访问的pv,uv,最早访问时间和最晚访问时间;
2、输出每天访问用户数最高的用户类型的top100(按照访问次数降序)用户,输出的字段有:日期,用户类型,用户账号,访问次数
19.
红袖APP付费记录中间表u_wsd.t_od_qidian_pay_hx,...
问题详情

红袖APP付费记录中间表u_wsd.t_od_qidian_pay_hx,该表仅有3个字段,包含日期字段ds(格式:YYYY-MM-DD,如:2020-02-28),用户登录账号qq_no,用户当天的总付费金额hx_amt(单位:分),请问在2020年2月份里:
1、累计总付费金额大于等于100元的用户及其付费总金额并按照付费金额降序排列(只取top100);
2、连续付费4天及以上的用户,同时输出该连续付费的起止日期。输出字段: qq_no, 起始日期,结束日期
【建议:脚本书写整齐很关键!利用with语法子查询,分步骤写清注释】

20.
Hive中表t_od_qqbook_coin_account是用户在QQ阅...
问题详情

Hive中表t_od_qqbook_coin_account是用户在QQ阅读看书时的章节订阅明细表,主要有以下字段:statis_day(日期),qq_no(qq号),bookid(书籍id),cid(章节id),fee(该章节订阅费用,单位:分).
表t_rd_qqbook_all_book是书籍属性表(每个分区都是截止当时历史全量数据),主要有以下字段:bookid(书籍id),bookname(书名),two_level(书籍所属二级分类).
请问在2020年1月里:
1、输出每天每本书的阅读人数及其订阅费用(仅保留订阅费用大于10元的记录)并按照订阅费用降序排列;
2、输出每天每个书籍二级分类付费总金额Top5的qq号及对应的金额,输出的字段有:日期、书籍二级分类、qq_no、金额.
21.
Hive中表t_od_qqbook_coin_account是用户在QQ阅...
问题详情

Hive中表t_od_qqbook_coin_account是用户在QQ阅读看书时的章节订阅明细表,主要有以下字段:statis_day(日期),qq_no(qq号),bookid(书籍id),cid(章节id),fee(该章节订阅费用,单位:分).
用户订阅章节时支持多章同时订阅,此时表中的cid会把多个章节id通过*连接合并存储。
例如表中,一条订阅流水如下:例如表a中,一条订阅流水如下:20200102,905781969,273561,50*51*52*53*54*55,10
请问在2020年1月里:
1、输出每天每本书的阅读人数及其订阅费用(仅保留订阅费用大于10元的记录)并按照订阅费用降序排列;
2、输出每天每本书每个章节订阅的人数。
22.
冒泡排序
问题详情

冒泡排序(Bubble Sort)
算法步骤
1、比较相邻的元素。如果第一个比第二个大,就交换他们两个。
2、对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对。这步做完后,最后的元素会是最大的数。
3、针对所有的元素重复以上的步骤,除了最后一个。
4、持续每次对越来越少的元素重复上面的步骤,直到没有任何一对数字需要比较。
输入描述:
20,413,3,53,90,324
输入样例: 20,413,3,53,90,324 输出描述: [3, 20, 53, 90, 324, 413]
输出样例 [3, 20, 53, 90, 324, 413]
23.
快速排序
问题详情

快速排序
快速排序又是一种分而治之思想在排序算法上的典型应用。
算法步骤
1、从数列中挑出一个元素,称为 “基准”(pivot)。
2、重新排序数列,所有元素比基准值小的摆放在基准前面,所有元素比基准值大的摆在基准的后面(相同的数可以到任一边)。在这个分区退出之后,该基准就处于数列的中间位置。这个称为分区(partition)操作。
3、递归地(recursive)把小于基准值元素的子数列和大于基准值元素的子数列排序。
4、递归的最底部情形,是数列的大小是零或一,也就是永远都已经被排序好了。虽然一直递归下去,但是这个算法总会退出,因为在每次的迭代(iteration)中,它至少会把一个元素摆到它最后的位置去。

输入描述: 20,413,3,53,90,324输入样例: 20,413,3,53,90,324 输出描述:
[3, 20, 53, 90, 324, 413]
输出样例 [3, 20, 53, 90, 324, 413]