2021届阅文大数据方向笔试卷-公司真题-面试哥

题型	填空题	简答题
数量	2	21

1.

请列出你所知道的hadoop调度器，并简要说明其工作方法

问题详情

2.

hive 内部表和外部表的区别？

问题详情

3.

在Linux环境下，用Linux基本命令完成如下操作： 1、重...

问题详情

在Linux环境下，用Linux基本命令完成如下操作：

1、重命名/home/qqbook/script/下的aa.txt 文件名为：cc.txt ；

2、清空/home/qqbook/script目录下的所有内容。

4.

在Linux环境下，用Linux基本命令完成如下操作： 1、切...

问题详情

在Linux环境下，用Linux基本命令完成如下操作：

1、切换到/home/qqbook/script目录下；

2、在该目录下，查找包含有“feidu”文本内容的所有文件名。

5.

有两个文件，分别有20亿个QQ号（bigint类型，8字节），我们只有2G...

问题详情

有两个文件，分别有20亿个QQ号（bigint类型，8字节），我们只有2G内存，如何找到两个文件交集？

6.

QQ阅读的阅读行为日志的文件/home/log/aa.txt，占用存储1....

问题详情

QQ阅读的阅读行为日志的文件/home/log/aa.txt，占用存储1.5T，在Linux环境下，用Linux基本命令完成如下操作：

1、统计该文件具体有多少行记录；

2、查看第12行到第15行这四行记录。【提示：有非常多种方法：①使用管道；②使用awk；③使用sed。总之请1行搞定。】

7.

我们知道Kimball的维度建模里面将事实表按粒度划分成了三种主要的事实表...

问题详情

我们知道Kimball的维度建模里面将事实表按粒度划分成了三种主要的事实表，包括：事务事实表，周期快照事实表和累积快照事实表。请问这三种事实表有什么区别？

【提示：可从定义、粒度、用途、事实表更新机制、使用场景等多个角度进行比较】

8.

谈谈数据倾斜是如何发生的？并给出优化方案

问题详情

9.

hdfs存储机制是怎样的？

问题详情

10.

Hive中两大表连接，发生了数据倾斜，有一个reduce无法完成，检查发现...

问题详情


	
	
		Hive中两大表连接，发生了数据倾斜，有一个reduce无法完成，检查发现t1中guid=''的记录有很多，其他guid都不重复，这条语句该怎样优化？
	

	
		select t1.*
	

	
		,nvl(t2.x,1)
	

	
		from t1
	

	
		left join t2
	

	
		on t1.guid = t2.guid

11.

某种产品中,合格品率为0.96.一个合格品被检查成次品的概率是0.02,一...

问题详情

某种产品中,合格品率为0.96.一个合格品被检查成次品的概率是0.02,一个次品被检查成合格品的概率为0.05.

问题：求一个被检查成合格品的产品确实为合格品的概率.

12.

有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存...

问题详情

有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M，要求返回频数最高的100个词

13.

hive 中的压缩格式 RCFile、TextFile、SequenceF...

问题详情

hive 中的压缩格式 RCFile、TextFile、SequenceFile各有什么区别？

14.

写出下面各逻辑表达式的值（真：1，假：0）。设 a=3，b=4，c=5。 ...

问题详情

写出下面各逻辑表达式的值（真：1，假：0）。设 a=3，b=4，c=5。
（1）a+b>c && b==c
（2）a || b+c && b-c
（3）!(a>b) && ! c || 1
（4）!(x=a) && (y=b) && 0

15.

Hive 的 sort by 和 order by 的区别？

问题详情

Hive 的 sort by 和 order by 的区别？

16.

常见的聚类算法可以分为几类？

问题详情

17.

常见分类算法有哪些？

问题详情

18.

起点APP每天访问数据存放在表wsd.t_sd_qidain_access...

问题详情

起点APP每天访问数据存放在表wsd.t_sd_qidain_access_log里面，该表总共有98个字段，其中包含日期字段ds（格式：YYYY-MM-DD，如：2020-01-28），用户类型user_type，用户账号user_id，用户访问时间log_time，请问在2020年2月份里：

【脚本书写整齐很关键！】

1、输出每天每个类型访问的pv，uv，最早访问时间和最晚访问时间；

2、输出每天访问用户数最高的用户类型的top100（按照访问次数降序）用户，输出的字段有：日期，用户类型，用户账号，访问次数

19.

红袖APP付费记录中间表u_wsd.t_od_qidian_pay_hx，...

问题详情

红袖APP付费记录中间表u_wsd.t_od_qidian_pay_hx，该表仅有3个字段，包含日期字段ds(格式：YYYY-MM-DD，如：2020-02-28)，用户登录账号qq_no，用户当天的总付费金额hx_amt(单位：分)，请问在2020年2月份里：

1、累计总付费金额大于等于100元的用户及其付费总金额并按照付费金额降序排列（只取top100）；

2、连续付费4天及以上的用户，同时输出该连续付费的起止日期。输出字段： qq_no, 起始日期，结束日期

【建议：脚本书写整齐很关键！利用with语法子查询，分步骤写清注释】

20.

Hive中表t_od_qqbook_coin_account是用户在QQ阅...

问题详情

Hive中表t_od_qqbook_coin_account是用户在QQ阅读看书时的章节订阅明细表，主要有以下字段：statis_day(日期),qq_no(qq号),bookid(书籍id),cid(章节id),fee(该章节订阅费用，单位：分).

表t_rd_qqbook_all_book是书籍属性表(每个分区都是截止当时历史全量数据)，主要有以下字段：bookid(书籍id),bookname(书名),two_level(书籍所属二级分类).

请问在2020年1月里：

1、输出每天每本书的阅读人数及其订阅费用（仅保留订阅费用大于10元的记录）并按照订阅费用降序排列；

2、输出每天每个书籍二级分类付费总金额Top5的qq号及对应的金额，输出的字段有：日期、书籍二级分类、qq_no、金额.

21.

Hive中表t_od_qqbook_coin_account是用户在QQ阅...

问题详情

Hive中表t_od_qqbook_coin_account是用户在QQ阅读看书时的章节订阅明细表，主要有以下字段：statis_day(日期),qq_no(qq号),bookid(书籍id),cid(章节id),fee(该章节订阅费用，单位：分).

用户订阅章节时支持多章同时订阅，此时表中的cid会把多个章节id通过*连接合并存储。

例如表中，一条订阅流水如下：例如表a中，一条订阅流水如下：20200102,905781969,273561,50*51*52*53*54*55,10

请问在2020年1月里：

1、输出每天每本书的阅读人数及其订阅费用（仅保留订阅费用大于10元的记录）并按照订阅费用降序排列；

2、输出每天每本书每个章节订阅的人数。

22.

冒泡排序

问题详情

冒泡排序（Bubble Sort）

算法步骤

1、比较相邻的元素。如果第一个比第二个大，就交换他们两个。

2、对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。这步做完后，最后的元素会是最大的数。

3、针对所有的元素重复以上的步骤，除了最后一个。

4、持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。

输入描述：

20,413,3,53,90,324

输入样例： 20,413,3,53,90,324 输出描述： [3, 20, 53, 90, 324, 413]
输出样例 [3, 20, 53, 90, 324, 413]

23.

快速排序

问题详情

快速排序

快速排序又是一种分而治之思想在排序算法上的典型应用。

算法步骤

1、从数列中挑出一个元素，称为 “基准”（pivot）。

2、重新排序数列，所有元素比基准值小的摆放在基准前面，所有元素比基准值大的摆在基准的后面（相同的数可以到任一边）。在这个分区退出之后，该基准就处于数列的中间位置。这个称为分区（partition）操作。

3、递归地（recursive）把小于基准值元素的子数列和大于基准值元素的子数列排序。

4、递归的最底部情形，是数列的大小是零或一，也就是永远都已经被排序好了。虽然一直递归下去，但是这个算法总会退出，因为在每次的迭代（iteration）中，它至少会把一个元素摆到它最后的位置去。

输入描述： 20,413,3,53,90,324输入样例： 20,413,3,53,90,324 输出描述：

[3, 20, 53, 90, 324, 413]

输出样例 [3, 20, 53, 90, 324, 413]

2021届阅文大数据方向笔试卷

题型介绍

请列出你所知道的hadoop调度器，并简要说明其工作方法

hive 内部表和外部表的区别？

在Linux环境下，用Linux基本命令完成如下操作： 1、重...

在Linux环境下，用Linux基本命令完成如下操作： 1、切...

有两个文件，分别有20亿个QQ号（bigint类型，8字节），我们只有2G...

QQ阅读的阅读行为日志的文件/home/log/aa.txt，占用存储1....

我们知道Kimball的维度建模里面将事实表按粒度划分成了三种主要的事实表...

谈谈数据倾斜是如何发生的？并给出优化方案

hdfs存储机制是怎样的？

Hive中两大表连接，发生了数据倾斜，有一个reduce无法完成，检查发现...

某种产品中,合格品率为0.96.一个合格品被检查成次品的概率是0.02,一...

有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存...

hive 中的压缩格式 RCFile、TextFile、SequenceF...

写出下面各逻辑表达式的值（真：1，假：0）。设 a=3，b=4，c=5。 ...

Hive 的 sort by 和 order by 的区别？

常见的聚类算法可以分为几类？

常见分类算法有哪些？

起点APP每天访问数据存放在表wsd.t_sd_qidain_access...

红袖APP付费记录中间表u_wsd.t_od_qidian_pay_hx，...

Hive中表t_od_qqbook_coin_account是用户在QQ阅...

Hive中表t_od_qqbook_coin_account是用户在QQ阅...

冒泡排序

快速排序