哔哩哔哩2020校园招聘数据开发方向笔试卷(二)

时长:120分钟 总分:100分

401浏览 1人已完成答题

题型介绍
题型 多选题 填空题
数量 29 2
1.
关于大数据的主要特征理解和描述正确的有?(多选)
问题详情




2.
以下哪些数据不属于半结构化数据?
问题详情




3.
关于Hive建表基本操作描述正确的是?
问题详情




4.
基于&nbspHadoop&nbsp开源大数据平台主要提供了针对数据分...
问题详情

基于 Hadoop 开源大数据平台主要提供了针对数据分布式计算和存储能力,如下属于分布式存储组件的有?(多选)




5.
Hadoop&nbsp的&nbspMapReduce&nbsp组件擅...
问题详情

Hadoop 的 MapReduce 组件擅长处理哪些场景的计算任务?




6.
Flume的数据流可以根据headers的信息发送到不同的channel中。
问题详情


7.
Hbase的数据文件HFile中一个Keyvalue格式包括哪些信息?(多选)
问题详情




8.
Kafka是一个分布式的消息发布订阅系统,它只是进行消息的转发,并不会保存消息。
问题详情


9.
Hadoop的NameNode用于存储文件系统的元数据。
问题详情


10.
查看kafka某topic的partition详细信息时,使用如下哪个命令?
问题详情




11.
Hadoop&nbsp系统中,如果文件系统的备份因子是&nbsp3,那...
问题详情

Hadoop 系统中,如果文件系统的备份因子是 3,那么每次 mapreduce 任务运行的 task 所需要的文件都要从 3 个有副本的机器上传输需要处理的文件。


12.
采用&nbspFlume&nbsp传输数据过程中,为了防止因&nbsp...
问题详情

采用 Flume 传输数据过程中,为了防止因 Flume 进程重启而丢失数据,推荐使用以下哪种 channel 类型?




13.
关于Hive与Hadoop其他组件的关系,描述错误的是?
问题详情




14.
哪个模块负责HDFS数据存储?
问题详情




15.
spark是用以下哪种编程语言实现的?
问题详情




16.
Spark&nbspon&nbspYARN&nbsp模式下的driv...
问题详情

Spark on YARN 模式下的driver只能运行在客户端。


17.
那个选项不属于transformation操作?
问题详情




18.
Spark任务的Esecutor可以运行多个task。
问题详情


19.
Spark应用在运行时,&nbspStage划分的依据是哪个?
问题详情

Spark应用在运行时, Stage划分的依据是哪个?




20.
Spark&nbsp是基于内存的计算,所有&nbspSpark&nbs...
问题详情

Spark 是基于内存的计算,所有 Spark 程序运行过程中的数据只能存储在内存中。


21.
设已有说明语句&ldquoint&nbspa=5&rdquo,则执行语句&ldquoa+=a*=a%...
问题详情

设已有说明语句“int a=5”,则执行语句“a+=a*=a%=3”后,a的值为:




22.
以下关于this指针的叙述中正确的是:
问题详情




23.
以下程序存在的问题是:void&nbspfun()&nbsp{int&...
问题详情

以下程序存在的问题是:
void fun() {
int *num1, *num2
num1 = new int[10]
num2 = new int[20]
num1[0] = 100
num2[0] = 300
num1 = num2
delete [] num1 }




24.
假设每天投稿池中,每1000个视频中会有1个营销号视频,为了净化社区环境,...
问题详情

假设每天投稿池中,每1000个视频中会有1个营销号视频,为了净化社区环境,b站同事训练了一个检测营 销号视频的模型。模型评估结果如下:如果某视频是营销号视频,就一定会被模型检测出来,但是如果某视 频是正常视频,也会有1%的概率被误判成营销号视频。提问:现在有一个新投稿的视频,被模型判定成了营 销号视频,那么它原本真正是营销号视频的概率是多少()




25.
长度为N的字符串匹配长度为M的子串的算法复杂度是:
问题详情




26.
一个数组长度为n。指定数组内的一个元素,把数组内小等于该元素的,放在该元素...
问题详情

一个数组长度为n。指定数组内的一个元素,把数组内小等于该元素的,放在该元素左边,把数组内大于该 元素的,放在该元素右边。这个需要多少次操作




27.
如果只用比较、交互、赋值等操作,而不能使用算数操作(加减乘除等),将一个数...
问题详情

如果只用比较、交互、赋值等操作,而不能使用算数操作(加减乘除等),将一个数组排序,最少需要多 少次操作?




28.
给定一个离散型随机变量x的分布P(x),这个变量的熵(entropy)定义...
问题详情

给定一个离散型随机变量x的分布P(x),这个变量的熵(entropy)定义为sum-P(xi)*log(P(xi)),那么当熵的值 逐渐升高时,说明:




29.
现有6个相同的抽屉,一个小球等可能得存在于其中任何一个抽屉,也可能隐藏于抽...
问题详情

现有6个相同的抽屉,一个小球等可能得存在于其中任何一个抽屉,也可能隐藏于抽屉之外(其概率为 1/8)。一个人检查完前5个抽屉,都没有发现该小球,那么此时小球在第6个抽屉的概率是多少?




30.
title1
问题详情

表结构说明

  • user_recharge表
字段 说明
id 自增主键
userid 用户id
user_name 用户名
recharge 充值金额
ts 充值时间
CREATE TABLE IF NOT EXISTS user_recharge (
  id INT( 11 ) NOT NULL AUTO_INCREMENT PRIMARY KEY,
  userid int(10) NOT NULL,
  user_name varchar(50)  NOT NULL ,
  recharge decimal(30, 4) NOT NULL DEFAULT '0',
  ts datetime,
  PRIMARY KEY (id))
有用户充值表(用户id,  用户名,充值金额,充值时间),查询每个用户充值次数最多的单笔金额,并统计该金额对应的充值次数及最近一次充值时间
(如果单笔金额对应的充值次数相同,则取时间最近的记录所对应的充值金额)。

返回值举例:
用户id | 用户名 |  充值金额 | 充值次数 | 最近一次充值时间
1|张三|100|2|2019-01-01 15:00:00
2|李四|200|1|2019-01-01 14:00:00


输入描述: 无输入样例: 无 输出描述: $demo输出样例 无
31.
title2
问题详情

$query $table 输入描述: 无输入样例: 无 输出描述: $demo输出样例 无