招商银行信用卡中心2019秋招IT笔试(大数据方向第一批)

时长:120分钟 总分:100分

115浏览 0人已完成答题

题型介绍
题型 单选题 多选题 简答题
数量 16 5 6
1.
模糊查询,可以检索出以“M”开头,且第二个字符不是...
问题详情

模糊查询,可以检索出以“M”开头,且第二个字符不是“c”的所有字符串的是




2.
关于添加带自增列的数据,下列说法正确的是
问题详情




3.
select * from tab ...
问题详情

select * from tab where colA=’1’ union select * from tab where colB=’2’ 与此查询语句等价的选项是




4.
在有关数据仓库测试,下列说法不正确的是
问题详情




5.
a=1b=1a+ = b++b+=++a请问结果为
问题详情

下面代码段的结果为()
int a = 1
int b = 1
a += b++
b += ++a






6.
在关系模型中,实现“关系中不允许出现相同的元组”的...
问题详情

在关系模型中,实现“关系中不允许出现相同的元组”的约束是通过




7.
以下python脚本的运行结果正确的是   &nbs...
问题详情

以下python脚本的运行结果正确的是

    def addElement(_list):
        print(6, id(_list))
        _list.append(0)
        print(7, id(_list))
        return _list

    if __name__ == "__main__":
        list1 = [1, 2, 3]
        print(1, id(list1))
        list2 = addElement(list1)
        print(2, list1)
        print(3, id(list1))
        print(4, list2)
        print(5, id(list2))




8.
Hive中concat函数的作用是是将传入的参数连接成为一个字符串,则co...
问题详情

Hive中concat函数的作用是是将传入的参数连接成为一个字符串,则concat(’a’,null,’b’)的结果是




9.
以下关于HDFS中Block的说法正确的是
问题详情




10.
如何删除sales表中产品类型为toys的profits列的列值?
问题详情




11.
Impala与下列哪个组件共享元数据信息
问题详情




12.
Spark中以下哪个操作会进行真实计算
问题详情




13.
下面spark代码执行时,会读取几次file文件  &...
问题详情

下面spark代码执行时,会读取几次file文件
   val raw = sc.textFile(file)
   val pvLog = raw.filter(isPV(_))
   val clLog = raw.filter(isCL(_))
   val baseRDD = pvLog.union(clLog)
   val baseRDD.count()




14.
如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情...
问题详情

如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况下存储200个200M的文本文件和200个30M的文本,请问最终会在集群中产生多少个数据块(包括副本)




15.
关于Kafka,以下说法不正确的是
问题详情




16.
python3中获取用户输入并默认以字符串存储的函数是
问题详情




17.
下列对SQL Server的描述正确的有
问题详情

下列对SQL Server的描述正确的有




18.
在SQL中以下哪些方式可以用来对数据排序
问题详情




19.
下列哪个是 Hadoop 运行的模式
问题详情

下列哪个是 Hadoop 运行的模式




20.
下面哪些是YARN支持的调度语义
问题详情




21.
哪些命令可以查看file1文件的第300-500行的内容
问题详情




22.
查询每个部门中工资最高的员工 有两张表,一张表为员工表,包含员...
问题详情

查询每个部门中工资最高的员工

有两张表,一张表为员工表,包含员工ID,员工姓名,员工工资和员工所在的部门ID,

789742squ.jpg
另一张表为部门表,包含部门ID和部门名称。
789742squ.jpg

写出查询每个部门中工资最高的员工信息的SQL。对于上述两张表,输出应如下:

789742squ_2.jpg

23.
客户隐私管理是银行业的重中之重,现需要对数据仓库中多张表中存储的不同格式的...
问题详情

客户隐私管理是银行业的重中之重,现需要对数据仓库中多张表中存储的不同格式的客户手机号虚拟出一个"手机号ID",该ID会被用于公网中的系统间调用,你会如何生成该ID,并请设计手机号和ID的映射关系表结构?请注意:手机号和ID的关系一旦生成,不应再发生改变;无法通过ID倒推出手机号
24.
数仓ETL过程中,数据探索阶段主要包括哪些内容?
问题详情
25.
数据仓库中为什么要做拉链表?什么样的场景比较适合用拉链表?举例说明拉链表的...
问题详情

数据仓库中为什么要做拉链表?什么样的场景比较适合用拉链表?举例说明拉链表的实现过程?
26.
小赵在测试pyspark的时候,写了一段代码如下 lines = s...
问题详情

小赵在测试pyspark的时候,写了一段代码如下

lines = sc.textFile("data.txt")

lineLengths = lines.map(lambda s: len(s))

lineLengths.persist()

lineCount = lineLengths.count()

totalLength = lineLengths.reduce(lambda a, b: a + b)

 

1) 该代码运行过程中,请分析1,2,4spark RDD的执行过程是怎么样的?

2) 请结合代码分析lineLengths.persist()这一步的作用
27.
用Python编写一个函数,获得当前目录下的所有文件名(包含子目录中的子文...
问题详情

用Python编写一个函数,获得当前目录下的所有文件名(包含子目录中的子文件,假设当前用户有所有文件的访问权限)