招商银行信用卡中心2019秋招IT笔试（大数据方向第一批）-公司真题-面试哥

题型	单选题	多选题	简答题
数量	16	5	6

1.

模糊查询，可以检索出以“M”开头，且第二个字符不是...

问题详情

模糊查询，可以检索出以“M”开头，且第二个字符不是“c”的所有字符串的是

A. LIKE&lsquoMc_&rsquo
B. LIKE&lsquoMc%&rsquo
C. LIKE&lsquoM[^c]_&rsquo
D. LIKE&lsquoM[^c]%&rsquo

2.

关于添加带自增列的数据，下列说法正确的是

问题详情

A. 自增的列需要显式地添加
B. 自增的列无须显式地添加。如需添加全部字段数据时，仅需表名，可省略全部字段
C. 自增的列无须显式地添加。如需添加全部字段数据时，虚列出除自增列之外的全部列名
D. 自增的列可以显式地添加，也可以非显示地添加

3.

select * from tab ...

问题详情

select * from tab where colA=’1’ union select * from tab where colB=’2’ 与此查询语句等价的选项是

A. select * from tab where colA=&rsquo1&rsquo and colB= &rsquo2&rsquo
B. select * from tab where colA=&rsquo1&rsquo or colB= &rsquo2&rsquo
C. select * from tab where colA=&rsquo1&rsquo
D. select * from tab where colB=&rsquo2&rsquo

4.

在有关数据仓库测试,下列说法不正确的是

问题详情

A. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试
B. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试
C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试
D. 在测试之前没必要制定详细的测试计划

5.

a=1b=1a+ = b++b+=++a请问结果为

问题详情

下面代码段的结果为（）

int a = 1
int b = 1
a += b++
b += ++a

A. a=3,b=4
B. a=3,b=5
C. a=4,b=4
D. a=4,b=5

6.

在关系模型中，实现“关系中不允许出现相同的元组”的...

问题详情

在关系模型中，实现“关系中不允许出现相同的元组”的约束是通过

A. 外键
B. 超键
C. 主键
D. 候选键

7.

以下python脚本的运行结果正确的是 &nbs...

问题详情

以下python脚本的运行结果正确的是

    def addElement(_list):
        print(6, id(_list))
        _list.append(0)
        print(7, id(_list))
        return _list

    if __name__ == "__main__":
        list1 = [1, 2, 3]
        print(1, id(list1))
        list2 = addElement(list1)
        print(2, list1)
        print(3, id(list1))
        print(4, list2)
        print(5, id(list2))

A. 1 52875528 6 52875528 7 52875528 2 [1, 2, 3, 0] 3 52875528 4 [1, 2, 3, 0] 5 52875528
B. 1 52875528 6 52879800 7 52879800 2 [1, 2, 3] 3 52875528 4 [1, 2, 3, 0] 5 52879800
C. 1 52875528 6 52879800 7 52879800 2 [1, 2, 3] 3 52875528 4 [1, 2, 3, 0] 5 52889000
D. 1 52875528 6 52875528 7 52889000 2 [1, 2, 3] 3 52875528 4 [1, 2, 3, 0] 5 52889000

8.

Hive中concat函数的作用是是将传入的参数连接成为一个字符串，则co...

问题详情

Hive中concat函数的作用是是将传入的参数连接成为一个字符串，则concat（’a’,null,’b’）的结果是

A. ab
B. a
C. b
D. NULL

9.

以下关于HDFS中Block的说法正确的是

问题详情

A. 一个磁盘有自己的块大小，一般为512个字节，HDFS中的块大小与本地磁盘保持一致
B. 为了容错，一般Block的默认备份1份，并且会尽量考虑到网络拓扑进行分布式存储
C. 由于分布式文件系统中使用Block来抽象数据存储，由于文件的分块不需要存储在同一个机器上，所以HDFS的文件可以大于每个单独的磁盘大小
D. 数据文件的各个Block主要存储在namenode上

10.

如何删除sales表中产品类型为toys的profits列的列值？

问题详情

A. UPDATE sales SET profits = NULL WHERE product_type = 'TOYS'
B. DELETE profits FROM sales WHERE product_type = 'TOYS'
C. DELETE FROM sales WHERE product_type = 'TOYS'
D. DELETE FROM sales

11.

Impala与下列哪个组件共享元数据信息

问题详情

A. HDFS
B. Hive
C. Pig
D. Oozie

12.

Spark中以下哪个操作会进行真实计算

问题详情

A. Map
B. Join
C. ReduceByKey
D. collect

13.

下面spark代码执行时，会读取几次file文件 &...

问题详情

下面spark代码执行时，会读取几次file文件
   val raw = sc.textFile(file)
   val pvLog = raw.filter(isPV(_))
   val clLog = raw.filter(isCL(_))
   val baseRDD = pvLog.union(clLog)
   val baseRDD.count()

A. 0次
B. 1次
C. 2次
D. 3次

14.

如果我们现有一个安装2.6.5版本的hadoop集群，在不修改默认配置的情...

问题详情

如果我们现有一个安装2.6.5版本的hadoop集群，在不修改默认配置的情况下存储200个200M的文本文件和200个30M的文本，请问最终会在集群中产生多少个数据块（包括副本）

C. 600
D. 1200
A. 400
B. 1800

15.

关于Kafka，以下说法不正确的是

问题详情

A. Producer根据指定的partition方法，将消息发布到指定topic的partition
B. kafka集群接收到Producer发过来的消息后，将其持久化到硬盘，并保留消息指定时长，而不关注消息是否被消费
C. Kafka某个Topic的消息一旦被消费掉后，不会再被其他消费者重复消费
D. Kafka消费者可以指定从最早的offset开始消费，也可指定从最新的offset开始消费

16.

python3中获取用户输入并默认以字符串存储的函数是

问题详情

A. raw_input
B. print
C. raw
D. input

17.

下列对SQL Server的描述正确的有

问题详情

下列对SQL Server的描述正确的有

A. 关系型数据库
B. 企业级数据库
C. 层次化数据库
D. 客户机/服务器数据库

18.

在SQL中以下哪些方式可以用来对数据排序

问题详情

A. ORDER BY
B. ROW_NUMBER() OVER()
C. PARTITION BY
D. RANK() OVER()

19.

下列哪个是 Hadoop 运行的模式

问题详情

下列哪个是 Hadoop 运行的模式

A. 单机版
B. 联机版
C. 伪分布式
D. 分布式

20.

下面哪些是YARN支持的调度语义

问题详情

A. 请求节点nodeX上5个Container：虚拟CPU个数为2，内存量为2GB
B. 请求任意节点上5个Container：虚拟CPU个数为3，内存量为1GB
C. 请求任一同一个机架rack上3个Container：虚拟CPU个数为1，内存量为6GB
D. 请求机架rackX上3个Container：虚拟CPU个数为4，内存量为3GB

21.

哪些命令可以查看file1文件的第300-500行的内容

问题详情

A. cat file1 | tail -n +300 | head -n 200
B. cat file1| head -n 500 | tail -n + 300
C. sed -n &lsquo500,200p&rsquo file1
D. sed -n &lsquo300,500p&rsquo file1

22.

查询每个部门中工资最高的员工有两张表，一张表为员工表，包含员...

问题详情

查询每个部门中工资最高的员工

有两张表，一张表为员工表，包含员工ID，员工姓名，员工工资和员工所在的部门ID，

另一张表为部门表，包含部门ID和部门名称。

写出查询每个部门中工资最高的员工信息的SQL。对于上述两张表，输出应如下：

23.

客户隐私管理是银行业的重中之重，现需要对数据仓库中多张表中存储的不同格式的...

问题详情

客户隐私管理是银行业的重中之重，现需要对数据仓库中多张表中存储的不同格式的客户手机号虚拟出一个"手机号ID",该ID会被用于公网中的系统间调用，你会如何生成该ID，并请设计手机号和ID的映射关系表结构？请注意：手机号和ID的关系一旦生成，不应再发生改变；无法通过ID倒推出手机号

24.

数仓ETL过程中，数据探索阶段主要包括哪些内容？

问题详情

25.

数据仓库中为什么要做拉链表?什么样的场景比较适合用拉链表？举例说明拉链表的...

问题详情

数据仓库中为什么要做拉链表?什么样的场景比较适合用拉链表？举例说明拉链表的实现过程？

26.

小赵在测试pyspark的时候，写了一段代码如下 lines = s...

问题详情

小赵在测试pyspark的时候，写了一段代码如下

lines = sc.textFile("data.txt")

lineLengths = lines.map(lambda s: len(s))

lineLengths.persist()

lineCount = lineLengths.count()

totalLength = lineLengths.reduce(lambda a, b: a + b)

1）该代码运行过程中，请分析1,2,4行spark RDD的执行过程是怎么样的?

2）请结合代码分析lineLengths.persist()这一步的作用

27.

用Python编写一个函数，获得当前目录下的所有文件名（包含子目录中的子文...

问题详情

用Python编写一个函数，获得当前目录下的所有文件名（包含子目录中的子文件，假设当前用户有所有文件的访问权限）

招商银行信用卡中心2019秋招IT笔试（大数据方向第一批）

题型介绍

模糊查询，可以检索出以“M”开头，且第二个字符不是...

关于添加带自增列的数据，下列说法正确的是

select * from tab ...

在有关数据仓库测试,下列说法不正确的是

a=1b=1a+ = b++b+=++a请问结果为

在关系模型中，实现“关系中不允许出现相同的元组”的...

以下python脚本的运行结果正确的是 &nbs...

Hive中concat函数的作用是是将传入的参数连接成为一个字符串，则co...

以下关于HDFS中Block的说法正确的是

如何删除sales表中产品类型为toys的profits列的列值？

Impala与下列哪个组件共享元数据信息

Spark中以下哪个操作会进行真实计算

下面spark代码执行时，会读取几次file文件 &...

如果我们现有一个安装2.6.5版本的hadoop集群，在不修改默认配置的情...

关于Kafka，以下说法不正确的是

python3中获取用户输入并默认以字符串存储的函数是

下列对SQL Server的描述正确的有

在SQL中以下哪些方式可以用来对数据排序

下列哪个是 Hadoop 运行的模式

下面哪些是YARN支持的调度语义

哪些命令可以查看file1文件的第300-500行的内容

查询每个部门中工资最高的员工 有两张表，一张表为员工表，包含员...

客户隐私管理是银行业的重中之重，现需要对数据仓库中多张表中存储的不同格式的...

数仓ETL过程中，数据探索阶段主要包括哪些内容？

数据仓库中为什么要做拉链表?什么样的场景比较适合用拉链表？举例说明拉链表的...

小赵在测试pyspark的时候，写了一段代码如下 lines = s...

用Python编写一个函数，获得当前目录下的所有文件名（包含子目录中的子文...

查询每个部门中工资最高的员工有两张表，一张表为员工表，包含员...