奇安信2020数据分析及应用(二)

时长:90分钟 总分:63分

169浏览 1人已完成答题

题型介绍
题型 单选题 多选题 简答题
数量 45 15 3
1.
Mapreduce擅长哪个领域的计算
问题详情

Mapreduce 擅长哪个领域的计算




2.
哪个不属于HDFS架构组成部分
问题详情




3.
关于Mapduce原理,下面说法错误的是
问题详情




4.
关于Block和Split两个概念,下面说话错误的是
问题详情




5.
哪个属于大数据中Hadoop的组成部分
问题详情




6.
哪个不属于HBase中的术语
问题详情




7.
与NN在一个节点启动
问题详情




8.
与HDFS类似是
问题详情

与 HDFS 类似是




9.
cluster的最主要瓶颈
问题详情




10.
下列正确的去重语句是
问题详情




11.
delete与truncate语句,下列说法正确是
问题详情




12.
假如tableName_2表有30亿条数据,下列哪条语句执行效率最快
问题详情




13.
表1有5亿条数据,给ID字段增加索引,对下列产生负面影响较大的是
问题详情




14.
以下语句错误的是
问题详情




15.
以下对象哪些不能使用plsql批量导出
问题详情




16.
以下对象不能直接从select语句引用的是
问题详情




17.
以下描述正确的是
问题详情




18.
以下语句错误的是
问题详情




19.
事务中途执行失败,下列说法正确的
问题详情




20.
YARN和MapReduce的关系是
问题详情




21.
Presto与Hive相比主要优势是
问题详情




22.
HDFS(配置的block大小为128MB),上有一个目录/home/da...
问题详情

HDFS(配置的block大小为128MB),上有一个目录/home/data,其下有三个文本文件大小分别为:1MB,100MB,和150MB,如果采用MapReduce处理该目录,默认会启动几个Map Task




23.
关于Spark与MapReuce的性能,说法正确的是
问题详情




24.
关于RDD,说法错误的是
问题详情




25.
下面哪个RDD的算子与其他算子不同
问题详情




26.
下面哪个不属于Spark的运行模式
问题详情




27.
数据库DB、数据库系统DBS和数据库管理系统DBMS三者之间的关系
问题详情




28.
设mysql数据库中一个表t_score的结构为:t_score(SN,C...
问题详情

设mysql数据库中一个表t_score的结构为:t_score(SN,CN,grade),其中SN为学生名,CN为课程名.若要更正王二的化学成绩为85分,则可用




29.
流水表(流水号,账号,商品,地区代号,日期)中流水号为主键,删除流水表中前...
问题详情

流水表(流水号,账号,商品,地区代号,日期)中流水号为主键,删除流水表中前 五年以前的信息




30.
查询"学号char(10)"尾字符是1的错误命令是
问题详情

查询"学号 char(10)"尾字符是1的错误命令是




31.
一次显示一页的内容,命令是
问题详情




32.
修改文件权限
问题详情




33.
export命令在bash中使用是
问题详情




34.
删除用户与用户主目录
问题详情




35.
查找所有以*开头的行
问题详情

查找所有以 * 开头的行




36.
ps命令显示所有用户的进程参数是
问题详情




37.
快速查找linux注册的用户数
问题详情




38.
删除非空子目录/tmp
问题详情

删除 非空子目录/tmp




39.
通过某分类器对样本数据进行判断,其中对于正样本预测准确的为90个,预测错误...
问题详情

通过某分类器对样本数据进行判断,其中对于正样本预测准确的为90个,预测错误为30个;对于负样本,预测准确的为60个,预测错误为60个。由此我们可知,此模型的查准率和查全率分别是:




40.
分析某一样本,其中正样本为60个,负样本为30个。针对样本的某个特征X,当...
问题详情

分析某一样本,其中正样本为60个,负样本为30个。针对样本的某个特征X,当其为A时对应36个正样本,18个负样本;当其为B时对应24个正样本,12个负样本。请计算基于特征X分类的信息增益是:





41.
一个图14条边,4个度数为4的定点,其它顶点度数不超过2,则此图中至少有多...
问题详情

一个图14条边,4个度数为4的定点,其它顶点度数不超过2,则此图中至少有多少个顶点?





42.
设事件A在一次实验中出现的概率1/3,请问三次独立实验,A至少出现一次的概率是
问题详情




43.
为A=求特征值
问题详情

为 A=777554blk.jpg求特征值




44.
判断该偏微分方程为什么类型3(∂^2u)/(∂x^2)+4(∂^2u)/∂...
问题详情

判断该偏微分方程为什么类型
3(∂^2 u)/(∂x^2 )+4(∂^2 u)/∂x∂y+1 (∂^2 u)/(∂y^2 )+2 ∂u/∂x-4 ∂u/∂y+5=0




45.
f(x+y)=f(x)f(y),且f`(0)=1,求f`(x)
问题详情




46.
关于SparkContext,说法正确的是
问题详情




47.
关于以下代码,说法错误的是:line1:valrdd=sc.textFil...
问题详情

关于以下代码,说法错误的是:
line1: val rdd  = sc.textFile("hdfs:///home/data")
line2: rdd.count()
line3: rdd.reduce(_+_)
line4: rdd.collect()




48.
sparksql支持哪些数据格式的读写
问题详情

spark sql支持哪些数据格式的读写




49.
下面关于sparkstreaming的原理,说法正确的是
问题详情

下面关于 spark streaming的原理,说法正确的是




50.
Hive底层计算框架有哪些
问题详情




51.
存储元数据,下列哪些适合
问题详情




52.
下列语句错误的是
问题详情




53.
以下可正确的执行是
问题详情




54.
下面哪些不适合OLAP操作
问题详情




55.
SQL语言数据定义包括
问题详情




56.
关于HDFS,说法正确是
问题详情




57.
关于Kafka,说法正确的是
问题详情




58.
对于PCA说法正确的是:
问题详情




59.
根据医疗记录构建癌症预测模型,说法正确的是
问题详情




60.
以下概念正确的是
问题详情




61.
简单概括安装hadoop的步骤
问题详情
62.
现有access.log文件,内容格式如下:503,66,c.html40...
问题详情

现有access.log文件,内容格式如下:
503,66,c.html
404,17,a.html
503,56,c.html
200,14,d.html
503,11,c.html
503,48,c.html
要求:使用Spark-core完整的编码实现以下要求:
要求:1)计算404、200出现的数次;
2)计算503、200、404三类出现总次数,最终打印出来;
63.
统计1千张表数据量,并打印出对应表的数据量
问题详情