DataHub大数据岗位笔试面试总结

匿名网友发布于: 2016-06-27 00:00:00

阅读 417 收藏 0 点赞 0 评论 0

笔试：

#linux命令

1、查看磁盘空间的命令、查看目录空间的命令

2、写一行命令，kill掉zuxs用户下所有进程名带dba_的进程，用到通道。

#设计模式

1、用代码实现一个线程安全的单例模式。单例我写出来了，但是在线程安全方面还有问题。

2、写一下除了单例模式、工厂模式以外的其他三种编程模式。

#JVM

1、说一下JVM内存模型，GC算法，GC垃圾回收机制，如何优化？

前端：

1、写下session、cookie、local storage的区别

2、描述一下在浏览器输入一个url后的处理流程。

大数据：

1、说一下HDFS\MapReduce\HBase\Hive\Yarn的适用场景。

数据结构：

1、实现一个空间复杂度为O(1),时间复杂度为O(n)的倒排遍历一个单链表的程序。

2、如何判断一个单链表里存在一个环。

一面：

1. 介绍一下对HBase的了解（底层），为什么选择HBase?有没有用过Balance?是怎样设计RowKey的？
2. ElasticSearch，集群的搭建，为什么选择ES而不选择传统关系型数据库?ES调优有哪些?遇到过什么坑?对Agg聚合查询有了解多少?性能怎样?有没有遇到什么问题。
3. Spark，Spark环境的搭建及调优,RDD分区

二面：

1. 介绍一下自己对JVM的内存模式和GC的理解。

2. cookie和session有什么关联

3. 如果浏览器禁用了cookie又会怎样？该如何处理？

4. Spark RDD流程怎么划分一个stage，reduceByKey的原理是什么?触发执行任务的action操作有哪些？shuffle的原理等等?

评论列表正在加载评论...

文章目录