携程2019届秋招专业笔试-大数据方向-公司真题-面试哥

题型	单选题	填空题
数量	30	1

1.

以下说法中错误的是

问题详情

A. AdaBoost训练过程中基分类器的分类误差率是被该分类器误分类样本的权重之和
B. 随机森林训练过程中对样本进行有放回抽样
C. Bagging方法主要关注降低偏差，而Boosting方法主要关注降低方差
D. XGBoost使用了损失函数的二阶导数信息，传统GBDT只用了一阶导数

2.

为了得到和SVD一样的投射（projection）需要在PCA中怎么做

问题详情

A. 将数据转换成零均值
B. 将数据转换成零中位数
C. 将数据转换成零众数
D. 无法做到

3.

机器学习中做特征选择时，可能用到的方法有

问题详情

A. 卡方
B. 信息增益
C. 平均互信息
D. 期望交叉熵
E. 其他选项都是

4.

假定目标变量的类别非常不平衡，即主要类别占据了训练数据的 99%...

问题详情

假定目标变量的类别非常不平衡，即主要类别占据了训练数据的 99%。现在你的模型在测试集上表现为 99% 的准确度。那么下面哪一项表述是正确的？

A. 准确度适合于衡量不平衡类别问题
B. 精确率和召回率适合于衡量不平衡类别问题
C. 精确率和召回率不适合于衡量不平衡类别问题
D. 其他选项都不对

5.

某请求被随即分配到四台机器进行处理，分配到每台机器的概率A15% ...

问题详情

某请求被随即分配到四台机器进行处理，分配到每台机器的概率A15% B20% C 30% D 35%, 处理请求的失败概率分别为5% ，4%， 3% 2%，现在请求失败，问由C造成的概率最接近

A. 0.26
B. 0.28
C. 0.3
D. 0.32

6.

用0,1,2,3,4,5组成一个4位数，要求每一位都不一样，请问能组成多少...

问题详情

用0,1,2,3,4,5组成一个4位数，要求每一位都不一样，请问能组成多少个四位数

A. 240
B. 280
C. 300
D. 360
E. 400

7.

Spark中Stage阶段的Task数量由什么决定

问题详情

A. Partition
B. Job
C. TaskScheduler
D. Stage

8.

关于支持向量机SVM,下列说法错误的是

问题详情

A. L2正则项，作用是最大化分类间隔，使得分类器拥有更强的泛化能力
B. Hinge 损失函数，作用是最小化经验分类错误
C. 分类间隔为1/||w||，||w||代表向量的模
D. 当参数C越小时，分类间隔越大，分类错误越多，趋于欠学习

9.

一个合法的表达式由()包围，()可以嵌套和连接，如(())()也是合法&n...

问题详情

一个合法的表达式由()包围，()可以嵌套和连接，如(())()也是合法表达式；现在有 6 对()，它们可以组成的合法表达式的个数为

A. 15
B. 30
C. 64
D. 132
E. 256

10.

下列哪个不属于CRF模型对于HMM和MEMM模型的优势

问题详情

A. 特征灵活
B. 速度快
C. 可容纳较多上下文信息
D. 全局最优

11.

评估模型之后，得出模型存在偏差，下列哪种方法可能解决这一问题（）

问题详情

A. 减少模型中特征的数量
B. 向模型中增加更多的特征
C. 增加更多的数据
D. 其他选项均正确

12.

下面哪一项用决策树法训练大量数据集最节约时间（）

问题详情

A. 增加学习率
B. 增加树的深度；增加学习率
C. 减少树的深度
D. 减少树的深度；减少树的个数

13.

关于L1正则和L2正则下面的说法正确的是

问题详情

A. L2范数可以防止过拟合，提升模型的泛化能力。但L1正则做不到这一点
B. L2正则化标识各个参数的平方的和
C. L2正则化又叫做"Lasso regularization"
D. L1范数会使权值稀疏

14.

以下模型不是判别模型的是哪个（）

问题详情

A. SVM
B. 最大熵模型
C. 决策树
D. 朴素贝叶斯

15.

以下不属于线性分类器的是（）

问题详情

A. Logistic Regression
B. 贝叶斯分类器
C. GBDT
D. 单层感知机

16.

以下哪个是常见的时间序列算法模型（）

问题详情

A. RSI
B. MACD
C. ARMA
D. KDJ

17.

关于logistic回归和SVM不正确的是（）

问题详情

A. Logistic 回归目标函数是最小化后验概率
B. Logistic回归可以用于预测事件发生概率的大小
C. SVM目标是结构风险最小化
D. SVM可以有效避免模型过拟合

18.

下列属于无监督学习的是（）

问题详情

D. CRF
A. K-means
B. SVM
C. 最大熵模型

19.

在其他条件不变的前提下，以下哪种做法容易引起过拟合问题（）

问题详情

A. 增加训练样本量
B. 减少神经网络隐藏节点数
C. 删除稀疏的特征
D. SVM算法中使用高斯核/RBF代替线性核

20.

以下哪种方法不可以直接用来对文本分类（）

问题详情

A. Kmeans
B. 决策树
C. 支持向量机
D. KNN

21.

下列不是SVM核函数的是（）

问题详情

A. 多项式核函数
B. Logistic核函数
C. 径向基核函数
D. Sigmoid核函数

22.

下列哪些方法不可以用来对高维数据进行降维（）

问题详情

A. LASSO
B. 交叉验证
C. 主成分分析法
D. 线性判别方法

23.

下面有关分类算法的准确率，召回率，F1-score的描述，错误...

问题详情

下面有关分类算法的准确率，召回率，F1-score的描述，错误的是（）

A. 准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率
B. 召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率
C. 正确率、召回率和 F 值取值都在0和1之间，数值越接近0，查准率或查全率就越高
D. 为了解决准确率和召回率冲突问题，引入了F1分数

24.

在Logistic Regression中，如果同时加入L1和L...

问题详情

在Logistic Regression中，如果同时加入L1和L2范数，会产生什么效果（）

A. 可以做特征选择，并在一定程度上防止过拟合
B. 能解决维度灾难问题
C. 能加快计算速度
D. 可以增强模型的稳定性

25.

在一个神经网络里，知道每一个神经元的权重和偏差是最重要的一步。如果以某种方...

问题详情

在一个神经网络里，知道每一个神经元的权重和偏差是最重要的一步。如果以某种方法知道了神经元的准确的权重和偏差，你就可以近似任何函数。实现这个最佳的办法是什么（）

A. 随机赋值
B. 搜索所有权重和偏差的组合，直到得到最佳值
C. 赋予一个初始值，通过检查跟最佳的差值，然后迭代更新权重
D. 其他选项都不正确

26.

下列哪个不属于常用的文本分类的特征选择算法（）

问题详情

A. 卡方检验
B. 互信息
C. 信息增益
D. 主成分分析

27.

输入图片大小为200*200，依次经过一层卷积（kernel s...

问题详情

输入图片大小为200*200，依次经过一层卷积（kernel size 5*5， padding 1， stride 2）， pooling （kernel size 3*3， padding 0， stride 1），又一层卷积 (kernel size 3*3, padding 1, stride 1)之后，输出特征图的大小为：（）

A. 95
B. 96
C. 97
D. 98

28.

在deep Learning中，涉及到大量矩阵相乘，现在需要计算...

问题详情

在deep Learning中，涉及到大量矩阵相乘，现在需要计算三个稠密矩阵a，b，c的乘机abc，假设三个矩阵的尺寸分别为m*n，n*p，p*q，且m<n<p<q，以下计算顺序效率最高的是（）

A. a(bc)
B. (ab)c
C. (ac)b
D. 所有效率都相同

29.

下列有关模式挖掘算法的描述，错误的是（）

问题详情

A. AprioriAll算法和GSP算法都属于Apriori类算法，都要产生大量的候选序列
B. FreeSpan算法和PrefixSpan算法不生成大量的候选序列以及不需要反复扫描元数据库
C. 在时空的执行效率上，FreeSpan比PrefixSpan更优
D. 和AprioriAll相比，GSP的执行效率比较高

30.

下列哪种操作实现了和神经网络中Dropout类似的结果（）

问题详情

A. Bagging
B. Boosting
C. 堆叠（Stacking）
D. 其他选项都不正确

31.

游游的旅行

问题详情

游游和小伙伴结伴而行，途径一处园林，游游与小伙伴决定进去游览。该园林可以看作一张个点（每个点代表一个景点）条边的无向图（无重边，无自环）。旅途中，两人的初始愉悦度皆为0 ，第 i个景点需要耗费分钟的时间，会让游游和小伙伴的愉悦度分别增加, 。每条边代表一条路径，第 i 条边连接编号为, 的两个景点，从走到或者从走到耗费的时间都是分钟。游游和小伙伴预计在该园林停留分钟。检票进入园林后，游游和小伙伴会等概率的随机选择一个景点开始游览，每游览完一个景点后，游游和小伙伴会等概率的随机选择一个可以从当前景点直达的且来得及玩的景点作为下一个目的地。如果游览完一个景点后周围没有可以直达的且来得及游览的景点，游游和小伙伴就会提前结束游玩。请分别计算出游游和小伙伴在游览结束后愉悦度的期望。

输入描述：第一行三个整数，分别表示

,

，以空格隔开；
接下来的

行，每行三个整数，分别表示

,

，以空格隔开；
接下来的

行，每行三个整数，分别表示

,

，以空格隔开。输入样例： 5 4 60 25 12 83 30 38 90 16 13 70 22 15 63 50 72 18 2 1 7 3 1 7 4 3 1 5 3 10 输出描述：输出一行实数，分别表示游游和小伙伴度的期望，精确到小数点后 5位，以空格隔开。输出样例 39.20000 114.40000

携程2019届秋招专业笔试-大数据方向

题型介绍

以下说法中错误的是

为了得到和SVD一样的投射（projection）需要在PCA中怎么做

机器学习中做特征选择时，可能用到的方法有

假定目标变量的类别非常不平衡，即主要类别占据了训练数据的 99%...

某请求被随即分配到四台机器进行处理，分配到每台机器的概率A15% ...

用0,1,2,3,4,5组成一个4位数，要求每一位都不一样，请问能组成多少...

Spark中Stage阶段的Task数量由什么决定

关于支持向量机SVM,下列说法错误的是

一个合法的表达式由()包围，()可以嵌套和连接，如(())()也是合法&n...

下列哪个不属于CRF模型对于HMM和MEMM模型的优势

评估模型之后，得出模型存在偏差，下列哪种方法可能解决这一问题（）

下面哪一项 用决策树法训练大量数据集最节约时间（）

关于L1正则和L2正则 下面的说法正确的是

以下模型不是判别模型的是哪个（）

以下不属于线性分类器的是（）

以下哪个是常见的时间序列算法模型（）

关于logistic回归和SVM不正确的是（）

下列属于无监督学习的是（）

在其他条件不变的前提下，以下哪种做法容易引起过拟合问题（）

以下哪种方法不可以直接用来对文本分类（）

下列不是SVM核函数的是（）

下列哪些方法不可以用来对高维数据进行降维（）

下面有关分类算法的准确率，召回率，F1-score的描述，错误...

在Logistic Regression中，如果同时加入L1和L...

在一个神经网络里，知道每一个神经元的权重和偏差是最重要的一步。如果以某种方...

下列哪个不属于常用的文本分类的特征选择算法（）

输入图片大小为200*200，依次经过一层卷积（kernel s...

在deep Learning中，涉及到大量矩阵相乘，现在需要计算...

下列有关模式挖掘算法的描述，错误的是（）

下列哪种操作实现了和神经网络中Dropout类似的结果（）

游游的旅行

下面哪一项用决策树法训练大量数据集最节约时间（）

关于L1正则和L2正则下面的说法正确的是