2020第四范式秋招算法笔试题

时长:120分钟 总分:100分

166浏览 0人已完成答题

题型介绍
题型 单选题 填空题
数量 35 2
1.
增加以下哪些超参数可能导致随机森林模型过拟合数据? &nbsp&nbsp...
问题详情

增加以下哪些超参数可能导致随机森林模型过拟合数据?
    1. 决策树的数量;
    2. 决策树的深度;
    3. 学习率。




2.
以下关于深度网络训练的说法正确的是:
问题详情




3.
下列关于过拟合现象的描述中,哪个是正确的:
问题详情




4.
以下哪一项在神经网络中引入了非线性?
问题详情




5.
以下哪些方法属于判别式模型(discriminative model) &...
问题详情

以下哪些方法属于判别式模型(discriminative model)
    1. 隐马尔科夫模型(HMM)
    2. 朴素贝叶斯(Naive Bayes)
    3. 隐含狄利克雷分布(LDA)
    4. 支持向量机(support vector machine)




6.
在线性回归中使用正则项,你发现解的不少coefficient都是0,则这个...
问题详情

在线性回归中使用正则项,你发现解的不少coefficient都是0,则这个正则项可能是:
1. L0-norm 
2. L1-norm
3. L2-norm




7.
关于CNN,以下结论正确的是:
问题详情




8.
关于k-means算法,正确的描述是:
问题详情




9.
关于K-NN和Logistic Regression, 描述正确的是:
问题详情




10.
在线性回归,随机森林和神经网络中,以下哪个决策曲面是随机森林的? A...
问题详情

在线性回归,随机森林和神经网络中,以下哪个决策曲面是随机森林的?
A. 793506hrf.jpg   B.    793506hrf.jpg   C.   793506hrf_2.jpg




11.
对于Logistic Regression,其中为loss functio...
问题详情

对于Logistic Regression,其中为loss function,为正则项。对于正则项的说法,有哪些选项是正确的
1) 对于异常样本(outlier),更鲁棒(robust)
2) 是非凸的
3) 时,常数越大,目标函数的解越稀疏
4) 时,常数越小,目标函数的l2-norm越小




12.
下面哪个分类器可以正确分类所有点(正样本:圆圈,负样本:三角) 1....
问题详情

下面哪个分类器可以正确分类所有点(正样本:圆圈,负样本:三角)
1. Logistic regression
2. SVM with linear kernel
3. SVM with RBF kernel
4. Decision tree 
5. 3-nearest-neighbor classifier (with Euclidean distance).

793508lfn.jpg




13.
假设一个数据集中的数据在二维欧式空间中分布如下: 则如果采用...
问题详情

假设一个数据集中的数据在二维欧式空间中分布如下:
793509fcz.jpg
则如果采用留一法(leave one out)对3-nearest neighbor模型进行精度(accuracy)的交叉验证,得到的结果是:




14.
当训练样本数量趋向于无穷大时,在该数据集上训练的模型变化趋势,对于其描述正...
问题详情

当训练样本数量趋向于无穷大时,在该数据集上训练的模型变化趋势,对于其描述正确的是 :




15.
已知矩阵\begin{pmatrix}3 & 1\\-1 &...
问题详情

已知矩阵,下列向量是的特征向量的是




16.
设随机变量,的分布函数为,则 的值为:
问题详情

设随机变量,的分布函数为,则 的值为:




17.
排A,B,C,D,E,F六个字母,使得A,B之间恰有两个字母的排列方式一共有:
问题详情




18.
随机变量,,则
问题详情




19.
对于某种疾病,一个诊断检测有95%的概率对一个患者给出阳性诊断,有10%的...
问题详情

对于某种疾病,一个诊断检测有95%的概率对一个患者给出阳性诊断,有10%的概率对于一个非患者给出阳性诊断,该疾病在人群中有0.5%的患病率。现在对某个人进行该疾病的检测,假设对该人和该疾病没有任何其他已知信息,则




20.
同一进程下的多个线程可以共享哪一种资源
问题详情




21.
下列关于数据库事务ACID特性的说法不正确的是?
问题详情




22.
在Linux上,对于多进程,子进程继承了父进程的下列哪些? 1、进程...
问题详情

在Linux上,对于多进程,子进程继承了父进程的下列哪些?
1、进程地址空间
2、共享内存
3、信号掩码
4、已打开的文件描述符
5、其他选项都不是




23.
设在内存中有P1,P2,P3三道程序,并按照P1,P2,P3的优先级次序运...
问题详情

设在内存中有P1,P2,P3三道程序,并按照P1,P2,P3的优先级次序运行,其中内部计算和IO操作时间由下表给出(CPU计算和IO资源都只能同时由一个程序占用):
P1:计算60ms---》IO 80ms---》计算20ms 
P2:计算120ms---》IO 40ms---》计算40ms 
P3:计算40ms---》IO 80ms---》计算40ms
并行完成三道程序比单道运行节省的时间是()




24.
假设系统中有n个进程共享3台扫描仪,并采用PV操作实现进程同步与互斥。若系...
问题详情

假设系统中有n个进程共享3台扫描仪,并采用PV操作实现进程同步与互斥。若系统信号量S的当前值为-1,进程P1、P2又分别执行了一次P(S)操作,那么信号量S的值应为___。




25.
对于一个有向有环图,其拓扑序
问题详情




26.
下列哪个说法是错误的:
问题详情




27.
完全二叉树共有100结点,该二叉树有多少个叶子结点?
问题详情




28.
求一个长度为n的无序数组的中位数,期望复杂度和最坏复杂度最优分别可以做到
问题详情




29.
若一个递归函数的规模函数T(n) = T(n-2) + (n^2)/3,则...
问题详情

若一个递归函数的规模函数T(n) = T(n-2) + (n^2)/3,则其算法的时间复杂度为




30.
下列关于过拟合现象的描述中,哪个是正确的
问题详情




31.
超级区间和
问题详情

现在有一个长度为N的数组 a, 下标范围从 0 到 N-1 , 给出 Q 组区间 l[i], r[i], 求和

注意最后的数字之和可能非常大,将最后的和除以1,000,000,007的余数输出。
输入描述: 第1行输入为N

第2行输入N个数字,代表a[0], a[1], ..., a[N-1]。

第3行输入为Q

第4行到第 3+Q 行代表Q组区间,每一行为l[i], r[i]输入样例: 4 1 2 3 4 2 0 2 1 3 输出描述: 输出一个数字,代表最后所有区间的数字之和除以1,000,000,007的余数。输出样例 15
32.
实现朴素贝叶斯分类器
问题详情

朴素贝叶斯分类器假设在给定样本label的情况下,样本的不同特征之间相互独立。现用朴素贝叶斯分类器进行垃圾邮件识别,数据包含4个特征。现有的训练数据如下表:

现在将所有的特征进行转换后,得到下表(请在程序以硬编码方式读入):
转换规则如下:(注:[m,n]表示m,n之间的闭区间,[m,+]表示大于m的开区间)
标题长度(feature 1):1: [0,3], 2: [3,6], 3: [6,+]

正文长度(feature 2):1: [0,10], 2:[10,20], 3: [20,+]

附件含有可执行程序(feature 3):1: 是, 0:

正文含特殊字符(feature 4):1:是,0:

请在程序中读入上述训练数据,实现朴素贝叶斯分类器,语言不限,但不能使用第三方库,不需要考虑平滑方法,然后对给定的测试数据(特征已转换)进行预测,输出结果;


输入描述: 输入数据如下,第一行一个数字M,表示共有M行训练数据,
第2~M+1行,每行5个数字,分别以空格隔开,前四个数字分别代表四个特征,第5个数字代表这一个样本label值。
第M+2行是一个数字N,表示共有N行测试样本,随后的N行每行4个数字,分别代表四个特征的值。

14
1 1 1 0 1
1 1 1 1 1
2 1 1 0 0
3 2 1 0 0
3 3 0 0 0
3 3 0 1 1
2 3 0 1 0
1 2 1 0 1
1 3 0 0 0
3 2 0 0 0
1 2 0 0 0
2 2 1 1 0
2 1 0 0 0
3 2 1 1 1
5
3 1 0 0
1 1 0 0
2 2 1 1
2 3 1 1
3 3 0 0输入样例: 14 1 1 1 0 1 1 1 1 1 1 2 1 1 0 0 3 2 1 0 0 3 3 0 0 0 3 3 0 1 1 2 3 0 1 0 1 2 1 0 1 1 3 0 0 0 3 2 0 0 0 1 2 0 0 0 2 2 1 1 0 2 1 0 0 0 3 2 1 1 1 5 1 1 0 0 1 1 1 0 1 2 1 0 2 1 0 1 2 2 1 1 输出描述: 使用贝叶斯模型对测试样本进行预测,所有结果按顺序输出到一行,以空格分隔;

0 0 0 0 0输出样例 0 1 1 0 0
33.
以下算法(随机搜索,梯度下降,贝叶斯优化)有几种可以用来搜索GBDT模型中...
问题详情

以下算法(随机搜索,梯度下降,贝叶斯优化)有几种可以用来搜索GBDT模型中,树的个数(超参数)?




34.
给定N个数据样本,对某一机器学习模型,考虑用网格搜索(Grid searc...
问题详情

给定N个数据样本,对某一机器学习模型,考虑用网格搜索(Grid search)来确定其D个超参数的值。网格搜索的计算复杂度




35.
以下说法正确的是? 1) 和预测相比,k-NN分类器的训练需要花费更...
问题详情

以下说法正确的是?
1) 和预测相比,k-NN分类器的训练需要花费更多时间
2) 一般来说,训练样本越多, k-NN分类器准确率越高
3) k-NN不能用于回归
4) k-NN分类器对异常点(outlier)很敏感
5) k-NN分类器的训练误差(training error)是0




36.
随机梯度下降算法(Stochastic Gradient Descent)...
问题详情

随机梯度下降算法(Stochastic Gradient Descent)可以用于以下四种机器学习模型(决策树,线性分类器,SVM核分类器,多层感知机)中的几种?




37.
在Linear regression中,假设分布为,则模型的泛化误差(方差...
问题详情

在Linear regression中,假设分布为,则模型的泛化误差(方差)至少为