【2020】奇安信秋招算法方向试卷1-公司真题-面试哥

题型	单选题	多选题	填空题
数量	20	10	2

1.

在什么情况下，新插入链表的节点既是首节点也是尾节点

问题详情

A. 链表为空时
B. 链表内含有一个节点
C. 链表内含有两个节点
D. 链表内含有三个节点

2.

一个有向无环图是否存在拓扑排序？

问题详情

A. 不存在
B. 存在
C. 不确定
D. 其他

3.

以下关于哈希表的描述哪个是正确的？

问题详情

A. 哈希表中的key的存放是有序的
B. 哈希表只适合存储数字
C. 哈希表适于做优先级队列
D. 哈希表查询的时间复杂度是O(1)

4.

存在一个数字组成的序列[a1,a2,...,aN]，若要统计所有数字出现的...

问题详情

存在一个数字组成的序列[a1,a2,...,aN]，若要统计所有数字出现的次数，用以下哪种数据结构比较适合？

A. 哈希表
B. 数组
C. 单链表
D. 双链表

5.

一个台阶总共有10级，一次可以向上走1级，也可以向上走2级，请问一共有多少...

问题详情

一个台阶总共有10 级，一次可以向上走1 级，也可以向上走2 级，请问一共有多少种走法？

A. 88
B. 89
C. 90
D. 91

6.

mysql的数据库索引使用的是下面那种数据结构

问题详情

A. skiplist
B. 红黑树
C. AVL树
D. B+树

7.

老板发奖金

问题详情

老板一共需要给某个员工发奖金n元，可以选择一次发1元，也可以选择一次发2元，也可以选择一次发3元。请问老板给这位员工发放完n元奖金共有多少种不同的方法？

数据范围：1 <= n <= 10

8.

撤销与恢复

问题详情

撤销/恢复操作具有广泛的用途，比如word文档中输入一个单词，可以点撤销，然后可以再恢复。

编程实现如下功能：从标准输入读取到一个字符串，字符串可包含0个或多个单词，单词以空格或者tab分隔；如果遇到 "undo" 字符串，表示"撤销"操作，前一个字符串被撤销掉；如果遇到"redo"字符串，表示恢复刚才撤销掉的字符串.

例如: 输入字符串 "hello undo redo world."，对字符串中的 undo 和 redo 处理后，最终输出的结果为 "hello world."

输入描述：一行字符串：包含0个或多个单词，单词以空格或者tab分隔输入样例： hello undo redo world. 输出描述：一行字符串：由0个或多个单词组成，单词以空格分隔输出样例 hello world.

9.

存在若干个字符串，若要查找具有相同前缀的字符串，以下哪种数据结构比较适合

问题详情

A. 红黑树
B. 哈希表
C. Trie树
D. 栈

10.

以下哪个算法是用于求解两个正整数的最大公约数的算法？

问题详情

A. Dijkstra算法
B. 辗转相除法
C. Floyd算法
D. 其他

11.

以下哪个数据结构可用来抽象在电影院售票厅排队买票的场景？

问题详情

A. 栈
B. 堆
C. 队列
D. 二叉树

12.

skiplist的查询时间复杂度和以下哪种数据结构不相同？

问题详情

A. 红黑树
B. AVL树
C. 有序的单链表
D. 有序数组

13.

关于文本表示模型，以下说法错误的是

问题详情

A. 文本模型中，每篇文章可以表示成长向量，向量中的每一维代表一个单词
B. 每一维对应的权重反映了这个词在原文章的重要程度
C. 在实际应用中，一般会将不同词性的单词统一成为同一词干的形式
D. 词嵌入的核心思想是将每个词都映射成高维空间上的一个稠密向量
E. 刘浏

14.

关于隐马尔科夫模型，下列说法正确的是

问题详情

A. 隐马尔科夫模型是对含有未知参数的马尔科夫链进行建模的生成模型
B. 隐马尔科夫模型中，对于每个隐状态xi和对应的输出yi都是可见的
C. 隐马尔科夫模型中的参数不包括隐状态间的转移概率
D. 隐马尔科夫模型不能将分词问题转化为一个序列标注问题来建模
E. 刘浏

15.

多层感知机最少需要多少隐藏层才能表示异或逻辑？

问题详情

A. 0
B. 1
C. 2
D. 3

16.

关于集成学习，下列说法正确的是

问题详情

A. 基模型相关性低
B. 基模型相关性高
C. bagging和boosting是主要的两类集成学习方法
D. 基模型都来自同一算法

17.

若混淆矩阵中TP=40，FN=20，FP=10，TN=40，则准确率Acc...

问题详情

若混淆矩阵中TP=40，FN=20，FP=10，TN=40，则准确率Accuracy=？

A. 0.5
B. 0.7273
C. 0.875
D. 0.8

18.

若混淆矩阵中TP=40，FN=20，FP=10，TN=40，则正类精确率P...

问题详情

若混淆矩阵中TP=40，FN=20，FP=10，TN=40，则正类精确率Precision=？

A. 0.5
B. 0.6875
C. 0.875
D. 0.8

19.

下列关于关键词提取的说法正确的是

问题详情

A. 关键词提取中通常使用有监督算法，原因是标注的数据量太少
B. 使用无监督算法的效果通常要好于半监督和有监督的算法
C. 关键词抽取的方法中，textrank方法是一种基于图的算法，可以通过构造节点的权重来对其进行优化
D. 基于主题关键词提取算法主要利用的是主题模型中关于主题的分布的性质进行关键词提取，一般对于短文本而言，这种方法并不适合。

20.

下列关于tf-idf的中正确的是

问题详情

A. tf-idf只能用于单个字符，可以将字符进行向量化，达到很好的表示效果
B. 是基于统计的词表示方法，忽视了词与词的位置关系
C. 其中idf公式为log((N+1)/(N(x)+1))+1，表示单个词语在文档中出现的频率
D. 是一种分布式的向量表示，但在word embedding问世之后，它已经没有应用的意义

21.

哪种2D变换有可能破坏平行性(平行的线变换后不再平行)

问题详情

A. 投影变换
B. 刚性变换
C. 相似变换
D. 仿射变换

22.

关于SIFT特征描述错误的是

问题详情

A. 具有尺度不变性
B. 具有旋转不变性
C. 检查的是图像中的极大极小值
D. 受光照变换影响大

23.

下述排序算法中，平均时间复杂度为nlogn且不稳定的是（）

问题详情

下述排序算法中，平均时间复杂度为nlogn且不稳定的是（）

A. 堆排序
B. 归并排序
C. 直接选择排序
D. 快速排序

24.

下列表述中，正确的是（）

问题详情

下列表述中，正确的是（）

A. 快速排序算法是稳定的
B. 二叉树中节点的数目，等于边数 + 1
C. 红黑树进行插入操作的时间复杂度为O(log n)
D. 哈夫曼树中的节点可以有一个孩子节点

25.

关于GBDT算法，下列说法正确的有？

问题详情

A. GBDT不适合高维稀疏特征
B. GBDT通过样本、特征、基学习器三方面并行加速训练
C. GBDT模型具有较好的鲁棒性和解释性
D. GBDT对特征值缺失不敏感

26.

关于随机森林和GBDT,下列说法正确有？

问题详情

A. GBDT中的树可以同时训练，随机森林中的树不可以
B. 两者都可以通过随机样本子集和随机特征子集的方式来提升模型的泛化能力
C. 对任务数据集，GBDT总是优于随机森林
D. GBDT中的树相关性强，而随机森林中的树相关性弱

27.

以下几种NLP预训练模型中包含Transformer结构的有：

问题详情

A. Word2vec
B. ELMo
C. GPT
D. BERT

28.

以下哪种激活函数的输出值有可能是-0.1？

问题详情

A. Sigmoid
B. Tanh
C. ReLU
D. Leaky ReLU

29.

下列关于主题模型的观点中，正确的是

问题详情

A. 主题模型是用来做文档建模的，将文档转化为数值向量，数值向量的每个维度对应于一个主题
B. 在LDA主题模型中，文章的生成有三个要素【词语，主题，文章】，词语和主题是多对多的关系，每个词语都可能代表着多个主题，每个主题下也有多个代表的词语
C. 主题和文章也是多对多的关系，每个主题都对应着多篇文章，每篇文章也可能有多个主题
D. 在短文本中使用主题模型可以比长文本得到更好的效果

30.

下列关于采样方法的描述正确的是

问题详情

A. Gibbs采样的过程中首先需要随机初始化状态，随后依据条件概率进行再不同的状态下分别采样，直到马氏链收敛
B. MCMC采样法主要包括两个MC，即Monte Carlo和Markov Chain。Monte Carlo是指基于采样的数值型近似求解方法，Markov Chain则是用于采样
C. SMOTE，全称是Synthetic Minority Oversampling Technique，其思想就是在少数类的样本之间，进行插值操作来产生额外的样本。
D. ADASYN名为自适应合成抽样(Adaptive Synthetic Sampling)，其最大的特点是采用某种机制自动决定每个少数类样本需要产生多少合成样本，而不是像SMOTE那样对每个少数类样本合成同数量的样本。

31.

神经网络训练过程中哪些现象表明可能出现了梯度爆炸

问题详情

A. 模型的损失函数值在训练过程中变成NaN值
B. 在更新的时损失有较大的变化
C. 每个节点和层的误差梯度值持续大于1.0
D. 损失函数值持续减小

32.

图像分类问题中，哪些方法可以解决数据不均衡问题

问题详情

A. 欠采样
B. 过采样
C. 数据增强
D. 使用新评价指标

【2020】奇安信秋招算法方向试卷1

题型介绍

在什么情况下，新插入链表的节点既是首节点也是尾节点

一个有向无环图是否存在拓扑排序？

以下关于哈希表的描述哪个是正确的？

存在一个数字组成的序列[a1,a2,...,aN]，若要统计所有数字出现的...

一个台阶总共有10级，一次可以向上走1级，也可以向上走2级，请问一共有多少...

mysql的数据库索引使用的是下面那种数据结构

老板发奖金

撤销与恢复

存在若干个字符串，若要查找具有相同前缀的字符串，以下哪种数据结构比较适合

以下哪个算法是用于求解两个正整数的最大公约数的算法？

以下哪个数据结构可用来抽象在电影院售票厅排队买票的场景？

skiplist的查询时间复杂度和以下哪种数据结构不相同？

关于文本表示模型，以下说法错误的是

关于隐马尔科夫模型，下列说法正确的是

多层感知机最少需要多少隐藏层才能表示异或逻辑？

关于集成学习，下列说法正确的是

若混淆矩阵中TP=40，FN=20，FP=10，TN=40，则准确率Acc...

若混淆矩阵中TP=40，FN=20，FP=10，TN=40，则正类精确率P...

下列关于关键词提取的说法正确的是

下列关于tf-idf的中正确的是

哪种2D变换有可能破坏平行性(平行的线变换后不再平行)

关于SIFT特征描述错误的是

下述排序算法中，平均时间复杂度为nlogn且不稳定的是（）

下列表述中，正确的是（）

关于GBDT算法，下列说法正确的有？

关于随机森林和GBDT,下列说法正确有？

以下几种NLP预训练模型中包含Transformer结构的有：

以下哪种激活函数的输出值有可能是-0.1？

下列关于主题模型的观点中，正确的是

下列关于采样方法的描述正确的是

神经网络训练过程中哪些现象表明可能出现了梯度爆炸

图像分类问题中，哪些方法可以解决数据不均衡问题