招商银行信用卡中心2019秋招IT笔试(数据挖掘方向第二批)

时长:120分钟 总分:100分

183浏览 0人已完成答题

题型介绍
题型 单选题 简答题
数量 30 4
1.
关于PreparedStatement与Statement描述错误的是()
问题详情




2.
用户表Table中含有100万条数据,其中号码字段phone为字符型,并创...
问题详情

用户表Table中含有100万条数据,其中号码字段phone为字符型,并创建了唯一索引,且电话号码全部由数字组成,要统计号码头为158的电话号码的数量,下面写法执行速度最慢的是()




3.
有一个64个面的骰子,其中30个面是1,34个面是2 ,当掷出1时的信息熵...
问题详情

有一个64个面的骰子,其中30个面是1,34个面是2 ,当掷出1时的信息熵是( )





4.
考虑两队间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1...
问题详情

考虑两队间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为()




5.
考虑下面的频繁3-项集的集合:{1. 2. 3},{1. 2. 4},{1...
问题详情

考虑下面的频繁3-项集的集合:{1. 2. 3},{1. 2. 4},{1. 2. 5},{1. 3. 4}, {1. 3. 5},{2. 3. 4},{2. 3. 5},{3. 4. 5}。假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()




6.
下表是用户是否使用某产品的调查结果。 USRID 性别 城市 学历 收入 ...
问题详情

下表是用户是否使用某产品的调查结果。
USRID 性别 城市 学历 收入 是否会办理信用卡
1 男 上海 本科 低 是
2 女 北京 本科 中 否
3 男 北京 研究生 高 否
4 女 上海 研究生 中 是
5 女 上海 研究生 中 是
性别、地区、学历、收入中对用户是否会办理信用卡信息增益最大的属性是哪一个()




7.
当用户使用稀疏特征训练模型时,对于离散特征缺省值,以下哪种处理效果较好()
问题详情




8.
以下说法不正确的是()
问题详情




9.
以下不属于优化求解方法的是()
问题详情




10.
下列哪项不是SVM的优势()
问题详情




11.
信用卡坏账是指信用卡发行银行无法收回或收回的可能性极小的应收款项。假设某市...
问题详情

信用卡坏账是指信用卡发行银行无法收回或收回的可能性极小的应收款项。假设某市有A、B两个区域人口比例为3:5。据历史统计A区的坏账率为0.01%,B区的坏账率为0.015%。现有一起坏账发生在某市,那么该笔坏账发生在A区的可能性为()




12.
Linux系统中,下列哪个符号可以起到追加内容到文件的作用()
问题详情




13.
对于k折交叉验证, 以下对k的说法正确的是()
问题详情




14.
关于特征选择,下列对 Ridge 回归和 Lasso 回归说法正确的是()
问题详情




15.
 使用逻辑回归算法对样本进行分类,得到训练样本的准确率和测试样本...
问题详情

 使用逻辑回归算法对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其它特征保持不变。然后重新训练测试。则下列说法正确的是()




16.
基于用户的协同过滤算法,适用于以下哪种场景()
问题详情




17.
基于物品的协同过滤算法,说法错误的是()
问题详情




18.
假设使用逻辑回归进行 n 多类别分类,使用 One-vs-rest 分类法...
问题详情

假设使用逻辑回归进行 n 多类别分类,使用 One-vs-rest 分类法。下列说法正确的是()




19.
Naive Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签...
问题详情

Naive Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是()




20.
分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于( )问题。
问题详情




21.
以下哪项不是防止过拟合的方法()
问题详情




22.
以下哪个不属于spark的transform操作()
问题详情




23.
以下哪些方法不可以直接来对文本分类()
问题详情




24.
以下哪些不是影响聚类算法效果的原因()
问题详情




25.
在Logistic Regression 中,如果同时加入L1和L2范数,...
问题详情

在Logistic Regression 中,如果同时加入L1和L2范数,会产生什么效果()




26.
在二分类问题中,当测试集的正负例数量不均衡时,以下评价方案哪个是相对不合理...
问题详情

在二分类问题中,当测试集的正负例数量不均衡时,以下评价方案哪个是相对不合理的(假设 precision=TP/(TP+FP),recall=TP/(TP+FN))?




27.
下面对k-means聚类描述不正确的是()
问题详情




28.
在基本K均值算法里,当邻近度函数采用(  )的时候. 合适的质心...
问题详情

在基本K均值算法里,当邻近度函数采用(  )的时候. 合适的质心是簇中各点的中位数。





29.
以下选项,属于进程和线程区别的是()
问题详情




30.
关于用户画像的说法错误的是()
问题详情




31.
计算下列事务数据集的所有频繁项集(最小支持度2) TID&n...
问题详情

计算下列事务数据集的所有频繁项集(最小支持度2)

TID List of item
T1 I1,I2,I5
T2 I2,I4
T3 I2,I3
T4 I1,I2,i4
T5 I1,I3
T6 I2,I3
T7 I1,I3
T8 I1,I2,I3,I5
T9 I1,I2,I3

32.
数据库中现有一张信用卡交易流水表T,共有三个字段:用户ID(usr_id)...
问题详情

数据库中现有一张信用卡交易流水表T,共有三个字段:用户ID(usr_id)、交易城市(trx_cty)、交易金额(trx_amt)
    +---------+------------+------------+
    | usr_id  | trx_cty    | trx_amt    |
    +---------+------------+------------+
    | 100001  | beijing    | 120.00     |
    | 100001  | shanghai   | 1500.00    |
    | 100002  | shanghai   | 122.00     |
    | 100001  | shenzhen   | 30.00      |
    | 100001  | guangzhou  | 1600.50    |
    | 100001  | shenzhen   | 1500.00    |
    | 100003  | shanghai   | 7.80       |
    | 100003  | shenzhen   | 550.20     |
    | 100001  | beijing    | 8923.70    |
    +---------+------------+------------+
    现在需要利用sql语句统计:
    (1)统计每个用户最高消费额
    (2)统计每个用户最高消费额所对应的消费城市
    (3)由于建模的需要,现在需要对数据进行预处理。对每个用户ID,需要统计每个用户分别是否在北京、上海、广州、深圳消费过,有过该城市消费记录为1,否则为0。输出表如下:
    +---------+---------+---------+----------+----------+
    | usr_id  | beijing | shanghai| guangzhou| shenzhen |
    +---------+---------+---------+----------+----------+
    | 100001  |   1     |    1    |      1   |      1   |
    | 100002  |   0     |    1    |      0   |      0   |
    | 100003  |   0     |    1    |      0   |      1   |
    +---------+---------+---------+----------+----------+

33.
掌上生活是招商银行信用卡中心推出的一款消费金融APP,其中有针对持卡用户提...
问题详情

掌上生活是招商银行信用卡中心推出的一款消费金融APP,其中有针对持卡用户提供不同种类的餐饮优惠券。现在需要预测用户未来一周内是否会购买掌上生活APP上的优惠券(包括饭票、影票等),请问:
(1)可以使用哪些评价指标?可以构造的特征有哪些 (至少写出五个)?
2)可供使用的模型有Logistic模型和xgboost模型,请简述这两个模型的原理,并比较这两个模型的特点。
(3)训练模型后在线下的离线评价效果很好,但上线使用后发现效果极差,请分析可能的原因及解决方案。

34.
简述曼哈顿距离、欧式距离、明式距离、余弦距离、皮尔森相关系数的原理及定义,...
问题详情

简述曼哈顿距离、欧式距离、明式距离、余弦距离、皮尔森相关系数的原理及定义,并在此基础上说明不同距离适合的应用场景。