拉勾网招聘数据分析

2020-02-27 260浏览

  • 1.拉勾网招聘数据分析 ——深圳地区数据分析师 撰写人:陈志豪
  • 2.CONTENTS 01 02 03 04 05 项目背景 基本结论 数据预处理 分析实战 思考总结
  • 3.01 项目背景
  • 4.01 项目背景 目标 此次项目有两个目的: Ø 首先检验自己转行学习成果,通过操作实际项目,复习巩固自己所学知识; Ø 其次,我即将开始在深圳寻找工作,那么也希望通过自身所学知识,来分析数据分析师岗位的相关要求,从而针对 性的去做好准备,以及指导今后努力的目标。 数据来源 此次分析所采用的数据,全部来自偏向互联网招聘拉勾网,数据是截止至2017年10月25日的深圳地区所有有关数据分 析师的招聘信息。 所应用的技术和工具 此次分析使用的工具主要有两大部分: Ø 数据获取工具-GooSeeker集搜客网络爬虫软件,用于从拉勾网爬取分析所需要用的招聘数据。 Ø 数据分析工具-编程语言Python,版本为3.0,项目中主要涉及了数据整理与统计的常用库-Pandas/Numpy;数据 可视化常用库-matplotlib/seaborn;文本分析与处理常用库-re正则编写/jieba分词工具;词云生成工具-wordcloud, 以及文件和图片模块管理的OS/PIL库。
  • 5.01 项目背景 分析维度 此次项目主要从以下4大方面8小点进行分析: Ø 总体情况-初步了解职位印象 1. 大多数招聘数据分析的企业分布在哪几个区域? 2. 数据分析师这一岗位在深圳的薪酬待遇如何? Ø 行业特点-理性选择就职行业 3. 不同行业对数据分析师的需求量以及给予的薪酬情况? Ø 企业对工作经验要求-提前做好职业规划 4. 不同工作经验的需求量? 5. 不同的工作经验是如何影响薪酬的? Ø 企业对学历的要求-了解企业对求职者教育背景的要求 6. 企业对不同学历的求职者的需求量是怎样的? 7. 学历不同对工作薪资的影响又将如何? Ø 企业对工作技能的要求-把时间花在刀刃上,有策略的点亮自身技能树 8. 企业希望求职者具备何种工作技能?
  • 6.02 基本结论
  • 7.01 基本结论 总体情况 1. 企业大部分分布在南山/福田两区,可以提前了解这两个行政区的公共交通。 2. 在深圳,数据分析师总体平均薪酬在10-20K,是个薪酬不错的行业。 行业特点 3. 各个行业所给薪酬均不低,非常均匀,且就目前数据,数据分析师涉及的行业共16个,职位的普适性高。 4. 需求量最高的是互联网金融行业,且平均薪酬在17K左右,是个量价均不错的行业,值得尝试! 经验要求 5. 数据分析师是个较年轻的职业,大量工作经验需求集中在1-3年和3-5年中。 6. 对于数据分析师来说,5年后是个瓶颈期,建议在5年内找到合适的转型或者要获得质的提升。 学历要求 7. 学历方面,总体集中在本科及以上学历,大专学历较处于劣势。 8. 不考虑其他因素,学历越高,企业给予的薪酬一般要高。 技能要求 9. Excel/SQL/Python/Hdoop/Spark/Hive这几类工具的需求排在前列,其中Excel/SQL/Python几乎是万 金油,入门必备。 10. Hdoop/Spark/Hive三类技能对应着较高的薪酬,可处理海量数据/分布式处理框架是数据分析师不错的发 展方向。
  • 8.03 数据预处理
  • 9.03 数据预处理 数据集介绍 此次收集的数据集共447条招聘信息,由于拉勾网招聘信息的填写比较规范,447条数据中无任何空数据,质 量非常好!对接下来的数据处理及分析是个不错的消息,数据集的字段主要有如下字段: 1. company:公司名称 2. position:岗位名称 3. salary:薪资待遇 4. experience:工作经验 5. district:公司所在行政区 6. field:公司所属行业领域 7. describe:职位要求描述
  • 10.03 数据预处理 前期准备 1. 加载必要数据库,用于后续处理。 2. 因为后期进行绘图会使用到中文字体,所以提前将中文字体引入备用
  • 11.03 数据预处理 观察数据 1. 首先加载数据,观察未经过清洗的数据特征。 2. 可看到company/field/describe三个字段中,存在着大量换行符”\n ”,需要将其剔除。 3. 总的来说,由于拉勾网较规范的信息填写机制,此次447条招聘信息,并没有任何空数据,对于我们后续 处理来说非常友好!
  • 12.03 数据预处理 数据清洗 1. 2. 3. 4. 根据上述观察,替换‘company’/‘field’/‘describe’字段中多余的换行符\n。 在后续的数据分析中,我还发现‘education’字段中某些元素前后存在空格的情况,在此也将其一并处理完毕。 数据初步清洗完成,接下来进行企业所在行政区分布情况的分析! 代码如下:
  • 13.04 分析实战-地域分布
  • 14.04 分析实战-地域分布 绘图数据整理 1. 从下图看,得益于完整的数据,行政区域字段district完全可直接用于绘图,无需额外清洗。 2. 相关代码如下图:
  • 15.04 分析实战-地域分布 绘图代码展示 1. 由于matplotlib库不支持中文显示,为此需要定义X轴刻度标签自动转换为中文显示的函数。 2. 定义数据标签绘制函数,在条形图上方绘制数据标签,便于查看。 3. 绘图代码展示如下,图像在下一页中展示。
  • 16.04 分析实战-地域分布 成图分析 1. 从拉勾网爬取的数据来看,深圳8各行政区当中, 除坪山区外,各区均有数据分析师人才的需求, 且南山区占据一半还多,居全市之首! 2. 由于拉勾网从偏重于互联网招聘的网站,而深 圳大部分互联网企业分布在南山区,因此也可 能导致南山区的需求量最大。 3. 可以预想到的是:接下来寻找工作很可能在南 山福田一带,可提前查阅前往以上两区的公共 交通线路,做好求职准备。
  • 17.04 分析实战-总体薪酬分布
  • 18.04 分析实战-总体薪酬分布 观察数据 1. 可看到其提供的薪资均为一个范围,并不能直接使用,为此我是通过上下限薪资求平均薪资,用于后续 分析。 2. 考虑使用编写正则表达式定义一个截取函数,截取上下限薪资。 3. 数据情况如下:
  • 19.04 分析实战-总体薪酬分布 绘图数据整理 1. 通过正则表达式将上下限数据取得,分别返回上下限薪资,然后相加求平均得到平均薪资。 2. 获得新字段’avg_salary ’ 平均薪资,代码展示如下(展示省略了部分数据):
  • 20.04 分析实战-总体薪酬分布 绘图代码展示 1. 绘图代码展示如下。 2. 主要通过直方图进行展示。
  • 21.04 分析实战-总体薪酬分布 成图分析 1. 从数据上看,数据分布呈现右偏状态,数据分 析师的薪酬主要集中在10K-20K的范围内。 2. 有极少数人获得35-65的高薪,看来数据分析在 薪酬这一块发展前景甚是不错。 3. 由于我对薪酬的处理方式是通过上下限区平均 数的方式,像10-20K的薪酬只会简单的落在15K, 数据并不均匀,因此实际上的薪资集中度或许 会更好一些。 4. 综合来看,数据分析师整体收入可观,是个不 错的选择。
  • 22.04 分析实战-行业需求量与薪酬
  • 23.04 分析实战-行业需求量与薪酬 观察数据 1. 此字段数据非常不规范,理论上来说,按照拉勾网的设置,在行业领域填写这一栏里,应该由两部分组 成,例如:“移动互联网,数据服务”来说,前一部分是较大范围的广义领域,基本上90的数据都填写 为“移动互联网”,这也跟它网站性质有关,所以逗号前面部分的领域分析意义不大。后一部分是细分 的领域,比较精确的定位,所以接下来的分析我们主要截取逗号后面部分的领域。 2. 理想总是美好的,在这一栏的数据里,填写情况五花八门,有只写一个领域的,也有逗号搞成顿号的, 也有颠倒了广义与细分领域的,更有什么都不写只写“其他”的···· 3. 应对如此复杂的数据情况,我个人觉得通过正则表达式来选取整理是个不错的方法。
  • 24.04 分析实战-行业需求量与薪酬 绘图数据整理 1. 由于数据字段情况复杂,总的来说我的处理是将只填写一个领域的,那么默认其即位细分领域;移动互联网默 认为叫宽范围的广义领域,为此处理如下 2. 获得新字段’field_tag2 ’ 细分领域,,并生成绘图数据“field_count”数据集。
  • 25.04 分析实战-行业需求量与薪酬 绘图代码展示 1. 为了便于比较不同行业需求量与薪酬分布情况,我们可将两部分图同时绘制,比较起来能得到更多信息。 2. 如下,图一绘制行业需求量情况,图二绘制行业平均薪资情况。
  • 26.04 分析实战-行业需求量与薪酬 成图分析 1. 此次数据供生成了16个较明确的 领域,行业分布较广,可见重视 数据分析的行业还是挺多的,也 从侧面反映了数据分析师这一岗 位可适用于各行各业,表现很不 错! 2. 需求量最大的是互联网金融行业, 且平均薪酬还不错,应该是个不 错的选择。 3. 从各行业的平均薪酬来看,大部 分在15K-20K之间,也从侧面反 映了此前关于平均薪酬的分析。 4. 信息安全领域平均薪酬不错,想 获得高薪的小伙伴可以考虑往该 行业发展,由于数据量较少,此 结论需要获得更多数据量支撑。
  • 27.04 分析实战-不同工作经验需求量
  • 28.04 分析实战-不同工作经验需求量 观察数据 1. 整体数据不错,主要需要将“经验”二字删除,有点多余。 2. 考虑到实际情况,“经验不限”与“应届毕业生”都可以归为“经验1年以下”,因此可合并这三类字段。 3. 数据情况如下:
  • 29.04 分析实战-不同工作经验需求量 绘图数据整理 1. 去除经验二字,通过正则表达式定义函数将“1年以下”工作经验的字段合并。 2. 通过配合map()函数,将绘图数据按经验从低到高重新排序,便于绘图观察,绘图数据准备完毕,如下:
  • 30.04 分析实战-不同工作经验需求量 绘图代码展示 1. 绘图代码展示如下。 2. 主要通过条形图进行展示。
  • 31.04 分析实战-不同工作经验需求量 成图分析 1. 从图看出,对工作经验需求量最大的是3-5年的 资深数据分析师,其次是1-3年的熟手数据分析 师,1年以下的新人需求量不多。对于5-10年也 不多,10年以上几乎没有。 2. 可以得出,数据分析师这个职业是较年轻化的 职业,1-3年和3-5年的集中了大部分企业的需 求。 3. 对于数据分析师来说,5年是以后发展的瓶颈, 需要在5年内获得较好的转型或者能力提升,否 则5年后,市场需求量不多,竞争压力较大。
  • 32.04 分析实战-不同工作经验薪酬
  • 33.04 分析实战-不同工作经验薪酬 绘图数据整理 1. 因为此前已对工作经验还有平均薪酬进行过清洗,因此此处无需清洗整理,通过分组可直接应用。 2. 利用get_group(“group_name”)函数,按experience_count[‘experience’]的顺序传入“group_name”,从而可 保证接下来的绘图按工作经验从低到高依次展示。 3. 绘图数据准备完毕,如下:
  • 34.04 分析实战-不同工作经验薪酬 绘图代码展示 1. 绘图代码展示如下。 2. 观察不同工作经验对薪酬的影响,箱线图是最佳的观测方式。 3. 绘图代码如下:
  • 35.04 分析实战-不同工作经验薪酬 成图分析 1. 如图,从工作经验上看,薪资水平逐 级提高,虽然没有其他行业的对比, 但是可以确定,数据分析师的职场上 升路线还是非常有前景的,该职业不 会随着年龄的增长影响收入,也就是 人常说的:越老越吃香!
  • 36.04 分析实战-不同学历需求量
  • 37.04 分析实战-不同学历需求量 绘图数据整理 1. 学历字段总体情况良好,无需额外清洗,因此可以直接整理使用。 2. 通过配合map()函数,将绘图数据按学历从低到高重新排序,便于绘图观察,绘图数据准备完毕,如下:
  • 38.04 分析实战-不同学历需求量 绘图代码展示 1. 绘图代码展示如下。 2. 主要通过条形图进行展示。
  • 39.04 分析实战-不同学历需求量 成图分析 1. 从图可看出,对学历的需求高度集中在本科以 上,大专学历稍有弱势,因此对于本科学历的 小伙伴是个不错的消息。
  • 40.04 分析实战-不同学历的薪酬情况
  • 41.04 分析实战-不同学历的薪酬情况 绘图数据整理 1. 同样学历与薪酬字段均无需处理,因此可以直接整理使用。 2. 同理,依旧利用get_group(“group_name”)函数,按eduration_count[‘eduration’]的顺序传入 “group_name”,从而可保证接下来的绘图按学历从低到高依次展示。 3. 绘图数据准备完毕,如下:
  • 42.04 分析实战-不同学历的薪酬情况 绘图代码展示 1. 绘图代码展示如下。 2. 主要还是通过箱线图进行展示。
  • 43.04 分析实战-不同学历的薪酬情况 成图分析 1. 总体来说,从学历上看,依旧是呈现阶 梯状上升的状态,大专学历稍显弱势。 2. 总之,数据分析师这一职业,学历越高, 竞争优势越明显。
  • 44.04 分析实战-企业对工作技能的要求
  • 45.04 分析实战-企业对工作技能的要求 观察数据 1. 此次词云按平均薪酬划分为3个等级,依次对每个等级进行词云分析,对比3个不同等级的技能要求 2. 观察技能要求描写字段,涉及的关键字段比较复杂,此次分析仅限于对英文名称类的工具(例如SQL)需 求进行统计。 3. 考虑通过正则表达式进行文本处理,截取所需要的英文类工具字段。 4. 通过结巴jieba分词进行关键字的提取。 5. 数据情况如下:
  • 46.04 分析实战-企业对工作技能的要求 绘图数据整理(1) 1. 将平均薪酬按百分位数进行分段,分成3段对应三个等级,top1-薪酬最高,top2-其次,top3-最低。 2. 通过正则表达式截取英文类工具字段,并用逗号隔开 3. 通过jieba分词工具加载自定义辞典后,提取关键字段,可以获得更高的分词准确性
  • 47.04 分析实战-企业对工作技能的要求 绘图数据整理(2) 1. 将提取出来的关键字段分别写出至“top1_keyword.txt” “top2_keyword.txt” “top3_keyword.txt” 3个文档中, 为后续词云绘图工具分析使用。
  • 48.04 分析实战-企业对工作技能的要求 绘图代码展示 1. 通过词云绘制工具库wordcloud加载*keyword.txt文件,并设置好相应的背景图片,词云工具库按关键字出现的频 率,显示大小不同的关键字,频率越高,字体越大。 2. 此处展示top3词云绘制的代码,其余两个等级类似:
  • 49.04 分析实战-企业对工作技能的要求 成图分析(1) 1. “1”-薪酬最高,“2”-其次,“3”-薪酬最低
  • 50.04 分析实战-企业对工作技能的要求 成图分析(2) 1. 成图的结果可能超出大家的想象,对于数据分析师这一岗位,无论是哪个薪酬等级,企业对SQL这一基础的结构化 查询语言,要求居高不下!其次是Python,目前最流行的编程语言,以其强大的第三方工具库,也越来约成为数 据分析师不可或缺的一门利器,各个等级的需求均不低!所以,学好数据分析,缺少不了这两门语言! 2. Excel作为小批量数据处理的表格神器,在top3中有着不小的需求,可见其是一门重要的入门级技能! 3. 随着薪酬等级提高,可以发现以下规律: Hive/Hadoop/Spark 这三门是针对分布式海量数据处理的利器,所占 的比重不断提高,在top1中,Hdoop甚至超越了SQL称为需求量最高的技能!所以,想拿高薪的同学,可以好好学 习Hive/Hadoop/Spark三门语言,特别是Hdoop技能!
  • 51.05 思考总结
  • 52.05 思考总结 思考总结 1. 此次分析的数据主要是从拉勾网上采集的数据,由于拉勾网的数据较偏响于互联网企业,所以对于以上分析来说, 数据量还是比较单一的,且数据量也不是特别丰富,所以以上分析还是略有局限的。 2. 对于平均薪酬的分析,在这里的处理方式比较粗暴,并非实际的工作薪酬,实际求职者有可能获得更高的数据, 也有可能获得更低的数据。 3. 我对于企业对数据分析师技能需求这一块,采取的方式是只截取了英文类工具的需求,实际在企业岗位描述中, 并不只这些,往往还需要求职者具有扎实的数学基础,数据模型知识,算法,以及优秀的数据敏感度等等中文描 述。所以如果需要更加深入的分析,还需对岗位描述作更完善的文本挖掘,难度较高,短时间内尚不能完成,后 续有时间会作更完善的分析。
  • 53.感谢阅读