爱奇艺大数据平台的构建之路

2020-02-27 214浏览

  • 1.爱奇艺大数据平台的构建之路 云平台技术总监 刘俊晖
  • 2.目录 • 爱奇艺大数据平台的挑战 • 平台的构建之路 − 1.0 专业化 − 2.0  规模化 − 3.0  生态化 • 案例 • 总结
  • 3.2011 爱奇艺大事记 6月23日 “奇艺出品”战略 11月26日 品牌战略升级为 2012 11月2日 爱奇艺 成为百度的 2016 全资子公司 2月7日 独家直播2016猴年春晚 除夕当晚总播放量突破4500万 4月15日 《太阳的后裔》26亿播放量收官 微博话题阅读量达122亿 微指数峰值达到83万 5月6日 2016爱奇艺世界大会圆满收官 中国首个开放娱乐生态首次展现全貌 构建“爱奇艺世界观” 6月1日 爱奇艺有效VIP会员数已突破2000万 2015 2月18日 羊年春晚独家在线直播 7月6日 《盗墓笔记》全集上线 60小时总播放量破10亿 10月14日 爱奇艺VIP会员品牌全面升级 12月1日 爱奇艺VIP会员突破1000万 “爱奇艺” 2013 5月7日 爱奇艺与PPS合并 提供更优质服务 2014 7月17日 爱奇艺宣布成立影业公 提出“爱7.1电影大计划” 2010 4月22日 视频网站 “奇艺” 正式上线
  • 4.爱奇艺移动端 核心指标行业领先 移动端数据 l 爱奇艺移动端以3.3亿人的月度覆盖位列行业第一,总体占比高达55%,行业领先优势持续加大 l 爱奇艺移动端月度总使用次数(活跃度)达212亿次,成为视频用户首选 日均覆盖人数 月度覆盖人数 爱奇艺 腾讯视频 优酷 乐视视频 芒果TV 风行视频 搜狐视频 土豆网 PPTV网络电视 凤凰视频 13,735.6 8,770.3 6,163.9 2,631.7 1,851.2 1,065.9 960.0 593.2 543.4 111.5 (数据来源:艾瑞MUT,2016年8月) NO.1 月度浏览时间 月度覆盖人数(万人) 爱奇艺 腾讯视频 优酷 芒果TV 乐视视频 搜狐视频 风行视频 PPTV网络电视 土豆网 响巢看看 32,592.8 21,555.4 18,923.4 12,981.7 7,742.3 4,415.6 3,518.8 2,440.2 2,185.4 568.1 (数据来源:艾瑞MUT,2016年8月) > 日均覆盖人数(万人) NO.1 > > NO.1 (数据来源:艾瑞MUT,2016年8月) 月度浏览时间(万分钟) 爱奇艺 优酷 腾讯视频 乐视视频 风行视频 搜狐视频 土豆网 芒果TV PPTV网络电视 响巢看看 21,148,529.5 18,160,244.5 8,585,908.5 3,984,815.3 2,491,726.0 2,159,663.5 1,370,436.2 1,218,759.2 834,657.4 161,279.1 (数据来源:艾瑞MUT,2016年8月)
  • 5.挑战 30 X 数据量 2 PB+/day 日均处理量 10 PB/人 人均运维量
  • 6.爱奇艺大数据应用 大数据 TA精算 大剧探针 爱奇艺指数 VIP服务 广告投放 后羿(会员精准营销系统) 电影探针 品牌分析 众里寻TA 剧场受众分析 一搜百映 追星族、接力赛、群英荟
  • 7.1.0  专业化 • 时间:2010 ~ 2013 • 规模 • 集群:50 ~ 330台 • 存储:1~6PB • 计算: • 日均作业:3万 • 日均tasks数:220万 • 日处理数据:150TB • 开源服务 • HDFS、MapReduce、Hive、HBase Map  Reduce Hive HBase HDFS
  • 8.1.0  专业化 痛点 方案 • 半监控状态 • 小文件多/存储压力大 • • • • • Jobtracker性能瓶颈 (1.3亿小文件,2PB冷数据) • 业务自己维护集群 • 运维不规范 集中到云平台管理 脚本化、流程 Ganglia   +  Nagios Name/Space   Quota • 改源码,JT任务调度 加快12倍
  • 9.JobTracker调度性能差 • Hadoop  1.x  +  FairScheduler • 同时运行的任务多 à 调度时间>60ms à 心跳 延迟大 • 解决方案: • 修改FairScheduler源代码,一次排序分配多个任务 • 修改后调度时间<5ms
  • 10.2.0  规模化 • 时间:2014 ~ 2015 • 规模 • 集群:1000+台 • 存储:~30PB • 计算: • 日均作业:~8万 • 日均tasks数:~1800万 • 日处理数据:~900TB 工作平台 Map Reduce Spark Spark   Streaming Storm YARN  /  Mesos Hive • 开源服务 • HDFS、MapReduce、Hive、HBase • Spark、Storm HBase HDFS
  • 11.2.0  规模化 痛点 方案 • 运维脚本较散乱 • 存储成本骤增 • Hadoop工作平台 • Parquet+gz组合(省20%) • 离线服务延迟大 • 资源利用率不够高 • 推广Spark、Storm • 升级到Yarn(提高21%) • 权限控制不够 • 故障处理慢 • Kerberos、HDFS  ACL • 源码解决(贡献了45+   Patch)
  • 12.Hadoop工作平台 • 后台管理(CMDB) • 集群、服务器、配置、用户等 • 运维管理 • 运维操作Web化,配置与脚本 分离 • 脚本Ansible为主,Python为辅 • 数据管理 • 数据注册与发现 • Metadata  API • 公共库管理 • Hive  UDF 运维管理 数据管理 公共库管理 后台管理(CMDB)
  • 13.YARN升级 对比项 Hadoop 1.0 Hadoop 2.0 (YARN) 计算框架 只支持MapReduce YARN成为一个通用的资源管理系统,支持 MapReduce、Spark、Storm等目前比较流行的计算 框架,甚至还允许用户自定义计算框架 调度 JobTracker负责所有的任务调度,负担 较重 双层调度:应用调度、应用内tasks调度。 将应用内调度交给应用自己负责,减轻调度器负担 资源隔离 将资源简单地划分为slot,比如1slot = 使用LXC进行隔离,用户可以自己申请需要多少资 (1CPU, 2GB Mem); 源,更加灵活、更充分利用; 将slot资源人为地划分为map、reduce, 2.6开始支持Docker 不适用于动态变化的生产环境 Availability 单点 HA 作业运行时间 475  s 201  s  (降低57.7%) 资源利用率 (min/avg/max)CPU:'>CPU: