16:20 17:10 王晓鹏 品友大数据分析平台演进
2020-03-01 175浏览
- 1.
- 2.品友大数据分析平台的架构和演化 王晓鹏
- 3.议程 • • • • • • 大数据分析的步骤 品友大数据分析平台的架构 投放分析平台的演进 数据管理分析平台的演进 工具的探索与实践 总结
- 4.大数据分析步骤 数据可视化 数据分析 数据建模 数据清理 数据收集 • 模型训练 • 模型管理 • 模型优化. • 清洗,去噪,去重 • 数据规整 • 反欺诈数据 • 数据报告 • 数据预警 • 数据洞察 • 事件收集(曝光,点击,转化,访客) • JDBC,API(CRM,ERP,Social) • SFTP,Upload(历史数据,第三方数据,离线数据) • 多维度切分聚合 • 热力图 • 散点图. 处方性 分析 •行动建议 预测性 分析 • 预测模型 • 行动建议 诊断性分析 描述性分析 • 趋势分析 • 关联分析 • 业务报表 • 多维度 • 聚合切片
- 5.品友应用大数据分析的产品 目的不同 1 2 使用场景不同 数据不同 投放分析平台 企业数据管理平台 品友的广告投放平台 DMP,SaaS,In-House,Hybrid 用户为广告投放运营 用户为企业市场,IT,数据分析 面向用户不同
- 6.品友投放数据及其分析需求 基础一方数据 (用户资料,用户标签): 15G/日*365+40G *12月 = 5T/年 考虑20%的业务增长率后为: 6T/年 分析数据:600G/日 广告行为数据:250T/年 考虑20%的业务增长率后为: 300T/年 数据存储的建议 鉴于用户换机周期为1.5年,我们建 议广告行为数据存储1.5年; 一方标签数据、分析数据、报表数 据永久存储 建议分配存储:XX(与研发确认) 考虑20%的业务增长率后为: 272T/年 关键性指标 多维分析查询速度:不高于10秒 (不含用户访问查询页面的时间); 人群预估响应时间:秒级; 人群生成响应时间:与人群规模有 关; 并发查询数目:1000请求/秒;
- 7.第一代大数据平台(2013-2014)
- 8.第二代大数据平台(2015-2016)
- 9.第三代大数据平台(2016- 现在)
- 10.DMP的数据及分析需求 数据来源 投放数据 社交活动 商业 其它 •曝光 •点击 •转化 •访客 用户角色及需求 IT •数据资产 •数据质量 业务运营 •报表洞察 •趋势分析 •微信 •微博 •CRM •ERP •WIFI •IoT •离线数据 数据科学家 •灵活的数据操作 •数据建模 •预测分析
- 11.没有银弹(No Silver Bullet) 投放数据 第一方数据 来自广告投放及网站访问事件 属于客户第一方的多种数据 数据量十分巨大 数据量相对小 80% 80% 数据种类少,格式单一,稳定 数据种类多,格式多,质量不稳定 58% 58% 需要更新及时 数据更新分批分阶段 76% 76% 报析结果需要聚合结果 需要灵活,精确查询 80% 基本是需要报表结果 80% 有更深入的预测分析需求 58% 58%
- 12.DMP数据分析的全面开花 •功能可以 •性能不够实时 •权限,学习曲线 •交互式数据分析 •可视化SQL查询 •投放数据 •聚合,实时,灵 活 Hive/Presto Druid/Kylin Zepplin Pilosa •Bitmap •人群画像 •一方标签
- 13.DRUID • 高性能的,分布式列存储的MOLAP框架 • 特点 – 亚秒级查询 – 实时数据注入 – 可扩展的PB级存储 – 支持多种数据源:hadoop,spark,kafka,storm和samza等 • 缺点 – 只有聚合结果,没有明细
- 14.Druid在品友的实践 • 使用场景:广告实时统计分析 • 数据:投放数据,20亿/天 曝光/点击/访客 事 件 收 集 Kafka ETL DRUID HDFS 数 据 呈 现
- 15.Zepplin,数据分析师的心头好 • Apache Zepplin是可视化框架 • 应用于交互式数据分析,七牛云, • 支持多种语言,默认是scala(背后是Spark shell), SparkSQL, Markdown 和 Shel • 功能 • 数据可视化 • 用SQL来进行可视化查询
- 16.Zepplin在品友的实践
- 17.Pilosa在品友的实践 • Bitmap对海量用户进行 标签 • 0/1来代表有某标签 • 人群画像速度提升 • 人群查询方便 • 易于扩展
- 18.Palo vs ClickHouse
- 19.选择。。。选择。。。 • ClickHouse vs Palo • Druid vs Kylin • GreenPalm vs Elastic Search
- 20.自己动手,丰衣足食 • • • • 数据Console 机器学习平台 加速数据分析 Alluxio Knime
- 21.品友数据分析平台总结 • 根据数据量,使用者角色设计设计 分析平台很重要 • 对工具的选择来说,没有银弹 • 走工具+自我开发的道路
- 22.