淘宝数据分析挖掘实践及变革
2020-03-01 263浏览
- 1.淘宝数据分析挖掘实践及变革 毛波 2013-04
- 2.目录 •淘宝数据四阶段 •系统变迁及平台架构 •数据应用格局 •新的探索 •一些观点
- 3.淘宝数据四阶段 • 被动响应 –2007年前 • 主动变革 –2008-2010 • 优化完善 –2011-2012 • 引领驱动 –2013-
- 4.系统变迁及平台架构
- 5.数据系统变迁 2011-2012 Hadoop集群 2008-2010 DXP公有云 Hadoop集群 实时Storm 调度监控 调度监控 2007年前 实时日志传输 实时日志传输 数据库(集群) 数据门户 实时数据库同步 脚本 多维分析 数据门户 简单调度 自助查询工具 数据报表 元数据管理 2013数据驱动 新模式探索
- 6.数据系统变迁 数据 量 • 性能 • 扩展性 • 运维 技术 方案 资源 业务 需求
- 7.数据平台架构 数据门户 多维自助查询平台 在云端接入 数据魔方 OpenAPI 量子恒道 分布式集群 实时计算 Storm Hbase Hive 调 度 数 据 应 用 DXP 数据交 换平台 Ocean Base 冷数据 集群 … 数 据 计 算 平 台 HDFS 监 控 DataX 业务库(Mysql) DBSync Log Server 数 据 收 集 TT …… 外部数据 数 据 源
- 8.数据应用格局
- 9.对外数据产品 • 数据魔方/淘宝指数 –行业趋势 –人群特征 –成交排行 –市场细分 • 量子恒道 –销售分析 –营销效果 –来源分析 • 搜索排行榜
- 10.对外数据产品 • 淘宝时光机 –http://me.taobao.com/–回忆的感动 • 排行榜
- 11.对外数据产品-淘宝指数
- 12.对外数据产品-量子恒道
- 13.数据嵌入产品中 • 搜索匹配、排序 • 广告匹配、排序 • 推荐 • 商家后台数据 • 营销效果 –直通车、展示广告、淘宝客
- 14.内部数据服务 • 淘数据门户 –用户分析 –商家云图 –活动效果分析 –例行数据报表 • 在云端 –低门槛接入分布式集群 –周活跃用户1000+
- 15.内部数据服务 • 多维数据自助查询平台 –数据仓库和索引技术结合 –随意组合维度 –秒级返回 • 日常数据需求管理 –数据接口人
- 16.数据工具 • 天网调度 • 元数据管理 • 数据地图-定位、血缘分析 • DataX异源数据传输 • TimeTunnel实时日志传输 • 监控报警 • 生命周期管理
- 17.新的探索 • 金融服务 –小微企业贷款 –个人消费贷款 • 全网精准营销 –DMP、DSP、AD Exchange、RTB • 无线与PC数据打通 • 数据交换
- 18.一些观点 • 数据处理是手段,数据应用是根本 • 云系统运维能力是核心竞争力 • 整合关联让数据价值指数级增长 • 数据可视化很重要 • 想大做小,迭代优化 • 关于隐私 –隐私和服务的权衡-GPS –控制使用比控制收集更有效 –不针对具体个体
- 19.新浪微博:eNeolithic QA