淘宝数据仓库架构实践
2020-03-01 277浏览
- 1.淘宝数据仓库架构实践 薛奎 2012-04-05
- 2.主题 概述 元数据平台架构 存储计算架构 开发管理平台架构 应用开放平台架构 展望
- 3.概述 阿里集团未来更像一家数据公司而不是一家电商公司
- 4.淘宝数据仓库架构
- 5.元数据 子主题 概述 元数据平台架构 元数据在淘宝中的应用
- 6.元数据架构 元数据 系统元数据 数据库表元数据 ETL代码元数据 数据表描述 数据字段描述 业务元数据 ETL仸务运行过程元数据 对数据表,字段引用关 数据容量元数据 系统元数据与业务元数 据关系元数据 业务逻辑单元元数据 ETL仸务调度元数据 系 map数,reduce数 记录数 依赖关系 业务主题元数据 代码元素元数据 运行起至时间 占用空间大小 调度周期 语义元数据 优先级 ……
- 7.元数据在淘宝中的应用 血缘分析 系统 Reduce自 …… 调度系统 适应系统 数据波动 元数据 自助分析 监控系统 告警系统 提数系统 自动化建 ETL代码 模系统 优化系统
- 8.存储计算架构 子主题 存储计算平台选型 传统存储计算平台架构 分布式平台设计理念 淘宝存储计算平台发展
- 9.存储计算平台选型 01 规模评估 使用人数、数据量、数据保存周 期、数据需求量 02 容量评估 02 需求评估 计算(CPU/内存),存储(磁盘), 网络(网卡,路由器). 线性扩展、成本、稳定性、性能 、运维……
- 10.传统数据仓库平台架构 根据对节点(CPU/内存),磁盘,网络的共享分为 完全共享、部分共享与完全不共享几种类型. 共享磁盘 .对称多处理SMP 磁盘 Client Client Client DB 完全不共享 DB DB DB SAN/共享磁盘 DB DB DB DB DB 磁盘 磁盘 磁盘 磁盘
- 11.分布式平台设计理念 异构软硬件平台间的可移植性 移动计算比移动数据更划算 简单的一致性模型 (写一次,不限读次数) 硬件错误是常态而不是异常 流式数据访问 大规模数据集
- 12.淘宝计算存储平台发展 特点:可线性扩展;多副本机制 保证系统7*24小时不间断提供服 务。开源系统与低廉设备 特点:可线性扩展,但当集群到 达一定规模时,数据仓库的不可 写时间会越来越长。低廉的设备 与收费软件 特点:有一定的扩展能 力,但不是线性扩展。 高端存储与商业软件成 本高昂 特点:无扩 展能力,计 算存储能力 有限 hadoop集群(2000节点) Greenplum分布式数据库 Oracle RAC多节点(20) Oracle单节点
- 13.开发管理平台架构 子主题 总体规划 云分析 ETL 任务调度
- 14.总体规划 云分析 开发 问答 知识中心 测试 ..... 自动化测试平台(开发中) 布署上预发 ..... 版本/发布功能(开发中) 预发 ..... 天网 布署上生产 ..... 版本/发布功能(开发中) 冒烟 ..... 天网
- 15.云分析 已支持 HIVE PIG Shell Python Mahout R MR AD-HOC 开发平台 社区、知识库、帮助中心 计划支持
- 16.ETL任务调度平台 Crontab调度 完全为了解决定时 启动的问题 无法解决时序前后 置依赖问题 元法解决均衡负载 问题 无法解决优先级问 题 运维的灾难 RAC天网调度 根节点定时启动 任务之间完全基于 触发启动 能很好解决均衡负 载的问题 能很好的解决优先 级问题 一键式运维,轻松 快捷 不能解决rac单节 点失效的问题。 分布式天网调度 根节点启动 仸务之间基于触发 启动 能很好解决均衡负 载 ETL仸务的优先级 能传递到云梯的资 源分配调度 很好解决gateway 失效的问题 一键式运维,轻松 快捷 调度系统之于数据仓库有如大脑于人体一样重要,他是数据仓库所有任 务高度协同有序运转的指挥中心.
- 17.早期天网原型
- 18.应用开放平台架构 子主题 总体规划 数据采集 统一淘宝数据体系 统一指标库、CUBE群、TOP结果集 数据应用商店DAS(Data APP Store) 官方数据应用:DSM、ADM
- 19.总体规划 DSM ADM 淘数据 商城数据 portal 你的数据 应用产品 数据应 用商店 (接口) Data APP Store(DAS) 云分析 统一指标库 CUBE TOPX 数据应 用产品 …… 结果集 (OB集 群) 事实层 DW(云梯) 主题层 ODS TT datax dbsync 数据采 集
- 20.数据采集 Dbsync:DB log解析, 准实时同步 TT:浏览日志数据同步, 基本上实时同步 DATA 采集 Datax:全量同步, 基本上延迟一天
- 21.统一淘宝数据体系 基于ODS、主题与实事三层标准 核心业务数据驱动+其它业务应用驱动 统一淘宝 数据体系 初期人工为主,后期自动化建模为主 基于云存储计算环境 打造电子商务行业数据模型标准
- 22.淘宝业务模型 浏览 购买 支付 收藏 物流 评价 发布 销售 收款 分销 营销 物流 P4P 退处投评旺 款罚诉价旺 聚卖 划家 算工 具
- 23.统一指标库—生成过程 指标 维度 W1 W2 W3 W4 W5 W6 周期 一级 类目 地域 卖家 性别 年龄 段 卖家 星级 W7 W8 I1 I2 I3 GMV 支付宝 成交 PV 指标库 唯一标识 指标名称 度量代码 20120401001 周期=日|一级类目 Sum(GMV) =男装|地域=上 海|日交易大于等于 1W的店铺 度量值(元) 标签 300000000 GVM 男装 上海 网站运营部 男 装运营
- 24.统一指标库—目前指标来源 统一指标库: 逐步切换为统一建模+应用驱动的来源,目前 绝大多数指标库来源为淘数据指标 淘数据接入 60% 5% 25% 建模+应用驱动 10% ETL开发 第三方系统接入
- 25.Data App Store(DAS) DSM XML Jsion 指标库 http CUBE群 API …… ……
- 26.DSM系统 Data Super Market:简称DSM,就像在超市购 物一样获取你想要的数据,从此您只需要看一张 报表,100%DIY By Yourself. 格式一次定义,永久生成 数据一次定义,定期自动产生 搜索的方法查找数据 取你所想,用你所用 通过业务元数据定位数据 支持EXCEL的所有编辑功能 支持定期邮件发送功能 支持excel导出
- 27.展望
- 28.联系我们 • 数据平台与产品 Blog:http://www.tbdata.org/ 百科: 邮件列表:taobao-dw@list.alibaba-inc.com • 薛奎 微博:淘薛奎 mail:xuekui@taobao.com 旺旺:薛奎