59e71f225c633
2020-02-27 193浏览
- 1.MaxCompute 2.0 欢迎大家毗邻 阿里云大数据计算服务(MaxCompute)专场
- 2.MaxCompute 2.0 MaxCompute 2.0: 阿里巴巴的大数据进化之路 The evolution of Alibaba Big Data Platform 阿里巴巴通用计算平台负责人/资深专家 Director/SeniorStaffEngineer of Alibaba Computing Platform 关涛 Tony GUAN
- 3.MaxCompute 2.0 1 概述 今天专场的议题 2 阿里巴巴 数据平台进化之路 3 MaxCompute 2.0 Moving forward
- 4.MaxCompute 2.0 MaxCompute/ODPS -- 阿里巴巴和阿里云大数据的旗舰计算平台 99%存储 + 95%计算 BigBench 2.5X 60K+/10+ 阿里巴巴内部统一的 大数据平台,支持阿里所有业务 高性能,低成本 超大规模 跨DC调度容灾能力 250% X 大数据旗舰平台 公共云支撑上层”大脑”和数加 50套+ 作为大数据旗舰平台 专有云部署到各行各业
- 5.MaxCompute 2.0 阿里云大数据计算服务(MaxCompute/ODPS) 淘宝 阿里妈妈 高德 合一 聚划算 应用层 天猫 …… 菜鸟网络 蚂蚁金服 B2B 客满 …… UC 安全部 搜索 API Gateway 数据服务 ASR NLP OCR TTS 开发套件 计算平台 DW Suite (D2/Base) 数据管理 数据总线(DataHub) 基于Pub/Sub的数 据同步服务 Image/Video Analysis 机器翻译 语音识别 开发套件 大数据计算平台 MaxCompute/ODPS 智能大脑 DataV 数据可 视化 流水线管理 人工智能 PAI …
- 6.MaxCompute 2.0 1 概述 今天专场的议题 2 3 阿里巴巴 MaxCompute 2.0 数据平台进化之路 Now and Moving forward
- 7.MaxCompute 2.0 阿里巴巴大数据平台的进化之路
- 8.MaxCompute 2.0 大数据开始发 展,在统一机 器和数据中心 的基础上,各 个BU各自为战 IOE年代 Greenplum之巅 (天花板) 第一代平台开始运行 • 自主研发的云计算平台飞天 的第一个集群稳定运行。 • MaxCompute作为核心运 算引擎。 具备超大规模海量数据处理 能力 • 单集群规模5000台服务 • 飞天集群正式开始对外运 营,技术领先。 2010.10 2013.08 ~2010 ~2009 Oracle之巅 亚洲最大 单日计算仍然无法完成 GP项目启动 2009.09 飞天MaxCompute大数 据平台研发启动 愿景:打造运算/分享 数据第一平台 2012.07 • • • 开始统一数据平台 数据统一存储 数据标准统一 数据安全统一管理 ~2013 Hadoop之巅 亚洲最大, ~PB, ~5000台 单数据中心扩展上限 多租户安全不受控 自主可控能力差 MaxCompute2.0 • 单集群过万台,12+集群 • 对内,性能/成本再优化 • 全球部署,支撑业务发展 • 对外大数据能力输出关键 年 2016-2017 2014~2015 大数据平台开始日趋成熟 • 多级群能力 • 支撑双十一海量交易 • 支撑阿里金融业务创新 • 登月计划完成,云梯1/2合并
- 9.MaxCompute 2.0 登月计划 – 一个统一的过程 • 我们为什么要登月? • • 在统一的数据中心和硬件基础上(IaaS),集团存在大大小小数十个计算平台; 从技术上,阿里集团内部的技术发展路线上曾经是双“强”并立:支撑淘宝、支付宝等业务的以Hadoop为底层的 云梯1和支撑阿里云、阿里金融等业务的以自主研发“飞天”及MaxCompute为底层的云梯2。 • 当时Hadoop平台面临的问题: • • • • • • 扩展性差,规模有限制,当时无法突破5千台稳定规模;无法满足数据和业务的高速发展; • 存在包括NameNode,JobTracker,HiveServer等多个单点; 性能低,无法满足在5K+规模上的极致性能要求; • 引擎本身每年性能提升有限 • 开源强调的各层解耦,分层接口带来额外的性能开销; 安全性不够高,Hadoop下的HDFS文件授权机制不能满足业务灵活的权限管理 稳定性差,不能支持多个集群和跨集群容灾; 起步简单,但后续提升困难,代码开源但反馈回社区的周期很长。很多集群变成事实上的“自研”系统;这又进一 步导致的版本不统一,各个集群无法互联互通! 。。。
- 10.MaxCompute 2.0 登月计划 – 一个统一的过程 • 这是一个“漫长”和“昂贵”的过程 • 阿里巴巴集团层面牵头,“登月计划”共有24多个项目,涉及阿里巴巴和小微金服所有的事业部,覆盖集 团全部数据人员,其牵扯人员、资源之多,在集团内部罕见。 • 登月1号(阿里金融),登月2号(淘宝),。。。,登月24号 • 2014年1月9日,【登月计划】核心团队正式Kick Off,2015年6月30日,【登月计划】项目集正式Close。 历时一年半。 • 为了保障登月计划,MaxCompute • • • • 满足所有Hadoop集群的功能,提供至少不低于其他方案的性能; 并在接口,编程模型等多个方面兼容; 提供完善的上云工具和数据迁移/对比工具; 由于不得不在业务进行中升级,和业务方一起做无缝升级方案,“在行驶的飞机上换引擎”;
- 11.MaxCompute 2.0 登月计划 – 一个统一的过程 • 统一后: • 打造了集团统一的大数据平台 • 为我们迈进DT时代以及为集团数据业务的长远发展奠定坚实基础。 • 目前阿里集团内部计算业务运行于MaxCompute集群上,总存储能力达到EB级别,每天运行ODPS_TASK超过 300万。 • 新平台 【安全性、可管理、能开放】 • 安全性:不仅仅是ODPS本身产品的安全特性,登月过程中还启动并执行了数据分级打标、数据脱敏、ODPS授权 流程、虚拟域接入在云端查询版…… • 可管理:数据管理平台不断优化,统一任务调度中心、统一数据同步工具、统一数据地图管理、统一生命周期能 开放:开放数据处理服务( MaxCompute )作为云产品家族的一部分正式开放给全社会使用…… • 新平台【高性能、全面的数据统一】 • 2014年存储资源优化节约近200PB,2015计算资源优化正在不断突破。 • 通过梳理,各业务团队的作业数/计算量分别有30%-50%的下降,一些历史遗留问题得到全面的清理。
- 12.MaxCompute 2.0 MaxCompute 2.0 Now and moving forward
- 13.MaxCompute 2.0 MaxCompute 2.0 架构持续升级 多种工具 支持 Studio 交互 批处理 新一代大数据语言 结合imperative 与 Declarative优势 DataWorks 开发套件 New SQL 内存计算 Python Bubble Based Scheduling 支持多种运算模式 覆盖主流语言 基于代价和历史运行信息的优化 运行时 元数据管理,资源调度 ,任务调度 Cache 缓存 分层存储(SSD,SATA,EC) Java 优化器 编译器 WholeStage CodeGen 全异步IO 迭代计算 统一的开发环境 数据存储 与生态系统的联动能力 Index支持 AliORC,与原生ORC兼容,性能提升15%
- 14.MaxCompute 2.0 大数据计算 典型场景分析(从开发到上线)
- 15.MaxCompute 2.0 大数据计算 典型场景分析(从计算量和延迟的角度)
- 16.MaxCompute 2.0 大数据计算 典型场景分析(从计算量和延迟的角度) • 关键基线作业为主(20%) • 数据处理量大(80%) • 资源消耗多(80%) • 数据依赖多样 =》提升性能/效率是关键 • 开发/BI作业为主 • 作业量大(80%) => 开发效率+实时化是关键
- 17.MaxCompute 2.0 大数据计算 交互式BI类场景分析 OnlineJob HotDataCache Index support in Data 生产阶段 Data Cooking/Pipeline Interactive Analysis Analysis/ Reporting BI 更优的查 询计划 实时性 • • • 通常是WebUI Based, 有较高的延迟要求(10Sec) 由人“间接”驱动, Query不固定 数据量小+Pre-cooked • 典型作业: • 基于Web的定制化报表 (or Tableau/Notebook based) • QuickBI – 通过拖拽完成数据查询 • Shennong 数据监控 • SLS Log搜索 运行时 优化 数据准备 Plan Cache Index based Shuffle Removing Predicate Pushdown 生态连接能力 数据存 储格式 与其他系统 Streaming Processing Index/m-Index support 基于元仓的数仓建模
- 18.MaxCompute 2.0 大数据计算 交互式BI类场景 一个优化的例子 生产阶段 Online Job Data Cooking/Pipeline 设计思想: • 针对中小规模 • 低延迟的交互式场景 • 提供可靠性 *线上60%以上的作用已经使用OnlineJob调度* Interactive Analysis Analysis/ Reporting BI Streaming Processing 主要技术: • 进程常住(以服务的形式Stand by) • 作业间复用 • 网络直连(避免落盘) • 事件驱动的调度方式 • 基于统计和历史信息的自动切换,用户不感知
- 19.MaxCompute 2.0 大数据计算 交互式BI类场景 一个优化的例子 传统方式:磁盘 生产阶段 Online Job M1-0 M1-0 M1-0 Data Cooking/Pipeline a aa b bb J-0 J-0 M1-1 M1-1 M1-1 J-1 M1-2 M1-2 Interactive Analysis Map1 Map1 Map1 Map2 Map2 Map2 Analysis/ Reporting 网络直连 M1-0 BI J-0 Join Join Join Streaming Processing M1-1 J-1 M1-2 内存checkpoint
- 20.MaxCompute 2.0 2017 BigBench On MaxCompute 2.0 + PAI 7830 QPM 100TB 首个达到7000分的引擎 首个100TB规模测试集通过 $371.9/QPM $12.3/QPM $2.1/QPM 预付费包3年价格 预付费包1月价格 按需后付费价格 首个基于公共云服务的BenchmarkDisclaimer:The BigBench kit used for these performance tests is derived but not the same from TPCx-BigBench, and the results are not directly comparable.
- 21.MaxCompute 2.0 为什么选择MaxCompute作为大数据平台 开通即用的 在线服务 5分钟完成在线开通 开通即拥有大数据平台 高效能 低成本 性价比最高的 大数据计算引擎 • 数加控制台 5分钟开通 • SDK • 2016年Sort 成本最低 排序1.44$/TB • 客户端 无需平台 维护 一站式大 数据服务 Bench 100TB • 2016年Sort • MaxCompute 速度最快 Bench 100TB 排序377秒 • DataIDE • 基于IntelliJ的 Stduio 安全 可靠 保障数据在多租户 环境的数据安全 项目级别 安全 跨租户访 问控制 • 从GB、TB到 按需扩展 PB、EB • 零运维介入 支持多种 分布式计算模型 满足不同场景的 技术需求 • 独有的基于项 目级别的数据 SQL 保护机制 • Package授权 • Trusted模式 • 阿里云RAM Map Reduce 双11的核心数 据平台 SQL语法 支持多宗数据源、生态工具 和社区标准 • OGG、Sqoop、 数据上云 FluentD • 在MR基础上支 持MR2,Map Flume、 • SQL、 社区兼容 接多个Reduce Hadoop MR、 Hive Thrift • JDBC、ODBC、 • 阿里集团历届 久经考验 • 采用标准的 生态开放 兼容 图计算 • 适合复杂的迭 代计算场景 生态连接 R、Python Pandas、 IntelliJ IDEA
- 22.MaxCompute 2.0 为什么选择MaxCompute作为大数据平台 数据源 数据集成工具 大数据项目开发工具 数据计算、管理与数据运维 数据分析与应用 应用产生的数据 (在阿里云) CD N 内容分发 日志 SLB负载均衡 RDS VPC专有网络 DataIDE (数据管理与数据运维) DataIDE DataIDE (数据同步) (数据任务与流程开发) 机器学习(深度分析) ECS部署应用集群 O SS 文件存储 RD S 数据库 OSS Sqoop 专线/VPN连接 应用产生的数据 (在其它数据中心) 已有数据中心 Logstash Analyti cDB Oracle DB Hadoop 集群 CSV 独立的数据集 Fluentd OGG For MC MaxCompute客户端 (命令行工具) DataX 迭代 计算 图计算 流计算 推荐引擎 MaxCompute:统一的计算引擎 飞天分布式操作系统:一台大计算机 阿里云数据传 输 For MaxCompute MaxCompute 客户端Tunnel MR SQL 10000台 10000台 10000台 报表分析 MaxCompute Studio (基于IntelliJ) 集群1 集群2 集群n 数据大屏
- 23.MaxCompute 2.0 阿里云大数据计算服务 (MaxCompute)专场
- 24.MaxCompute 2.0 THANK YOU Scan QR Code 关注MaxCompute产品社区 了解MaxCompute产品详情 加入MaxCompute钉群咨询 诚聘MaxCompute英才 Community Product Details Join DingTalk Group We are hiring!
- 25.
- 26.