阿里巴巴 路璐 - 《万台集群性能优化方法&MaxCompute性能优化实践》_部分1

2020-03-04 325浏览

  • 1.MaxCompute性能优化实践 阿里巴巴集团-计算平台事业部 路璐
  • 2.MaxCompute/ODPS -- 阿里巴巴和阿里云大数据的旗舰计算平台 99%存储 + 95%计算 阿里巴巴内部统一的 大数据平台,支持阿里所有业务 BigBench 2.5X 高性能,低成本 60K+/10+ 超大规模 跨DC调度容灾能力 250% X 50套+ 大数据旗舰平台 作为大数据旗舰平台 公共云支撑上层”大脑”和数加 专有云部署到各行各业 Alibaba Group,Copy Right Reserved。
  • 3.阿里云大数据计算服务(MaxCompute/ODPS) 应用层 淘宝 阿里妈妈 高德 天猫 B2B 蚂蚁金服 聚划算 菜鸟网络 合一 …… 客满 UC …… 搜索 安全部 数据服务 API Gateway ASR NLP Image/Video Analysis 机器翻译 语音识别 DataV 数据可视 化 TTS OCR 智能大脑 开发套件 DW Suite (D2/Base) 数据管理 开发套件 流水线管理 计算平台 数据总线(DataHub) 基于Pub/Sub的数据 同步服务 大数据计算平台 MaxCompute/ODPS 人工智能 PAI … Alibaba Group,Copy Right Reserved。
  • 4.大数据计算 典型场景分析(从计算量和延迟的角度) Alibaba Group,Copy Right Reserved。
  • 5.大数据计算 典型场景分析(从计算量和延迟的角度) • 关键基线作业为主(20%) • 数据处理量大(80%) • 资源消耗多(80%) • 数据依赖多样 =》提升性能/效率是关键 • 开发/BI作业为主 • 作业量大(80%) => 开发效率+实时化是关键 Alibaba Group,Copy Right Reserved。
  • 6.MaxCompute 2.0 架构持续升级 多种工具 支持 新一代大数据语言 结合imperative 与 Declarative优势 WholeStage CodeGen 全异步IO Bubble Based Scheduling 分层存储(SSD,SATA,EC) Studio DataWorks 开发套件 批处理 交互 内存计算 迭代计算 New SQL Python Java 编译器 运行时 优化器 元数据管理,资源调度 ,任务调度 Cache 缓存 数据存储 统一的开发环境 支持多种运算模式 覆盖主流语言 基于代价和历史运行信息的优化 与生态系统的联动能力 Index支持 AliORC,与原生ORC兼容 Alibaba Group,Copy Right Reserved。
  • 7.MaxCompute 2.0 架构优化——HBO HBO(History-Based Optimization)是基于任务执行历史的优化方式。 任务执行历史 + 集群状态信息 + 优化规则 -> 更优的执行配置 提升效率 节约成本 优化措施 优化效果 效果体现 多维度 基于大数据分析 Alibaba Group,Copy Right Reserved。
  • 8.MaxCompute 2.0 架构优化——runtime行转 列 SIMD 并行化 • SSE/AVX系列指令 •LLVM codegen 按行读取 转变 按列读取 Alibaba Group,Copy Right Reserved。 Cache Miss
  • 9.MaxCompute 2.0 架构优化——python udf Python占比太高 PyPy • 核心python package编译成c++ .so lib • JIT优化 • C++函数指针级别原生调用python • 轻量级语言安全沙箱 Alibaba Group,Copy Right Reserved。
  • 10.MaxCompute 性能优化——profiling工具(单机篇 ) CPU Memory 提高效率 IO 解决瓶颈 关键资 源 Alibaba Group,Copy Right Reserved。
  • 11.MaxCompute 性能优化——profiling工具(单机篇 ) CPU Memory 提高效率 IO 解决瓶颈 关键资 源 分析热点 优化算法 微架构优化 CPU NUMA 顺序访问 地址对齐 内存 优化 IO IO合并 顺序化 内存Cache 网络 压缩 DPDK Alibaba Group,Copy Right Reserved。
  • 12.MaxCompute 性能优化——profiling工具(单机 篇) CPU Memory 提高效率 IO 解决瓶颈 关键资 源 分析热点 优化算法 微架构优化 CPU NUMA 顺序访问 地址对齐 内存 优化 IO IO合并 顺序化 内存Cache 网络 压缩 DPDK profiling工具:vtune、perf Alibaba Group,Copy Right Reserved。
  • 13.MaxCompute 性能优化——profiling(案例分析 ) 虚函数 Alibaba Group,Copy Right Reserved。
  • 14.MaxCompute 性能优化——profiling工具(集群篇 ) 传统Profiling工具 单台机器级 单个进程或者线程 大型分布式系统 数万台机器 数百万进程 传统profiling工具无法进行job级别 或者集群级别性能分析 Alibaba Group,Copy Right Reserved。
  • 15.MaxCompute 性能优化——profiling工具(集群篇 ) 扁鹊系统 •基于云的全站性能分析系统 – 基于阿里云的多种云服务 – 全站数据收集、存储、分析、 可视化 – 对目标系统完全无侵入, 无干扰 – 性能稳定,开销小 • 与Intel深入合作 ‒ CPU Profiling、性能优化 • 集群性能分析 – 热点代码分析 – 内存使用分析 • 故障诊断 – Root Cause, 自动、实时诊断 Alibaba Group,Copy Right Reserved。