59e71f116a98d

2020-02-27 110浏览

  • 1.MaxCompute 2.0 MaxCompute 对开源系统的支持与融合 高级专家 艺卓 2017
  • 2.MaxCompute 2.0 MaxCompute 和开源 • 2017 阿里自研的一站式大数据解决方案 MaxCompute 融合 OpenSource • 2016 阿里自研的大数据计算平台 MaxCompute 支持 OpenSource
  • 3.MaxCompute 2.0 开源的层次 协议及工具 编程接口 计算引擎
  • 4.MaxCompute 2.0 开源的协议及工具 • JDBC 对接已有软件 提供标准 JDBC 编程接口 • Hive Proxy 提供 Hive Thrift 协议兼容接口 对接 Hive 社区已有工具 • ETL 工具 Apache Zeppelin SQL Qlik Workbench/J JDBC Pentaho TalenD
  • 5.MaxCompute 2.0 开源的编程接口 • MaxCompute SQL 2.0 • • • • • 兼容 Hive 类型系统 兼容 Hive 内建函数 兼容 Hive 用户定义函数 支持 External Table CTE/INSERT/JOIN/UNION 等语句增强
  • 6.MaxCompute 2.0 开源的编程接口 • RODPS • 直接操作 MaxCompute 数据 • 支持 R 生态已有工具及代码库
  • 7.MaxCompute 2.0 开源的编程接口 • PyODPS • 高度兼容 Pandas DataFrame • 直接赋予社区代码大数据计算能力 • 对接 Jupyter Notebook 等社区生态 后端编译成 MaxCompute SQL 执行
  • 8.MaxCompute 2.0 开源的计算引擎 优点: • 快速搭建 • 学习资料 • 保护代码投资 缺点: • 数据分散 • 数据一致问题 • 资源效率 Presto Kylin Spark Drill Flink Elastic Search Druid
  • 9.MaxCompute 2.0 开源的计算引擎 • 保持自研优势 拥抱开源生态 联合计算 平台 更好的 • 数据存储统一 • 资源调度统一 • 安全控制统一 Max Compute 开源 计算引擎
  • 10.MaxCompute 2.0 资源调度 数据集成 挑战 用户、权限体系 安全隔离
  • 11.MaxCompute 2.0 联合计算平台架构 YarnClient YarnAppMaster YarnContainer Browser HistoryServer YarnContainer
  • 12.MaxCompute 2.0 联合计算平台架构 统一资源调度 用户认证鉴权 YarnClient* CupidTask CupidWorker YarnAppMaster YarnContainer AgentServer 受控 Web 访问 Browser CupidMaster 受控读写数据 容器隔离 开源代码 ProxyServer HistoryServer CupidWorker YarnContainer
  • 13.MaxCompute 2.0 val sc = new SparkContext(conf) val odpsOps = OdpsOps(sc) val words = odpsOps.readTable(project, tableIn, readTransfer) val wordCounts = words.map(x=>(x, 1)).reduceByKey(_+_) odpsOps.saveToTable(project, tableOut, saveTransfer) spark-submit --master yarn-cluster --class com.aliyun.odps.spark.example.WordCount.jar
  • 14.MaxCompute 2.0 总结与展望:与开源融合的一站式大数据解决方案 Hive Proxy 引擎 接口 协议 JDBC driver ETL Tool Dataframe (Pandas) RODPS Java SDK OpenSource API (Spark, ElasticSearch …) PYODPS MaxCompute Restful API MaxCompute Tasks (SQL、MR、PAI …) 联合计算平台 (Spark, ElasticSearch …) 飞天
  • 15.MaxCompute 2.0