Presto在京东云的应用实践 郭李明

2020-03-01 445浏览

  • 1.Presto在京东云的应用实践 京东-郭李明
  • 2.目录 • Presto介绍 • Presto在京东生根发芽 • Presto在京东成长壮大 • Presto在京东云的应用
  • 3.Presto架构
  • 4.Presto特性 分布式查询引擎 标准SQL语法 支持GBs to PBs的数据量 可扩展性 支持跨数据源查询 交互式的数据分析
  • 5.Presto在京东生根发芽 倾诉
  • 6.Presto在京东生根发芽 Ø Tpcds benchmark测试用例 Ø 一共24个表,数据量txt格式100GB,均全转存为ORC格式 测试环境说明 Nodes 13 Memory per node 20G Core per node 32 Spark version Spark-1.4.1 Presto version Presto-0.124 Hadoop version Hadoop 2.5.0-cdh5.3.0 Hive version Hive-0.13.1
  • 7.Presto在京东生根发芽
  • 8.Presto在京东生根发芽 Facebook2012年开始启 动Presto项目 2013年Presto开 源 Page 8 京东加入Presto 开源社区 Presto成功应用 在京东云 京东连续开源了2 个Presto-JD版本
  • 9.Presto在京东云成长壮大 数据源 的丰富 及优化 安全访 问集群 On Yarn UDF
  • 10.数据源的丰富及优化 1 丰富Hive connector 语法 l Create database/schema l drop udf l Partiton的全面支持 2 新增Connector l Oracle l SQL Server 3 关系型数据库条件下推 l 支持更多类型的字段 l 支持in / not in / between等操作 4 MySQL分库分表 l 只需配置分表规则即可
  • 11.安全访问集群 Ø 身份验证及权限控制 • 访问Presto集群需要用户名及密码 • Presto访问HDFS及HIVE METASTORE需通过Kerberos 验证 • 对库/表操作时需要判断是否有相应的权限 Ø 细粒度的权限控制 • Database • Table Ø 集群层面的权限验证
  • 12.Presto on Yarn Ø 使用Slider向Yarn申请启动Presto cluster Ø 监控与容错处理 • NodeManager宕机 • AppMaster/Coordinator container shutdown Ø Kerberos的支持 Ø 根据集群规模的大小自动优化参数
  • 13.UDF Ø 支持动态加载UDF Ø Functions可根据用户进行隔离 • 允许不同用户可拥有相同名称的函数 • 系统自带函数共同拥有 Ø 安全沙箱 • 保证系统安全,防止恶意操作 Ø 新增drop udf语法,可删除某个自定义的function
  • 14.Presto在京东云的应用 应用层 公共服务层 IPass Presto MetaStore authorization wather 计算控制层 存储层 HDFS RDBMS KAFKA JSF
  • 15.Presto在京东云的应用 大数据量 数据实时 查询 精准营 销 定制化 报表 Ad-hoc即 席查询 数据抽 取与导 入
  • 16.Presto在京东云的应用 % percent
  • 17.Presto在京东云的应用 集成了Presto计算引擎的计算框架: 数据计算平台(Data Computing Service,简称:DCS),通过不同的分布式计算 框架满足即席查询、批量离线处理等场景,提供面向多租户、完全托管的海量数据 处理分析服务。http://dcs.jcloud.comWelcome to Join US
  • 18.