Pivotal 姚延栋&吕正华 Greenplum 混合交易与分析处理 (HTAP) 之路
2020-03-01 71浏览
- 1.Greenplum 混合交易/分析处理 (HTAP)之路 姚延栋 吕正华 Pivotal Pivotal 研发总监 高级软件工程师
- 2.Greenplum 混合交易/分析处理 (HTAP)之路 姚延栋 吕正华 Pivotal Pivotal 研发总监 高级软件工程师
- 3.Pivotal PivotalR BOSH KUBO
- 4.⼀ 、⼤纲 • Greenplum 介绍 • Greenplum 架构 • Greenplum 路线图 • Greenplum 混合负载(HTAP)优化
- 5.Greenplum 介绍
- 6.数据库领域牛人: 4位图灵奖得主 Charles Bachman 1973 Edgar ’Ted’ Codd 1981 Jim Gray 1998 Michael Stonebraker 2014
- 7.PostgreSQL Thomas Lockhart Jolly Chen Vadim Mikheev Jan Wieck Andrew Yu Tom Lane Bruce Momjian Marc Fournier
- 8.Greenplum:2003年创立,基于 PostgreSQL 的分布式集 群 Scott Yara 创始⼈ Luke Lonergan 创始⼈ Ray Feng Greenplum中国研发创始⼈
- 9.Gartner 2019 排名: 经典分析全球第三;实时分析并列第四;前⼗唯⼀开源
- 10.Hadoop 市场是SQL市场,是分析型数据市场 ● Hadoop 含义的演进: HDFS/MR/Hive/Hbase ● Hadoop 发布在技术未成熟前已经过时(Gartner 2017) ● 70%的Hadoop部署未达成目标(整合困难,技能不足) ● Strata+Hadoop à Strata (2018 年) ● Cloudera:75% 的 Hadoop 市场是 SQL 市场, ●Facebook:95+% Hive ● Spark: 即使是 Spark, Spark SQL 70%
- 11.大数据 ≈ 分布式数据库
- 12.Greenplum 架构
- 13.Greenplum: 是集群化的 PostgreSQL
- 14.集群化 – 为用户提供一个逻辑上透明的数据库
- 15.Greenplum 极简拓扑
- 16.Greenplum 最突出的架构特色:MPP(大规模并行处理)
- 17.对用户透明的分布式数据库 pg_catalog master sales 1. 分布式数据存储 2. 分布式查询处理 customers pg_catalog pg_catalog 3. 分布式ACID sales customers sales segment customers pg_catalog sales customers segment
- 18.分布式数据存储:数据分布 sales c1 c2 c3 segment segment segment segment segment segment
- 19.分布式查询处理:分布式查询优化 CREATE TABLE students (id int, name text) DISTRIBUTED BY (id); CREATE TABLE classes(id int, classname text, student_id int) DISTRIBUTED BY (id); SELECT s.name student_name, c.classname FROM students s, classes c WHERE s.id=c.student_id
- 20.分布式查询处理:查询执行 QD Gather receiver MasterQE:s2'>QE:s2