七牛云高级大数据工程师赵宏尧——基于Spark的流式处理引擎在Pandora大数据产品中的应用

2020-02-27 60浏览

1.基于Spark的流式处理引擎在Pandora大数据产品中的应用赵宏尧 zhaohongyao@qiniu.com
2.主要内容 • Pandora • 计算平台架构简介 • 流处理技术服务化需要考虑的两个问题 • 用户的使用接口 • 技术细节的屏蔽
3.主要内容 • Pandora • 计算平台架构简介 • 流处理技术服务化需要考虑的两个问题 • 用户的使用接口 • 技术细节的屏蔽
4.Pandora Pandora规模 • 每分钟实时写入的数据量达到数百GB • 每分钟实时写入的数据条目达到数十亿
5.Pandora
6.Pandora workflow
7.Pandora 开放生态
8.Pandora Pandora 整体技术架构
9.其它一些有意思的事情 • 开发了一套分布式的goroutine框架 • 基于Golang做了一套轻量级的类Flume的组件 • 基于Golang写了一套分布式计算框架(主要用于 TSDB) • Workflow中整合实时计算和批量计算的调度 • 基于自研容器云做了一套Spark应用 • 基于七牛云存储，实现了HDFS接口 • ……
10.主要内容 • Pandora • 计算平台架构简介 • 流处理技术服务化需要考虑的两个问题 • 用户的使用接口 • 技术细节的屏蔽
11.计算平台架构简介
12.计算平台架构简介任务管理调度平台示意图
13.计算平台架构简介架构实现
14.计算平台架构简介 Transform Server的高可用设计
15.主要内容 • Pandora • 计算平台架构简介 • 流处理技术服务化需要考虑的两个问题 • 用户的使用接口 • 技术细节的屏蔽
16.用户使用接口目前实现 • SQL • 自定义计算 (称为plugin, 目前支持Java和Scala)
17.用户使用接口 SQL • 基于spark streaming，是一个单batch的SQL • 基于structured streaming，是一个跨batch的SQL
18.用户使用接口 Structured Streaming SQL select count(word) from stream group by word, slide(timeStamp, INTERVAL '5' HOUR, SLIDE '1' HOUR), watermark(INTERVAL '30' MINUTES) stream .withWatermark("timestamp", "30 minutes") .groupBy( window($"timestamp", "5 hours", "1 hours"), $"word”) .count()
19.用户的使用接口-schema如何处理使用schema有哪些好处 • 保证数据流的健壮性 • 数据格式schema的演进 • 高效存储和计算 • 丰富的数据类型
20.用户的使用接口实时任务的shcema:Confluent'>shcema:Confluent