七牛云高级大数据工程师赵宏尧——基于Spark的流式处理引擎在Pandora大数据产品中的应用

2020-02-27 59浏览

  • 1.基于Spark的流式处理引擎 在Pandora大数据产品中的应用 赵宏尧 zhaohongyao@qiniu.com
  • 2.主要内容 • Pandora • 计算平台架构简介 • 流处理技术服务化需要考虑的两个问题 • 用户的使用接口 • 技术细节的屏蔽
  • 3.主要内容 • Pandora • 计算平台架构简介 • 流处理技术服务化需要考虑的两个问题 • 用户的使用接口 • 技术细节的屏蔽
  • 4.Pandora Pandora规模 • 每分钟实时写入的数据量达到数百GB • 每分钟实时写入的数据条目达到数十亿
  • 5.Pandora
  • 6.Pandora workflow
  • 7.Pandora 开放生态
  • 8.Pandora Pandora 整体技术架构
  • 9.其它一些有意思的事情 • 开发了一套分布式的goroutine框架 • 基于Golang做了一套轻量级的类Flume的组件 • 基于Golang写了一套分布式计算框架(主要用于 TSDB) • Workflow中整合实时计算和批量计算的调度 • 基于自研容器云做了一套Spark应用 • 基于七牛云存储,实现了HDFS接口 • ……
  • 10.主要内容 • Pandora • 计算平台架构简介 • 流处理技术服务化需要考虑的两个问题 • 用户的使用接口 • 技术细节的屏蔽
  • 11.计算平台架构简介
  • 12.计算平台架构简介 任务管理调度平台示意图
  • 13.计算平台架构简介 架构实现
  • 14.计算平台架构简介 Transform Server的高可用设计
  • 15.主要内容 • Pandora • 计算平台架构简介 • 流处理技术服务化需要考虑的两个问题 • 用户的使用接口 • 技术细节的屏蔽
  • 16.用户使用接口 目前实现 • SQL • 自定义计算 (称为plugin, 目前支持Java和Scala)
  • 17.用户使用接口 SQL • 基于spark streaming,是一个单batch的SQL • 基于structured streaming,是一个跨batch的SQL
  • 18.用户使用接口 Structured Streaming SQL select count(word) from stream group by word, slide(timeStamp, INTERVAL '5' HOUR, SLIDE '1' HOUR), watermark(INTERVAL '30' MINUTES) stream .withWatermark("timestamp", "30 minutes") .groupBy( window($"timestamp", "5 hours", "1 hours"), $"word”) .count()
  • 19.用户的使用接口-schema如何处理 使用schema有哪些好处 • 保证数据流的健壮性 • 数据格式schema的演进 • 高效存储和计算 • 丰富的数据类型
  • 20.用户的使用接口 实时任务的shcema:Confluent'>shcema:Confluent