13阿里大数据专场,,,1507820009

2020-02-27 58浏览

  • 1.挑战双11实时数据洪峰的流计算实践 阿里巴巴数据技术及产品部 陈同杰
  • 2.1 2 阿里流计算介绍 面临的挑战 3 我们是如何做的?
  • 3.阿里巴巴流计算介绍
  • 4.双十一媒体直播大屏
  • 5.商家统一数据平台:生意参谋
  • 6.阿里数据的现状 100M Events/s 每秒一亿记录 100B Events/day 一天万亿记录 PB Everyday EB Total
  • 7.面 临 的 挑 战
  • 8.技 术 难 点 Low Latency Exactly-Once High Throughput Strict SLA 低延时 高精准 高吞吐 强保障
  • 9.阿里巴巴如何做流计算
  • 10.数 据 链 路 表 DRC DataHub 业务系统 日志 回流 Flink DWD层 tailfile DWS/ADS层 Flink HBase
  • 11.流计算引擎对比 Storm Flink Spark Streaming
  • 12.What is Blink ? + Flink = Alibaba Group Blink
  • 13.Why Blink ?-Stateful Processing Classic Architecture Blink with rocksDBStateBackend All modifications are local 本地修改 Synchronous IO across network RocksDB RocksDB 同步网络IO Hbase Asynchronous write across network 异步写 HDFS
  • 14.Why Blink?-Incremental Checkpoint Before CP-1 1.sst CP-2 2.sst 3.sst MF 2.sst Timeline CP-3 3.sst 4.sst MF 2.sst 3.sst 5.sst MF Storage 1.sst After 2.sst 2.sst 3.sst CP-1 1.sst 3.sst Faster CP Faster Recovery CP-2 2.sst 3.sst MF 2.sst 2.sst 4.sst 3.sst 4.sst MF 3.sst Timeline CP-3 2.sst 5.sst 3.sst 5.sst MF Storage 1.sst 2.sst 3.sst 2.sst 3.sst 4.sst 2.sst 3.sst 5.sst
  • 15.Why Blink?-Asynchronous IO Async. IO Sync. IO a a b Wait for Response Concurrent Processing c W d a b External Service a External Service b W b c d Reduced Throughput Send Request Receive Request Wait Increased Throughput
  • 16.And Many More… 纯流式引擎 Checkpoint机制 流控与反压 实时监控 大规模部署
  • 17.1 大小维度合并 减少网络传输50%以上 2 精简存储 利用index来存储指标,state存储减少一半 聚合组件 高性能排序 3 4 5 top组件利用PriorityQueue + MapState,大幅减 少序列化次数,性能提高10倍左右 批量写操作 mini-batch sink,降低 HBase 压力 多条件分支优化 大幅减少网络传输与state大小
  • 18.流计算开发平台 —— 赤兔
  • 19.Beam , TableAPI and SQL
  • 20.Streaming Into Future … Portal, Stream Processing as a Service Beam TableAPI & SQL Stream & Batch Unification Machine Learning in real time 服务化平台 语义层统一 实时离线统一 实时智能
  • 21.
  • 22.