尹德位:京东亿级流量海量数据搜索架构
2020-03-01 390浏览
- 1.7 京东亿级流量海量数据搜索架构 1 0 2 C C A S 尹德位@京东搜索 yindewei@jd.com 2017/10/21
- 2.• 搜索系统简介 • 搜索架构演进之路 • 搜索系统的发展与挑战 2 C C A S 7 1 0
- 3.电商搜索 门户搜索 索引量 普通 大 召回率 高 普通 精准率 高 排序 2 C C A S 多维度 分流/提权 7 1 0 普通 文本相关性 竞价排名等 高 (部分信息秒级) 普通 个性化 高 (千人千面) 普通 多样性 丰富 (排序/导航) 普通 实时性
- 4.移动搜索页 — 智能终端入口 2 C C A S 7 1 0
- 5.京东开普勒系统 — 京X计划 2 C C A S 7 1 0
- 6.PC搜索页 — 重要入口之一 2 C C A S 7 1 0
- 7.京东搜索系统规模概况 流量入口 APP/PC/WX/QQ 头条/百度/网易 索引量 十亿级 日更新 用户数 日PV 7 1 0 2 亿级 C C A S 亿级 十亿级
- 8.• 搜索系统简介 • 搜索架构演进之路 • 搜索系统的发展与挑战 2 C C A S 7 1 0
- 9.搜索架构V1 — 2011年 DB Dump Worker Forward Index Invert Index 7 1 0 Index Search 2 Worker Service C C A S 系统结构:简单 数据量级:百万 更新方式:全量
- 10.搜索架构V2 — 2013年 系统结构:分库分表+实时索引 数据量级:千万 更新方式:全量+增量 Full Data Forward Index 1 DB 1 ... Dump Worker DB n Inc Data Real-time message 2 Forward C C Index n A S ... 7 1 0 Index Worker Real-time Index Invert Index 1 ... Merge Invert Index n Engine Search Service
- 11.搜索架构V3 — 2014年 系统结构:离线hadoop处理 数据量级:亿级 更新方式:全量+增量 Full Data Hadoop DB 1 ... 0 2 C C A S Aggregation DB n 7 Build 1Index Wide Table Inc Data Real-time message (MapReduce) Forward & Invert Index Engine Real-time Index Search Service
- 12.平行搜索(分布式)引擎 – 2016年 Online Search Service VIP Third-Party Service Root Parent Load Balancer P0 Leaf Data Producing P1 Leaf 17 0 2 C C A S Pn Leaf Cache Cloud Query Process Detail Service Offline Updating Online Updating Forward Index Invert Index Increment Data Center Operation Process Personas Service Hadoop MapReduce DB1 DB2 DBn Modify Message
- 13.平行搜索(分布式)引擎 – 负载均衡管理 Root Parent Data 2 C C A S Load Balancer Detail 7 1 0 Business Services Personas Service Data Operation Process Data s0 . . . . . . . . sn Cache-Cloud Indexer QueryProcess
- 14.平行搜索(分布式)引擎 – 负载均衡管理 1.轮询 2.负载窗口机制 7 3.哈希 1 0 2 4.动态伸缩 C C 5.集群灾备 A S
- 15.平行搜索(分布式)引擎 — 搜索流程示意 Root 20 7 8 2 4 Parent Business Services 19 16 Load Balancer 13 3 18 Data 2 C C A S 17 Detail s0 . . . . . . . . sn 7 1 0 11 12 Data 6 9 Personas Service 10 1 15 14 Cache-Cloud Indexer QueryProcess 5 Operation Process Data
- 16.request flow Request Y 解析参数 请求Parent Hit page cache Hit attr cache 请求Leaf 调用 User Service N Y N 调用 QP 处理 搜索结果 17 Y 0 2 C C A S N Y Attr only Hit doc cache N 召回增量结果 召回全量+ 增量结果 N 调用Detail 详情封装 Y 在线业务 逻辑处理 Root Parent Leaf 粗排序 Hit page cache 精排序 合并 分片结果 在线业务 逻辑处理
- 17.trilevel cache Request Y 解析参数 请求Parent Hit page cache Hit attr cache 请求Leaf 调用 User Service N Y N 调用 QP 处理 搜索结果 17 Y 0 2 C C A S N Y Attr only Hit doc cache N 召回增量结果 召回全量+ 增量结果 N 调用Detail 详情封装 Y 在线业务 逻辑处理 Root Parent Leaf 粗排序 Hit page cache 精排序 合并 分片结果 在线业务 逻辑处理
- 18.Root VIP PC Mobile DNS DNS 2 C C A S 7 1 0 Root Services Engine Root Cloud
- 19.Parent Root Load Balancer Parent 2 C C A S Personas 7 1 0 Leaves Cloud
- 20.Leaf Root Load Balancer Parent Full/Inc/Sens Partition 0 Data Leaves 7 1 0 Partition k 2 C C A S Partition n doc cache doc cache doc cache doc cache doc cache doc cache doc cache doc cache doc cache JIMDB Cloud
- 21.索引数据生产 — 全量 Hadoop DB 1 ... DB n Wide Table 2 C C A S Aggregation 7 1 0 Index Build (MapReduce) 全量数据P0 ... 全量数据Pn
- 22.索引数据生产 — 增量 商品系统 数据中心 价格系统 促销系统 库存系统 评论系统 数据融合系统 业务处理 7 1 0 2 C 数据引擎 C A S 搜索引擎
- 23.索引数据生产 — 敏感 价格系统 促销系统 数据融合系统 库存系统 评论系统 2 C C A S 数据引擎 7 1 0 搜索引擎
- 24.• 搜索系统简介 • 搜索架构演进之路 • 搜索系统的发展与挑战 2 C C A S 7 1 0
- 25.挑战一:数据量持续增长 2 C C A S 7 1 0
- 26.挑战二:搜索多维化 1.语音视频多维立体搜索 2.智能交互 7 1 3.高度个性化 0 2 C C A S
- 27.2 C C A S 7 1 0 尹德位@京东搜索 yindewei@jd.com