ArchSummit北京2016 《如何深度融合搜索和推荐:兴趣引擎架构设计》 田明军
2020-03-01 306浏览
- 1.如何深度融合搜索和推荐 —— 兴趣引擎架构设计 田明军 一点资讯高级技术总监
- 2.
- 3.个人简介 2006.7 ~ 2009.2 Software Engineer, Research Engineer Web Search Anti-Spam, Ranking, Query Rewriting 2009.2 ~ 2014.11 Software Engineer, Senior Engineering Manager 垂直搜索,个性化推荐Ranking & Serving 2014.12 ~ Current Senior Engineering Director 搜索、个性化推荐后端系统
- 4.大纲 兴趣引擎 = 搜索 + 推荐 兴趣引擎系统架构 关键技术
- 5.搜索/推荐系统工作流程 指标报表 用户行为分析 排序 策略 召回 用户画像 内容获取 内容理解
- 6.兴趣引擎 = 搜索 + 推荐 共性特征挖掘 有品 有趣、有料 搜索 个性化推荐 有用 兴趣订阅
- 7.搜索 VS 推荐 对比点 搜索系统 推荐系统 意图表达方式 主动、明确 被动、模糊 查询复杂程度 3~5个词 50+ 兴趣特征 优化目标 高位置结果的相关性 停留时长 模型训练数据 存在Ground Truth,人工可label 在线反馈
- 8.应用 新闻推荐 视频推荐 一点健康 …… 一点影视 推荐 Power by Yidian 资讯搜索 搜索 流式服务框架(召回、排序、策略) 指 标 监 控 与 数 据 分 析 索引池 频道推荐 索引系统 搜索 索引系统 Unified Feeder 分 类 聚 类 CF挖掘结果 索引 兴趣图谱 内容平台 展 示 信 息 Popularity Server 静 态 特 征 获取/分析/挖掘 层 次 化 兴 趣 体 系 热 点 兴 趣 运 维 内容特征 Server 用户平台 兴 趣 关 系 挖 掘 定义/运维/挖掘 用 户 画 像 排 序 特 征 排 序 模 型 采集/统计/存储
- 9.关键技术 异构索引结构 Unified Feeder 自适应索引召回 排序框架 策略与产品逻辑
- 10.为何需要异构索引 安装量 2.9 亿 DAU 4800w 频道数 300 万+ 每用户兴趣频道 50+ MAU 文章总数 1.5亿 2亿+
- 11.异构索引结构 Key-Value database Segmented Popularity Item2Item 协同过滤 数据平台 Inverted Index Sorted-List storage 频道文章 索引库 精品文章 索引库 编辑运维平台 三日文章 索引库 垂直 三日文章 三日文章 索引库 索引库 索引库 月文章 索引库 内容平台 全量文章 索引库
- 12.优化检索性能 { 炸酱面做法 } 月文章 索引库 { 美食,炸酱面,特朗 普,中美关系……} { 体育,财经,娱乐,……} 全量文章 索引库 三日文章 索引库 + WAND 频道文章 索引库
- 13.优化检索系统(WAND operator)
- 14.Online -> offline(频道索引库 ) Federation Layer Slave Indexer Cache Layer Slave Indexer Unified Feeder Master Controller …… Kafka Slave Indexer Channel id1 sorted docid list Channel id2 sorted docid list Channel id3 sorted docid list …… …… Channel idn sorted docid list
- 15.关键技术 异构索引结构 Unified Feeder 自适应索引召回 排序框架 策略与产品逻辑
- 16.内容处理平台 自媒体系统 Crawler Crawler Crawler 编辑运维系统 个别文 档更新 内容处理流水线 特征数据 配置、模板与日志中心 Unified Feeder 源数据 自适应 目的地 refeed流程 全量更新 内容库 索引系统 索引系统 索引系统
- 17.Unified Feeder 结构详解 异构索引 /特征库 Feeder input stream 容错, 一致性 search engine index checkpoint system indexer … … … checkpoint current read target input buffer … … deser & validate doc routing DB clients ranking DB display DB analyze & agg OLAP schema center dumper doc center
- 18.关键技术 异构索引结构 Unified Feeder 自适应索引召回 排序框架 策略与产品逻辑 技术挑战 ➢ 决策需要调用的索引后端 ➢ 异构索引召回效率 ➢ 可扩展性与开发效率
- 19.召回系统结构 Search / Recommendation Server Federation Layer Context 意图分析 Profile Ranking / Prediction Server Query Builder Parameter 通信模块 人工运维 精选池 频道推荐 索引系统 存储模块 搜索 索引系统 Popularity Server Indexing Pool LBS 索引 CF挖掘结果 索引
- 20.Query建立过程 Context 意图分析 Profile Parameter 头部、中部 用户兴趣 逻辑层 物理层 热点 人工运维 精选池 用户 Demography 兴趣图谱 频道推荐 索引系统 搜索 索引系统 Popularity Server 搜索词 LBS 索引 CF挖掘结果 索引
- 21.热点QueryBuilder Context 意图分析 Profile Parameter 逻辑层 物理层 热点 人工运维 精选池 用户 Demography 兴趣图谱 频道推荐 索引系统 搜索 索引系统 Popularity Server 搜索词 LBS 索引 CF挖掘结果 索引
- 22.搜索词QueryBuilder Context 意图分析 Profile Parameter 逻辑层 物理层 热点 人工运维 精选池 用户 Demography 兴趣图谱 频道推荐 索引系统 搜索 索引系统 Popularity Server 搜索词 LBS 索引 CF挖掘结果 索引
- 23.用户画像QueryBuilder Context 意图分析 Profile Parameter 逻辑层 物理层 热点 人工运维 精选池 用户 Demography 兴趣图谱 频道推荐 索引系统 搜索 索引系统 Popularity Server 搜索词 LBS 索引 CF挖掘结果 索引
- 24.用户画像QueryBuilder Context 意图分析 Profile Parameter {互联网思维} 逻辑层 物理层 热点 人工运维 精选池 用户 Demography 兴趣图谱 频道推荐 索引系统 搜索 索引系统 Popularity Server 搜索词 LBS 索引 CF挖掘结果 索引
- 25.兴趣图谱QueryBuilder 兴趣点 结果 运维频道 垂直源 频道推荐 索引系统 搜索 索引系统 人工智能 机器学习 编辑添加 人工运维 精选池 深度学习 自然语言处 理 机器人 工业机器人 未来科技
- 26.关键技术 异构索引结构 Unified Feeder 自适应索引召回 排序框架 策略与产品逻辑
- 27.周期性batch模型更新框架 实时日志输出 编辑标注 训练数据生成 模型部署 Learning System 线下评测 模型训练
- 28.Online Learning准实时模型更新框架 Prediction Server Redis Kafka Parameter Server B Parameter Server A Realtime log Storm Feature Config Server
- 29.关键技术 异构索引结构 技术挑战 Unified Feeder ➢ 高效接入外部数据资源 自适应索引召回 排序框架 策略与产品逻辑 ➢ 灵活策略调整 ➢ 开发效率
- 30.流式服务框架 特性 • • • init Serving Per Request 配置化workflow组织 核心逻辑的可配置化 超强并发性支持 0 1 技术要点 • • ForkJoin 2 Remote client 4 3 Akka actor modelSpray:高效的REST/HTTP 网络IO通信 end
- 31.使用流式服务框架的实例 Serving Per Request paramParser ForkJoin hitCache viewLogSender blender cardControl federation
- 32.应用 新闻推荐 视频推荐 一点健康 …… 一点影视 推荐 Power by Yidian 资讯搜索 搜索 流式服务框架(聚合、排序、规则) 指 标 监 控 与 数 据 分 析 索引池 频道推荐 索引系统 搜索 索引系统 Unified Feeder 分 类 聚 类 CF挖掘结果 索引 兴趣图谱 内容平台 展 示 信 息 Popularity Server 静 态 特 征 获取/分析/挖掘 层 次 化 兴 趣 体 系 热 点 兴 趣 运 维 内容特征 Server 用户平台 兴 趣 关 系 挖 掘 定义/运维/挖掘 用 户 画 像 排 序 特 征 排 序 模 型 采集/统计/存储
- 33.私人订制 价值阅读 加入我们:hr@yidian-inc.com