视频精准推荐系统实践

2020-02-27 181浏览

  • 1.视频精准推荐系统实践 优酷土豆集团 吕红亮 lvhongliang@youku.com
  • 2.个人介绍 • 2012年宝宝树 – 负责内容推荐系统 • 2014年360搜索 – 搜索结果页右侧推荐、新闻推送 • 2015年加入优酷土豆– 负责精准推荐系统 • 目前为优酷土豆数据智能团队高级技术经理,负 责精准推荐系统和相关推荐系统
  • 3.目录 • 背景介绍 • 精准推荐系统架构 • 精准推荐算法架构 • 计划与方向
  • 4.背景介绍-需求场景 英语教学自频道长李雷勤奋专业有潜力,优土想 扶持他成为“万万计划”的一员 流量运营 韩梅梅新做了一个餐馆评测,想尽快让更多中关 用户/场景定向 村地区的小清新吃货看到~ 联合出品《捉妖记》:哪种片花更能吸 引大学生群体? 用户调查/反馈
  • 5.背景介绍-展现形态1
  • 6.背景介绍-展现形态2
  • 7.背景介绍-展现形态3
  • 8.背景介绍 • 需求方 • 内部业务方:来疯、会员、PGC、分成、生态、游戏、 BD • 外部业务方:自频道主,PGC • 精准推荐系统目的 • 整合和优化推广位,尽量满足各方需求,使资源位的价 值最大化 • 打造视频生态:扶持自频道主、PGC,并引导他们的行 为 • 保证用户的体验:在合适的时机给合适的用户推荐合适 的限定集合内的视频
  • 9.目录 • 背景介绍 • 精准推荐系统架构 • 精准推荐算法架构 • 计划与方向
  • 10.精准推荐系统-所处位置 业务端 系统端 用户前端 PC/移动 播放页 会员电影 游戏 版权/自制 PGC 精准定向 推荐系统 3.实时匹配定 向条件并计算 推荐结果 来疯 其他 UP/VP 系统 1.输入(标签)定向条件与出 价 2.提供内容/用户标签定 向功能 大 推 荐 系 统 APP 价值链 展 示 …… 4.向目标用户展示精准 推荐结果 来疯收入 内容流量 售卖 PUSH IKU 弹窗 会员交易 点 击 PUGC用户 成长 游戏联运 收益 …… 5.以点击率和后续转化 进行价值评估
  • 11.精准推荐系统架构-概览 实时统计系统 后台 前台 实时统计数据 实时统计数据 推荐项信息 推荐项信息 推荐项索引计算 (离线计算) 推荐项索引(所 有推荐项) 投放系统集群 投放内容 UP/VP离线数 据 UP/VP在线服 务 推荐宿主系统 素材内容 客户端 Log系统 (kafka)
  • 12.精准推荐系统架构-链式结构 • 链式结构 • 责任链模式(Chain of Responsebility):一系列有序的command 能够按照顺序执行,并能够互相交换或者传递执行结果 • 解耦:方便在线更换处理节点,通过节点组合实现不同的功 能 • 自动降级:方便跳过一些节点,实现自动降级功能 UP查询 VP查询 订单过滤 元信息封装 算法在线计 算 频次控制 算法链式处理 召回(获取候选集) 排序 重排序
  • 13.精准推荐系统架构-定向投放 • 通过UP、VP系统获取用户画像和视频画像 • 通过索引系统将订单索引起来
  • 14.精准推荐系统架构-索引管理 推荐计划管理 投放引擎 推荐项变化消息队列 标签/关键字 {匹配的推荐项} 索引管理(在线) 推荐计划信息库 推荐项索引 索引更新 索引框架 定期检测 图例 索引管理核心模块 读取(投放量级) 更新(订单变化量级) 索引管理(离线) 框架变化(每日几次) 定期同步(日级)
  • 15.系统架构经验1-服务稳定性保障 第三方服务调用 • 服务降级 • 当服务器负载过高时,简化运 算逻辑 • 外部依赖的外部服务出现异常, 及时熔断防止主服务被拖垮 • 降级顺序 • 算法降级:非线性模型(GBDT) ->线性模型(LR) • 分流控制模块关闭 • up、tp模块功能关闭 • 投放缓存内容 服务状态 是否可用 否 是 本次请求是否 作为探测流量 是 服务调用 否 降级处理逻辑 更新服务可用状态 结束
  • 16.系统架构经验2-在线debug系统 • 快速定位问题 • 发现潜在问题 • 便于技术和产品调研->找到新的优化方向
  • 17.系统架构经验3-监控报警系统 • 系统状态监控 • CPU、IO、内存 • 接口响应时间、外部依赖接口响应时间 • 线程数、jvm状态 • 自定义sql监控数据库 • 异常订单报警 • 运营数据监控 • 自定义接口监控 • 支持自定义接口实现复杂的监控功能
  • 18.精准推荐系统架构-关键数据 • 每天收到的请求量5亿+ • 峰值QPS8000+,平均响应时间20ms以下 • 每天的曝光4亿+,点击率0.5%以上 • 满足优土集团十几个事业部的内部推广需求
  • 19.目录 • 背景介绍 • 精准推荐系统架构 • 精准推荐算法架构 • 计划与方向
  • 20.精准推荐算法架构-概览 人工调权 符合条件的订单 召回(获取候选集) CF候选 文本相关性 候选 图片相关候 选 其他候 选…… 排序 重排序 猜你喜欢 GBDT/LR 点击反馈 运营位 模型训练 图片信息 文本信息 相关视频 日志
  • 21.精准推荐算法-召回 • 用户行为:( Item-based CF) • 看了又看…… • 收藏了还收藏了…… • 评论了还评论了…… • 内容: • • • • 同主演、同导演、同嘉宾 同一题材:校园偶像剧、时空穿越类科幻 标题相似:LSH、word2vec 视频内容相似:截图、关键帧 • 热门 • 夏季热播 • IMDB Top 200、2016奥斯卡获奖电影
  • 22.精准推荐算法-截图召回 • 截图召回 • 图片理解:通过CNN embedding到高维空间 • 计算图片相似性
  • 23.精准推荐算法-排序 • 模型: • LR、FTRL • GBDT • 特征工程 • 特征预处理:归一化,one-hot编码, 缺失值补充,异常值去除, 数据变化 • 特征选择 • Filter:计算特征和目标的相关性,比如方差、卡方检验、相关系数 • Wrapper:根据损失函数,递归增加或者消除若干特征 • 模型的方法:L1正则,基于树模型 • 实践比较有效的特征选择方法 • • • • 专家经验:和产品运营的同学多聊 模型选择方法:L1正则,GBDT给出feature重要性排序 用非线性模型取代线性模型来减少对组合特征发现的依赖 快速迭代,快速上线测试
  • 24.精准推荐算法-特征 • 模型特征:候选集自带的特征,比如CF相似度,文本相关性相似度 • 用户类: • • • • 人口统计学特征,比如年龄、性别、收入 频道偏好 兴趣标签 使用的终端类别 • 源视频 • 所属频道、标签 • 标题、描述 • 视频时长 • 目标视频 • 视频质量、播放完成率 • 所属频道、标签 • 视频时长 • 上下文(Contextual Info) • 时间 • 位置
  • 25.精准推荐算法-重排序 • 点击反馈 • 多样性 • 根据线索分组 • 人工调权 • 节奏控制
  • 26.精准推荐算法架构-A/B Test系统 • 分层实验,促进流量的最 大化利用 • 保证用户真正随机 • 为每次实验构建一个实验层 Launch Layer1 Launch Layer2 Rec Layer 其他候选…… UI Layer Rec/UI Layer Rec Res Layer Promoted Rec Layer Promoted Rec Result Layer *参考paper:Overlapping ExperimentInfrastructure:More,Better, Faster Experimentation
  • 27.目录 • 背景介绍 • 精准推荐系统架构 • 精准推荐算法架构 • 计划与方向
  • 28.计划与方向-技术 • 实时化 • 模型实时更新 • 使用更多的实时化特征:比如用户短时兴趣 • 增强推荐解释 • 同标签、同主演、同嘉宾、同类top10、奥斯卡、本站 最热…… • 用户显性反馈 • 深度学习 • 观看序列分析:RNN、LSTM • 视频截图和视频内容分析:CNN
  • 29.计划与方向-产品 • 让整体的流量智能可控 • 让推荐流量和运营位的流量可以比较智能可控地支持视 频生态建设 • 引导PGC的行为 • 给PGC一些运营上的指导 • 多上传原创视频 • 持续上传、保持视频质量稳定 • 视频主题尽量集中 • 给PGC一些视频制作上建议 • 视频具体的题材方向 • 视频标签、视频长度 • 将这些能力开放给更多的PGC
  • 30.Q&A 优酷土豆推荐团队氛围非常好,成长空间大,现 在求贤若渴,机器学习/数据挖掘方向,请赐简历 至:lvhongliang@youku.com,非常感谢!
  • 31.