百度,姚旭,百度个性化推荐实践
2020-02-27 105浏览
- 1.百度推荐系统实践 RecSys Engineering 姚旭 推荐与个性化部 2013
- 2.背景介绍 Background 以搜索 以推荐 满足用户的主动表达的需求 挖掘并满足用户的潜在需求
- 3.背景介绍 Background 精确需求 搜索 泛需求 潜在需求 搜索 + 浏览 浏览
- 4.核心功能之一:过程优化 RecSys Engineering USER Traditional Step A Path Step C Step B Recommendation Shortcut Exploitation Value
- 5.核心功能之二: 兴趣发现 RecSys Engineering USER Item B Item C Item E Item D Item A Only Few Items Presented Whole Network Presented
- 6.产品应用 RecSys Engineering Item数量级 稀疏性 多样性 时效性需求 反馈速度 100,000 1% 低 中 中 音乐(单曲) 1,000,000 3% 低 低 快 网络小说 1,000,000 <0.5% 中 中 慢 APP 100,000 <1% 中 中 中 资讯 10,000,000 <0.1% 高 高 快 短视频 10,000,000 <0.1% 高 高 快 文档 10,000,000 <0.1% 高 低 快 电影
- 7.基础架构 RecSys Engineering
- 8.基础架构 RecSys Engineering Item相似度计算 User亲密度计算 候选Item 集合召回 Item Ranking 推荐理由 生成 Feedback
- 9.相似度计算 RecSys Engineering 直接计算(协 同) 基于用户行为 User-Item矩阵 矩阵分解 生成模型 相似度计算 Ontology 基于内容 UGC 文本相似度
- 10.基于内容推荐 RecSys Engineering 优点 • 无需依赖用户数据,回避产品初期 用户不足和数据稀疏性问题 • 覆盖率高 缺点 • 数据建设成本大,不具有推广性 • 人对于内容理解的多样性,多层次
- 11.基于邻域推荐 RecSys Engineering 优点 • 利用群体智慧,无需依赖背景知识 • 通用性高 缺点 • 强依赖于用户行为数据 • 数据稀疏性问题
- 12.相似度计算 RecSys Engineering 盗梦空间:诺兰 莱昂纳多 科幻 动作 悬疑 剧情 基于内容: 基于用户行为(无修正): X战警3 十二生肖 蝙蝠侠前传2:黑暗骑士 人再囧途之泰囧 蝙蝠侠前传1:侠影之谜 101次求婚 我是传奇 古惑仔 X战警:第一战 喜爱夜蒲2 神秘代码 一代宗师 关键第四号 血滴子 勇士 禁闭岛 源代码 肖申克的救赎 美国队长 V字仇杀队
- 13.相似度计算 RecSys Engineering Latent Topic Tag Item Tag Item Item
- 14.相似度计算 RecSys Engineering 相同点 • 将Item映射到一个表示空间上,使相似度计算 结果最优 • 在不丧失区分度的情况下,空间上尽量稠密 • 经验目标:稀疏度>1% • 横向结合+纵向结合 不同点 • 基于统计 VS 基于知识 • 黑盒策略 VS 白盒策略 • 推荐理由的可理解性
- 15.工业界 VS 学术界 RecSys Engineering 原始 数据 特征 提取 模型 生成 结果
- 16.特征 RecSys Engineering 搜索 推荐
- 17.基于搜索日志的实体属性挖掘 RecSys Engineering 搜索日志 Tag-> 种子实体 Tag Propagation 半结构化实体 属性关系数据
- 18.基于搜索日志的实体属性挖掘 RecSys Engineering 男主腹黑的小说 关于分手的电影 美食漫画 凤囚凰 失恋33天 美食的俘虏 盗情 前度 深夜食堂 绮梦璇玑 那些年,我们一起 追的女孩 将太的寿司 芊泽花 且试天下 兔子爱吃窝边草 昏前婚后 老公是腹黑大人 和莎莫的500天 阿郎的故事 立春 李米的猜想 一声叹息 妙手小厨师 美食侦探王 中华小当家 日式面包王 料理仙姬
- 19.基于搜索日志的实体属性挖掘 RecSys Engineering 优点 • 主流垂直领域全覆盖 • 通用的挖掘方法 • 表述习惯和推荐目标用户保持一致 • Item的关键属性和推荐目标用户保持一致 缺点 • 需要做一定的数据清理,可直接作为中间数据, 直接应用于产品使用时还需要再加工 • 单层扁平结构,缺乏层级关系,缺乏语义关联
- 20.基于搜索日志的实体属性挖掘 RecSys Engineering 盗梦空间:高智商 心理 哲学(?) 高智商电影 心理电影 哲学电影 盗梦空间 少年派的奇幻漂流 少年派的奇幻漂流 电锯惊魂 盗梦空间 盗梦空间 禁闭岛 寒战 三傻大脑宝莱坞 恐怖游轮 唐山大地震 普罗米修斯 猫鼠游戏 花与蛇 入殓师 搏击俱乐部 电锯惊魂 大鱼 致命魔术 入殓师 荒野生存 记忆碎片 禁闭岛 楚门的世界 沉默的羔羊 海洋天堂 本杰明巴顿奇事 穆赫兰道 告白 闻香识女人
- 21.基于搜索日志的实体属性挖掘 RecSys Engineering
- 22.基于搜索日志的实体属性挖掘 RecSys Engineering
- 23.应用举例: 线上效果 RecSys Engineering +20% +100% 专家内 容+邻域 人工编 辑全局 热门 加入搜 索知识 库
- 24.应用举例:关联推荐 RecSys Engineering
- 25.应用举例: 个性化推荐 RecSys Engineering
- 26.应用举例: 泛需求搜索 搜索扩展 RecSys Engineering
- 27.应用举例: RecSys Engineering 影视 APP 音乐 小说 资讯
- 28.Tips RecSys Engineering • 基于统计 VS 基于知识库 • 优化特征 VS 优化模型 • 推荐理由生成 VS 推荐结果计算 • Item粒度 VS Cluster粒度 • 一步到位 VS 探索式发现 • 文本特征 VS 多媒体特征
- 29.百度推荐系统实践 RecSys Engineering Q&A 微博:@姚旭_百度推荐 求贤:
- 30.关注我们:t.baidu-tech.com 资料下载和详细介绍:infoq.com/cn/zones/baidu-salon “畅想•交流•争鸣•聚会”是百度技术沙龙的宗旨。 百度技术沙龙是由百度与InfoQ中文站定期组织的线下技术交流活动。目 的是让中高端技术人员有一个相对自由的思想交流和交友沟通的的平台。主要分讲师分享和OpenSpace两个关键环节,每期 只关注一个焦点话题。 讲师分享和现场Q&A让大家了解百度和其他知名网站技术支持的先进实践经验,OpenSpace环节是百度技术沙龙主题的升华 和展开,提供一个自由交流的平台。针对当期主题,参与者人人都可以发起话题,展开讨论。 InfoQ 策划·组织·实施 关注我们:weibo.com/infoqchina