视频推荐中用户兴趣建模、识别的挑战和解法 李玉 优酷
2020-03-01 83浏览
- 1.视频推荐搜索中的⽤用户兴趣 优酷 搜索、推荐、内容智能负责⼈人 数据智能部总监 李李⽟玉
- 2.
- 3.
- 4.
- 5.Agenda • 优酷视频个性化搜索推荐简介 • 视频个性化搜索推荐中的⽤用户兴趣表达的挑战 • 当前⼯工业界常⻅见⽅方法的问题探讨 • 我们的尝试的⽅方法
- 6.优酷个性化服务简介
- 7.个性化服务在优酷
- 8.Data… Algo 6亿+视频 • ⼀一多半的视频播放通过个性化搜索推荐技术分发 • 对于CTR、⼈人均播放量量、⼈人均时⻓长、留留存率等均有显著提升 • 帮助⽤用户发现好内容,帮助⾼高质量量内容触达精准受众 5亿+⽤用户
- 9.视频推荐中⽤用户兴趣表达的挑战
- 10.视频推荐的⽤用户兴趣表达的挑战 • 技术挑战: • 剧、综、影、漫:⽤用户选择成本⾼高,⽤用户追的剧、综艺少,推荐成功率低 • ⽤用户⽬目的性强,发现、浏览、逛的⼼心智低 • ⻓长节⽬目可选择空间有限 • 头部节⽬目⽤用户⾏行行为稀疏,⼤大量量⽤用户每⽉月只观看3个以下节⽬目,对⽐比: • • 短视频信息流场景:通过数百个观看⾏行行为推荐30个 • 优酷头部节⽬目:通过3、4个观看⾏行行为推荐30个 数据噪声多、分布驱热、highly biased,常⽤用推荐算法模型描述能⼒力力不不⾜足
- 11.视频推荐的⽤用户兴趣表达的挑战 cont. • 技术挑战: • 视频内容兴趣复杂,感性、微妙、亚⽂文化细分多样,对于符合兴趣⼤大⽅方向的惊喜度(serendipity)与 多样性要求更更⾼高,对⽐比: • 电商:兴趣明确:想买4K电视、⽜牛仔裤、连⾐衣裙;⾼高度结构化,类⽬目体系清晰 • 视频: • 兴趣感性、微妙:喜欢⾹香港武侠⽚片但是讨厌成⻰龙; 喜欢⽇日本动漫,今敏敏等、但讨厌宫崎骏; • 兴趣会进化、发展、细分,如: • 相声:郭德纲 ⼩小岳岳-》⽅方清平;或者-》王玥波评书;或者-》侯宝林林 刘宝瑞 ⻢马三⽴立 传统 • 科幻迷:从浅度:看星战、地⼼心引⼒力力-》中度:星际穿越-》深度:银翼杀⼿手、降临、三体; • 微妙的亚⽂文化:⼆二次元、游戏、直播;⽂文艺⻘青年年;腐、柜;追剧族、韩剧迷、恐怖⽚片迷 • 兴趣体现的是⽤用户的个⼈人认同 • 兴趣多维度正交,如: • • 只看”⼤大制作”、美剧质感 不不喜欢重复,期待惊喜(serendipity)
- 12.识别、表达⽤用户兴趣的重要性 • Retargeting(看了了⼜又看): • 推荐⽤用户有过交互的内容(看了了⼜又看) • 成功率⾼高,⻓长期价值低 • • • 模型兴趣 预测不不准确 局部提升⾮非全局提升(抢其他渠道流量量) • 成功率⾼高因此ctr⾼高 • 容易易陷⼊入局部最优 热点推荐 • 推荐近期热点 • 容易易陷⼊入局部最优 个性化兴趣推荐 • 推荐符合每个⽤用户兴趣的内容 • 成功率低因此ctr偏低 • 更更具⻓长期价值 • 短期收益可能⼩小,但容易易⻓长期收敛 • 推荐命中成功率:retargeting > 热点 > 个性化发现 • 推荐命中(不不命中)价值:个性化发现 > 推荐热点 > retargeting 个性化内容 推荐较少 兴趣命中少 正样本不不⾜足
- 13.当前⼯工业界常⻅见⽅方法的问题探讨
- 14.个性化推荐⼯工业界常⽤用⽅方法 • 流程:召回、排序 • 特征: • 统计特征 • ⽤用户画像:DEMO、⽤用户对于标签的frequency、recency • ⾼高维组合特征 • Item based similarity(i2i)
- 15.Common Algo Framework(对应的优酷的⽅方法) Rank F R Rank FTRL, DNN, XGBoost, FFM Ensemble Rerank Feature Item/User/User2Item Statistics User Profile:(Demo,Interest profile, search profile, view history) Item tags, categories, topics item/tag/topic relevance scores Feature Match Match Item Based CF, DNN CF Slim CF Tag to Item, User2user2Item Star2Item Popularity, Trending M Data D Data ETL offline/streaming
- 16.常⽤用⽅方法对于表达⽤用户视频兴趣的问题 Demo(年年龄、性别、地域),设备类型、城市... • • 问题:⽤用户的内容兴趣与以上信息相关性不不⼤大 • 问题:三线城市50岁男性可能和⼀一线城市30岁⼥女女性的观看习惯⼀一致 基于内容标签的⽤用户画像 • • ⼈人⼯工内容标签:恐怖⽚片、动作⽚片、搞笑、⾹香港⽚片、韩国⽚片 • Topic Modeling标签:LDA提取视频标题、描述的主题(内容数据噪声⼤大) • 基于统计的⽅方法(frequency、recency)建⽴立⽤用户标签 • 问题:⼈人⼯工标签主观性⼤大、噪声⼤大 • 问题:⼈人⼯工标签粒度容易易过于宽泛 • 问题:topic modeling标签噪声⼤大、数据稀疏 • 问题:往往基于统计的⽅方法,很难精准描述⽤用户的兴趣 • 问题:容易易受到驱热的影响
- 17.常⽤用⽅方法对于表达⽤用户兴趣的问题 cont. ⾼高维组合特征 • • 通过组合以上各种特征,产⽣生更更丰富的信息 • 问题:容易易受到噪声影响 • 问题:计算量量过⼤大 Item based similarity (i2i) • • CF similarity • SVD++/MF • Slim • DNN • 简单⾼高效
- 18.Problem of I2I • Item based CF是学术和⼯工业界都最有效的⽅方法之⼀一 • Item based⽅方法⽐比User based⽅方法更更有效。 • 主要因为user 维度⾏行行为更更稀疏,噪声更更⼤大。Item的维度积累历史⾏行行为更更多,variance更更⼩小。 • 问题1: 由于基于item维度的全局统计,每个⽤用户观看item的不不同原因信息被平均掉。对于⼀一个视频,有的⽤用户因为热度观看,有的⽤用户因为主题的 类型观看,有的⽤用户因为主演、导演观看。 • 问题2: 不不同⽤用户群体的不不同喜好在全局Item similarity的计算过程中被平滑掉。 • 问题3: 对于⻓长尾item⾏行行为数据过于稀疏 • 问题4: 粒度太细,数据稀疏,扩展能⼒力力弱 • 问题5: 驱热、哈利利波特现象
- 19.介绍我们的⼀一些尝试
- 20.基础⽤用户画像做法 ⽤用户观看⾏行行为 ⽤用户对于各类标签观看的 Frequency/Recency ⽤用户观看 ⾏行行为 内容标签 ⽤用户 兴趣画像 内容 兴趣画像 内容的标签、类⽬目体系 演员、导演等Metadata 针对每个标签、类⽬目的兴趣强度 分 问题:基于统计,⽆无法区分驱热、类型、明星等信息 粒度过于粗
- 21.User Interest Latent Vector • • End2End ⿊黑盒模型由于噪声与概率分布假设的问题并⾮非全 局收敛,需缩⼩小搜索空间 • 拆解为多个更更容易易的⼦子问题 • 机器器学习解⼀一个End2End⼤大问题 < 拆解为若⼲干个更更容易易 的⼩小问题 传统End2End⽅方法易易受数据稀疏与噪声影响: • End2End模型:观看历史<->节⽬目推荐,易易受噪声影响 • 拆解为⼦子问题预测模型: • • 观看历史<->宽泛兴趣分类Latent Vector<->节⽬目推 荐,对于噪声更更鲁邦 宽泛兴趣Latent vector——⼈人⼯工构建类⽬目体系+审核,降噪 Latent Vector
- 22.⽤用户兴趣的建模的work - CTR • Collaborative Topic Modeling for Recommending Scientific Articles
- 23.⽤用户兴趣的建模的work - CTPF • Content-based recommendations with Poisson factorization • A Practical Algorithm for Solving the Incoherence Problem of Topic Models In Industrial Applications
- 24.⽤用户兴趣的建模的work - CTPF with popularity, stars tags and queries • 实现性能优化,scalable to internet scale • 基于parameter server架构 的分布式实现 • EM不不是全局收敛。针对每 个topic进⾏行行⼈人⼯工审核,再作 为初始值进⾏行行迭代。 • 扩展到⽂文本+标签+meta+流 ⾏行行度 • 基于兴趣向量量的个性化I2I similarity
- 25.⻓长期兴趣与短期兴趣的平衡——Phased GRU RecNet • ListwiseLoss:BPR/TOP1 Loss 捕捉⽤用户兴趣中的时域规律律: • ⻓长期短期平衡 • 有⼀一些短期兴趣满⾜足后,多样性需求会变强 过⼀一段时间需求⼜又会周期性的出现 Basedon:SESSION-BASED RECOMMENDATIONS WITH RECURRENT NEURAL NETWORKS ICLR2016
- 26.difference RNNs and conventional deep models the existence of an internal update Wherethe g following isbetween a smooth andfunction:'>function: