蘑菇街广告的排序:从历史数据学习到个性化强化学习

2020-02-27 223浏览

  • 1.蘑菇街广告的排序:从历史数据学习到个性化 强化学习 蘑菇街邓钦华(花名问天)
  • 2.
  • 3.个人介绍 • • 邓钦华,花名问天,在蘑菇街负责搜索系统、广告系统、流量系统、 图像算法和机器学习团队 一直从事搜索推荐、机器学习和大数据系统的研发实践,参与开发过 百度统计、百度关键词推荐、百度搜索广告系统、360 搜索广告系统、 360 展示广告系统、360 推荐系统、迅雷大数据平台、迅雷数据统计 分析平台等产品,从零搭建了蘑菇街广告体系、流量体系和搜索体系, 并将图像技术用于搜索的排序。
  • 4.目录 • 蘑菇街和广告业务介绍 • 传统广告排序:从历史数据学习 • 传统广告排序在蘑菇街场景遇到的问题 • 我们的一些经验:个性化强化学习 • QA
  • 5.蘑菇街和广告业务介绍 蘑菇街pc和app的页面
  • 6.蘑菇街和广告业务介绍 • 蘑菇街业务介绍 1. 导购+电商 2. 买手优选+红人经济 3. 社会化电商
  • 7.蘑菇街和广告业务介绍 • 原生广告,广告结果和自然结果混合在一起 • cpc计费,广义二阶竞价 • 独立的广告位置+广告投放业务系统
  • 8.蘑菇街和广告业务介绍 • 蘑菇街业务特点 1. 用户逛街式浏览,图片的美观对用户体验影响很大 2. 移动端访问占比超过80%,用户浏览量大 3. 商品存在明显的时效性和季节周期性 4. 商家在库存压力下,对流量获取的稳定性和可控性存在天然的诉求
  • 9.蘑菇街和广告业务介绍 • 蘑菇街广告业务
  • 10.蘑菇街和广告业务介绍 • 蘑菇街广告业务
  • 11.传统广告排序:从历史数据学习 • 1. 广告排序历史 竞价排名,发明者overture 优点?问题? 2. 进化:质量度*出价排名+广义二阶竞价,发明者google 优点?问题?
  • 12.传统广告排序:从历史数据学习 • 1. 如何预估质量度:点击率预估 统计性模型 优点?问题? 2. 统计机器学习模型 LR:
  • 13.传统广告排序:从历史数据学习 • Why LR? 1. 概率模型,预测值有物理含义,而不是简单的排序值 2. 最简单的non-trivial 算法,预测值更平滑 3. 简单够快,容易处理稀疏问题+易于并行实现
  • 14.传统广告排序:从历史数据学习 数据日志 用户反馈 实时数据 在线服务 服务 离线数据传输 在线基础服务 离线数据处理和数 据挖掘 离线数据模型 在线数据挖掘
  • 15.传统广告排序:从历史数据学习 • 1. 进一步 GBRT+LR 变化? 2. Online learning:FTRL 变化?
  • 16.传统广告排序在蘑菇街场景遇到 的问题 商品的季节性 和时效性 用户逛街式浏 览的导购需求 个性化和时尚趋势的变化
  • 17.我们的一些经验:个性化强化学习 收益和代价 ee广告展现形式 商家是否要参加
  • 18.我们的一些经验:个性化强化学习 • 我们的一些思考:产品 1. 新广告的比例和长期收益,评估指标是什么? 2. 混排还是独立位置? 3. 商家参与好处和缺点?
  • 19.我们的一些经验:个性化强化学习 强化学习模型和传 统模型如何结合 如何挑选商品和用 户:刻画能力和泛 化能力 个性化和强化学习 的结合
  • 20.我们的一些经验:个性化强化学习 • 我们的思考:系统 1. 分阶段模型?Bayes模型? 2. explore不止一个商品,还要考虑商品的推广型 3. 新品的个性化初始概率
  • 21.我们的一些经验:个性化强化学习 • bayes模型 1. 商品冷启动相当于先验,先验分布为beta分布,商品的先验概率预估 2. 好处?缺点? 3. 置信度 and 样本抽样
  • 22.我们的一些经验:个性化强化学习 • 强化学习 1. epsilon-Greedy 2. Naïve UCB1 3. UCB Bernoulli fixed 95% confidence intervals 4. UCB1-Tuned 5. 6. UCB-SEGMENT Contextual Bandit(linucb)
  • 23.我们的一些经验:个性化强化学习 • 强化学习:UCB Bernoulli fixed 95% confidence intervals 我们假设商品是否点击符合二项分布,那么在我 们的bandit算法中,我们就使用Binomial confidence intervals来计算每个商品的置信上 界,每次进行离线算法分更新时,我们可以可以 知道: Totals Success -- -- Estimate_Mean = 2. Estimate_Variance = 𝑝 1 − 𝑝 3. standard deviation = • 将该符合二项式分布的随机变量归一化转化为 N(0,1)分布,通过95%的置信区间,可以得到 需要的上界: • 𝑆𝑏𝑎𝑛𝑑𝑖𝑡 = 𝑝 + 1.96 𝑝 ( 1 − 𝑝)/𝑇𝑜𝑡𝑎𝑙𝑠 商品总计被选择的次数; 商品展现并被点击的次数 Success / Totals = 𝑝 1. 𝑝 ( 1 − 𝑝)
  • 24.我们的一些经验:个性化强化学习 • 一些优化 1. 𝑆𝑎𝑙𝑔𝑜 = 𝛾𝑆𝑏𝑎𝑛𝑑𝑖𝑡 + 𝛿𝑆𝑟𝑜𝑢𝑛𝑑−𝑟𝑜𝑏𝑖𝑛 2. 每个样本的权重不一样,用户权威度 3. 用户分群和商品属性分类的更新 4. 概率的个性化预估、初始概率预估 5. 参数的自动化调整
  • 25.我们的一些经验:个性化强化学习
  • 26.我们的一些经验:个性化强化学习
  • 27.我们的一些经验:个性化强化学习
  • 28.我们的一些经验:个性化强化学习 • 没有讲到的 1. 样本抽样和特征 2. 反作弊的做法 3. 复杂模型融合
  • 29.