FreeWheel Lead Researcher 潘晓彤 - 构建分布式广告事件预测系统

2020-02-27 49浏览

  • 1.亿级视频广告事件预测系统构建之道 潘晓彤 4月 2017 © 2015 FreeWheelConfidential
  • 2.Confidential 2
  • 3.关于FreeWheel • 视频广告解决方案 Confidential 3
  • 4.提纲 • xTR是什么 • xTR系统架构 • 特征提取 • 模型训练与优化 Confidential 4
  • 5.xTR是什么 Search Ads Video Ads CTR(click-through rate) prediction CPM xTR(x-through rate) prediction Ad impression CPx-event Confidential 5
  • 6.CPx-event流程图 Confidential 1. 注册事件 2. 写入数据库 CocaCola 17 6. 向广告分 析公司 发送事件 callback 4. 广告服务器登 记支持事件类型 5. 事件发生时,发 送事件callback 3. 加载事件 7. 统计广告投 9.更新线上模 放日志 型 8. 离线数据分析 & 模型训练 xTR 6
  • 7.xTR系统架构 预测系统 广告服务器 Ad delivery log Confidential xTR online service API server KV storage xTR offline jobs Model ML Algorithm Sample Feature Data Foundation Presto Spark Map Reduce Hive Yarn HDFS HBase Kafka 7
  • 8.xTR数据规模 • 交易量:1.5 billion (1 day) • 特征量:1.5 billion (30 days) • 样本量:250 million (7 days) • 模型量:50+ events • 在线服务(Thrift RPC) – 100w QPS – 10ms timeout Confidential 8
  • 9.xTR问题 Confidential 9
  • 10.xTR流程图 特征过滤 3 文本 特征 3 特征回 归模型 2 统计类 特征 11 广告投放日志 Confidential 4 特征交叉 5 特征缺省值处理 6 特征平滑 7 线上模型 更新 12 特征离散化 8 模型分析 抽样 & Re-weight 9 11 训练样本 10 自适应模型 10
  • 11.提取哪些信息作为特征? • 上下文统计类特征/视频文本分类特征 • 上下文:视频/网页/GEO(国家,洲,城市)/视频运营商/… 事件 纸牌屋第一季第一集 + 观看率 0.53 特征抽取方案 静态特征 动态特征 存储消耗 n m (m为事件个数) << n Confidential 11
  • 12.提取哪些信息作为特征? • 上下文统计类特征/视频文本分类特征 1 Video id 视频标题 视频描述 2 人工标注 3 NLP处理 Confidential 4 5 模型训练 12
  • 13.特征组织方式 • 问题:所有特征存储在KV,难以满足高并发在线服务需求 • 特征回归模型 – 学习目标:特征值 – 特征:上下文信息one-hot representation,定义为”子特征” – Factorization machine回归模型 Confidential 13
  • 14.特征回归模型效果 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Confidential 特征回归模型impression事件auc效果 0.88 0.896 0.798 0.9115 0.92 0.605 前贴片广告 中贴片广告 普通特征(auc) 特征回归模型(auc) 后贴片广告 14
  • 15.特征筛选 • 选择最好的特征子集合 •Reference:《Practical Lessons from Predicting Clicks on Ads at Facebook》 场景 前贴片广告 中贴片广告 后贴片广告 Confidential 基础特征(auc) 0.88 0.605 0.9115 基础特征 + GBDT binary(auc) 提升效果 0.9044 2.77% 0.8432 39.37% 0.9227 1.23% 15
  • 16.特征筛选 • 交叉特征:找出不同特征之间相关性 Confidential 16
  • 17.怎样做特征工程 • 缺失特征处理:中位数/平均数 缺失特征处理 1 0.9 0.88 0.9070.913 0.8 0.7 0.6 0.5 0.4 0.814 0.817 0.605 0.91150.922 0.925 0.3 0.2 0.1 0 前贴片广告 中贴片广告 后贴片广告 原始办法(auc) 平均值(auc) 中位数(auc) Confidential 17
  • 18.怎样做特征工程 • 特征平滑:Min-Max平滑/Gaussian平滑 Confidential 18
  • 19.怎样做特征工程 • 连续特征离散化 样本1特征 0.12 样本2特征 0.67 (0,1,0,0,0,0,0,0,0,0) (0,0,0,0,0,0,1,0,0,0) (x0,x1,x2,x3,x4,x5,x6,x7,x8,x9) Confidential 19
  • 20.特征更新策略 • 加长统计周期,训练效果不一定变好 不同特征统计周期auc表现 0.92 0.9 0.88 0.86 0.84 0.82 0.8 0.78 0.76 0.74 0.841 0.81 0.798 前贴片广告 0.911 0.8180.821 中贴片广告 0.8920.8930.892 后贴片广告 30-days 15-days 7-days Confidential 20
  • 21.选择哪个模型训练 Logistic regression SVM Random forest GBDT Neural network 事件集 事件1 事件2 事件n Logistic regression GBDT Random forest Confidential 21
  • 22.最优化模型参数 • 同一模型选择最佳学习方法与参数:枚举 Trust region LBFGS SGD 算法参数 训练集/验证集 1:9, 1:4, 1:2, 2:1, … Learning rate 0.01, 0.1, 0.5, … L1 0, 0.1, 0.5, … L2 0, 0.1, 0.5, … 迭代次数 100, 200, 500, … 终止条件 1e-6, 1e-2, … Confidential 最佳学习方法+参数 22
  • 23.自动化模型选择 • 在线学习 + 强化学习 Agent(模型空间) Policy Reward Action Environment 在线系统 Confidential 23
  • 24.在线强化学习模型效果 在线强化学习模型效果 0.96 0.94 0.92 0.936 0.913 0.951 0.923 0.9 0.88 0.877 0.86 0.84 0.843 0.82 0.8 0.78 前贴片广告 中贴片广告 后贴片广告 离线有监督学习(auc) 在线强化学习(auc) Confidential 24
  • 25.解决不同事件中正负样本比例不均衡问题 场景 前贴片广告 后贴片广告 正负样本比例 1:2 1:40 Confidential 25
  • 26.解决不同事件中正负样本比例不均衡问题 • 解决正负样本不均衡问题 – 小样本量数据全部采样,大样本量数据抽样采样 – Stratified sampling :根据特征来采样,使样本尽量覆盖特征空间 – Re-weighting:小样本被分到大样本时,在损失函数中的惩罚更大 Confidential 26
  • 27.解决正负样本不均衡方法效果 impression事件auc表现 0.95 0.92 0.927 0.9 0.892 0.85 0.8 0.853 0.841 0.798 0.8320.839 0.818 0.75 0.7 前贴片广告 中贴片广告 后贴片广告 普通采样(auc) Stratified sample(auc) Re-weighting(auc) Confidential 27
  • 28.未来计划 • 用户属性特征 • 深度学习 Confidential 28
  • 29.Confidential • 潘晓彤 • Lead Researcher • xtpan@freewheel.tv 29
  • 30.Q&A Thanks! Confidential 30