FreeWheel Lead Researcher 潘晓彤 - 构建分布式广告事件预测系统

2020-02-27 49浏览

2.Confidential 2
3.关于FreeWheel • 视频广告解决方案 Confidential 3
4.提纲 • xTR是什么 • xTR系统架构 • 特征提取 • 模型训练与优化 Confidential 4
5.xTR是什么 Search Ads Video Ads CTR(click-through rate) prediction CPM xTR(x-through rate) prediction Ad impression CPx-event Confidential 5
6.CPx-event流程图 Confidential 1. 注册事件 2. 写入数据库 CocaCola 17 6. 向广告分析公司发送事件 callback 4. 广告服务器登记支持事件类型 5. 事件发生时，发送事件callback 3. 加载事件 7. 统计广告投 9.更新线上模放日志型 8. 离线数据分析 & 模型训练 xTR 6
7.xTR系统架构预测系统广告服务器 Ad delivery log Confidential xTR online service API server KV storage xTR offline jobs Model ML Algorithm Sample Feature Data Foundation Presto Spark Map Reduce Hive Yarn HDFS HBase Kafka 7
8.xTR数据规模 • 交易量：1.5 billion (1 day) • 特征量：1.5 billion (30 days) • 样本量：250 million (7 days) • 模型量：50+ events • 在线服务(Thrift RPC) – 100w QPS – 10ms timeout Confidential 8
9.xTR问题 Confidential 9
10.xTR流程图特征过滤 3 文本特征 3 特征回归模型 2 统计类特征 11 广告投放日志 Confidential 4 特征交叉 5 特征缺省值处理 6 特征平滑 7 线上模型更新 12 特征离散化 8 模型分析抽样 & Re-weight 9 11 训练样本 10 自适应模型 10
11.提取哪些信息作为特征？ • 上下文统计类特征/视频文本分类特征 • 上下文：视频/网页/GEO(国家,洲,城市)/视频运营商/… 事件纸牌屋第一季第一集 + 观看率 0.53 特征抽取方案静态特征动态特征存储消耗 n m (m为事件个数) << n Confidential 11
12.提取哪些信息作为特征？ • 上下文统计类特征/视频文本分类特征 1 Video id 视频标题视频描述 2 人工标注 3 NLP处理 Confidential 4 5 模型训练 12
13.特征组织方式 • 问题：所有特征存储在KV，难以满足高并发在线服务需求 • 特征回归模型 – 学习目标：特征值 – 特征：上下文信息one-hot representation，定义为”子特征” – Factorization machine回归模型 Confidential 13
14.特征回归模型效果 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Confidential 特征回归模型impression事件auc效果 0.88 0.896 0.798 0.9115 0.92 0.605 前贴片广告中贴片广告普通特征(auc) 特征回归模型(auc) 后贴片广告 14
15.特征筛选 • 选择最好的特征子集合 •Reference:《Practical Lessons from Predicting Clicks on Ads at Facebook》场景前贴片广告中贴片广告后贴片广告 Confidential 基础特征(auc) 0.88 0.605 0.9115 基础特征 + GBDT binary(auc) 提升效果 0.9044 2.77% 0.8432 39.37% 0.9227 1.23% 15
16.特征筛选 • 交叉特征：找出不同特征之间相关性 Confidential 16
17.怎样做特征工程 • 缺失特征处理：中位数/平均数缺失特征处理 1 0.9 0.88 0.9070.913 0.8 0.7 0.6 0.5 0.4 0.814 0.817 0.605 0.91150.922 0.925 0.3 0.2 0.1 0 前贴片广告中贴片广告后贴片广告原始办法(auc) 平均值(auc) 中位数(auc) Confidential 17
18.怎样做特征工程 • 特征平滑：Min-Max平滑/Gaussian平滑 Confidential 18
19.怎样做特征工程 • 连续特征离散化样本1特征 0.12 样本2特征 0.67 (0,1,0,0,0,0,0,0,0,0) (0,0,0,0,0,0,1,0,0,0) (x0,x1,x2,x3,x4,x5,x6,x7,x8,x9) Confidential 19
20.特征更新策略 • 加长统计周期，训练效果不一定变好不同特征统计周期auc表现 0.92 0.9 0.88 0.86 0.84 0.82 0.8 0.78 0.76 0.74 0.841 0.81 0.798 前贴片广告 0.911 0.8180.821 中贴片广告 0.8920.8930.892 后贴片广告 30-days 15-days 7-days Confidential 20
21.选择哪个模型训练 Logistic regression SVM Random forest GBDT Neural network 事件集事件1 事件2 事件n Logistic regression GBDT Random forest Confidential 21
22.最优化模型参数 • 同一模型选择最佳学习方法与参数：枚举 Trust region LBFGS SGD 算法参数训练集/验证集 1:9, 1:4, 1:2, 2:1, … Learning rate 0.01, 0.1, 0.5, … L1 0, 0.1, 0.5, … L2 0, 0.1, 0.5, … 迭代次数 100, 200, 500, … 终止条件 1e-6, 1e-2, … Confidential 最佳学习方法+参数 22
23.自动化模型选择 • 在线学习 + 强化学习 Agent(模型空间) Policy Reward Action Environment 在线系统 Confidential 23
24.在线强化学习模型效果在线强化学习模型效果 0.96 0.94 0.92 0.936 0.913 0.951 0.923 0.9 0.88 0.877 0.86 0.84 0.843 0.82 0.8 0.78 前贴片广告中贴片广告后贴片广告离线有监督学习(auc) 在线强化学习(auc) Confidential 24
25.解决不同事件中正负样本比例不均衡问题场景前贴片广告后贴片广告正负样本比例 1:2 1:40 Confidential 25
26.解决不同事件中正负样本比例不均衡问题 • 解决正负样本不均衡问题 – 小样本量数据全部采样，大样本量数据抽样采样 – Stratified sampling ：根据特征来采样，使样本尽量覆盖特征空间 – Re-weighting：小样本被分到大样本时，在损失函数中的惩罚更大 Confidential 26
27.解决正负样本不均衡方法效果 impression事件auc表现 0.95 0.92 0.927 0.9 0.892 0.85 0.8 0.853 0.841 0.798 0.8320.839 0.818 0.75 0.7 前贴片广告中贴片广告后贴片广告普通采样(auc) Stratified sample(auc) Re-weighting(auc) Confidential 27
28.未来计划 • 用户属性特征 • 深度学习 Confidential 28
29.Confidential • 潘晓彤 • Lead Researcher • xtpan@freewheel.tv 29
30.Q&A Thanks! Confidential 30