国美在线大数据中心邱宝军-机器学习排序框架与实践

2020-02-27 75浏览

  • 1.机器学习排序实践 GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G 国美在线大数据中心 邱宝军 杨骥 李冰青 2016年7月1日 国美大数据研究院1
  • 2.01 机器学习排序 GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G 02 推荐排序实践 2
  • 3.排序 推荐 vs.广告 vs.搜索 GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G 3
  • 4.排序à机器学习排序 搜索GITC Perfect Excellent 搜索词、目标文档(网站)、搜索人、时间、环境… Que ry GITC GITC URL Thegitc.c om ... Label Perfect Excellent PageRank 0.6 0.9 BM2 5 … Featu -re_N 0.9 100 0.9 66 Good GITC … Good 0.8 0.7 75 GITC GITC GITC GITC GITC GITC GITC GITC GGIITTCC G…ITC GIFTaCir GITC0.9GITC0.6GITC GIT32C G GITC … Bad 0.2 0.65 120 Fair 国美 … Perfect 0.6 0.8 150 Bad 国美 … … Perfect 0.5 0.7 50 4
  • 5.人工 vs 机器学习排序 人工规则 机器学习排序(Learning to Rank) ü Pointwise 排序问题转化为多类分类问题或者回归问题,相关 度相同的为一类 ü Pairwise 排序问题转化为二分类问题,由两两之间的偏序关 GITC GITC GITC GITC GITC GITC GITC GIüTCLiGs系tIw得T到iCse全G局I的T排C序GITC GITC GITC GITC GITC G 直接对排序结果进行优化 人工规则 vs. 机器学习 (广告 vs. 搜索 vs. 推荐) 5
  • 6.机器学习排序-流程 训练数据à 标注 特征工程 模型训练 线上部署 (&离线测试) (&A/B测试) A B C D E FG Label Label B+ B-A + GITC GITCE GIT+C GITBC-C GIT+ C GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G A- B-D + C- C-E - D- D-E - E-A + 6
  • 7.特征工程-从实体到特征 用户属性、 查询量、 购买力、 转化率、 品类倾向 品类分 UV、PV、 订单量、 转化率 店铺评分、 店铺流量、 店铺评价 当地温度、 污染指数、 人口数量 …… 用户 查询 商品 商家 环境 GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G 关键词匹配、价格匹配等 区域销量、商品天气匹配等 品类匹配、购买力匹配等 7
  • 8.常用模型-(推荐系统常用算法) • 协同过滤 • Deep Learning(RBM, CNN, RNN, …) • 回归模型(LR,SVR…) • LDA • 矩阵分解(SVD,LFM,SVD++,…) • Association Rules GITC •GIT马C 尔GI科TC夫G链ITC GITC GITC GITC GITC• GGITBCDTG/IRTFC GITC GITC GITC GITC GITC G • 聚类 (K-means, …) •… 8
  • 9.机器学习排序-部署效率 离线预处理 在线处理 精确度换速度 GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G 空间换速度 9
  • 10.量化与A/B测试 • 可量化目标:分类准确率、NDCG、点击率、转化率 • 假设à试验à结论 随机对比测试(A/B测试) GITC GITC GIT用C户GI随TC机GITC 筛选 GITC GITC GITC GIT运C营GIT统C计GITC 数据 分析 GI决T策C GI结TC果GITC 判读 GITC G 德鲁克:如果你不能衡量它,就无法增长它 10
  • 11.第一步:更改A组权重 国美推荐A/B测试配置及量化 第三步:完成分组流量配置及分组备注 GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G 第二步:更改B组配置及流量 持续观察KPI指标 11
  • 12.对比A/B测试效果 国美推荐A/B测试量化效果 GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G 12
  • 13.机器学习排序-小结 场景恢复 训练样本构建 模型训练 线上实验 用户交互行为 样本标注 数据清洗 用户实时 行为 用户&商品 画像 用户特征 购买>购物车>关 注>点击>展示 离线评测 特征工程 多模型召回 商品 实时交 长期交 互特征 互特征 商品特征 (购买力水平、长 期偏好、性别、家 庭属性、品类、品 (正确率、召 (特征预处理、特征 回率、NDCG) 选择、特征离散化) 离线特征 计算 在线特征 计算 GITC GITC GITC GITC词牌G、、销I产T量品C、词点G、击修IT量饰C、 GITC GITC参G数调IT优C GITC GITC GITC G排IT序C GITC GITC G 环境特征 转化率、浏览用户 量、下单用户量等 等特征) A/B测试 13
  • 14.01 机器学习排序 GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G 02 推荐排序实践 14
  • 15.推荐排序实践:架构 Training Offline Model Offline Model LR-rank SVD SVD++ Online Model FTRL RF LR Knowledge Log Extraction Training Online Model Redis Hbase & Redis GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G User Behavior List Data Getter Recall Skus Pool Feature Computation Ranking Engine Impression List User Request/Callback UI Client User Callback Real-time Callback 15
  • 16.推荐排序实践:在线vs离线 在线实时排序 离线数据挖掘 • 过滤: 业务需求(无库存、成人用品 • 隐语义模型数据: 矩阵分解 、促销商品) • 协同过滤:UserBasedCF、 • 实时特征计算:人vs.商品,准实时行为 ItermBasedCF 特征 • 用户画像:品类、品牌、性别、年龄、 • 多样性:多模型、多数据源融合 购买力等 GITC •GIT新C颖G度ITC GITC • CTR/CVR GITC GITC GITC GITC•GIT区商C品域G画、IT购像C:买G价周IT期格C指等G数IT、C适G用IT人C群G和IT地C理GITC G • 计算机视觉特征 • 在线A/B测试 • 离线测试 16
  • 17.推荐排序实践:推荐离线模型的构建流程 1. 收集用户行为,包括点击、加购、关注、下单等 2. 对行为进行过滤,比如:join(白名单)、统计截断、position-bias、多 次加/删购等处理 GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G 3. 制定行为评分规则,生成评分矩阵 4. 训练矩阵分解模型 5. 导入缓存请输入文案 17
  • 18.推荐排序实践:基于SVD的评分预测 ■ 用户因子向量 ??????" ∈ ℜ% 和商品因子向量 ??????' ∈ ℜ% ■ 评分偏置(bias) ??????"' = ?????? + ??????" + ??????' (?????? 是整个网站评分的均值,??????"和??????'是 用户/商品较网站评分的偏差) GIT■C用G户IT对C某G商IT品C??????G的I预TC测G评I分TC为G??????"I,'TC= ???G???"I'T+C??????G"/???I???T' C GITC GITC GITC GITC GITC GITC GITC G ■ SVD++ 加入隐式反馈 ??????", ' = ??????"' + ??????'/ ?????? ?????? 243 5 ??????"6 − ??????"6 ??????6 + ?????? ?????? 243 5 ??????6 6∈9 " 6∈< " ■ 其中 ■ ??????', ??????', ??????' ∈ ℜ% 是商品的三个隐向量 ■ ?????? ?????? 代表被用户?????? 打过分的商品集合 ■ ?????? ?????? 代表用户隐式选择的商品集合(即打分/未打分) 18
  • 19.某地高温 橙色预警 推荐排序实践:环境特征 利用天气API定位某地高温橙色预警,该地区用户进入网站,首页猜你喜欢推荐空调、风扇等商品: 某地雾霾 利用天气API定位某地雾霾红色预警,该地区用户进入网站,首页猜你喜欢推荐空气净化器、口罩等商品: GIT红C色G预I警TC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G 19
  • 20.推荐排序实践:深度学习与视觉特征 图像标注 提取特征 降维 匹配 对国美全站的 商品图像 进行标注: 图 片 的 特 征 分 为 两个 部 分 , 一是通过深度学习得到的 特征,二是图像色局部特 分 别 对 前 面 两 种 特 征进 行 降维处理: 采 用 最近 邻搜 索的 方法 找 出 每 一个 商品 的相 似商 品 集合 GITC1G. 清最IT洗主C要,G的即I工把T作不C是能G数和I据品TC GI利征TC用:cGaffIeT训C练CGNINT,C将G倒ITC Q用GuIaT积ntCiza量GtioIn化T) C的(P方GroI法dTuC对ct GITC GITC GITC GITC G 类 对 应 的图 片删 除 或 数第二层输出作为Feature CNN特征进行降维 者重新进行品类校准 Learning 的结果提取出来 (Deep Learning + 用Fisher Vector对图像局 2. 统计国美全站最近一 Transfer Learning) 部特征进行降维 年 内 各 品类 下商 品 总 数 的 分 布; 然后 按 照 分布进行图片抽样 利用局 部特 征算子 (SIFT,kaze 等 ) 提 取 出 图 像 的局部特征 20
  • 21.深度学习特征 手工特征: SIFT [Lowe 99] Spin Images [Johnson&Herbert 99] Textons[Malik et al. 99] RIFT[Lazebnik 04] GLOH[Mikolajczyk&Schmid 05] HOG[Dalal&Triggs 05] GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G 深度学习特征: Zeiler&Furges,ECCV2014 21
  • 22.推荐排序实践:提升推荐个性化及转化率 未经机器学习排序,网站首页猜你喜欢结果 使用机器学习提升推荐转化率 利用机器学习排序就是从数据中 自动学习模式,在若干限定条件 GITC GITC GITC GITC GITC GITC GITC GITC GITC G下I,T找C出G全I局的T近最C优似G或值I者T局C部G最I优TC GITC GITC G 利用机器学习排序后,网站首页猜你喜欢推荐商品 22
  • 23.推荐排序实践:A/B测试监测分析 GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G 23
  • 24.GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC GITC G 24