美团点评旅游推荐系统的演进
2020-02-27 169浏览
- 1.美团点评旅游推荐系统的演进 郑刚
- 2.
- 3.•2015年至今 美团点评酒旅事业群 •负责酒旅搜索排序推荐 •负责酒旅数据仓库和数据产品建设 •2014年之前 美团网技术部数据组 •参与数据平台搭建 •负责全平台数据仓库和数据产品建设 •2011年 百度电子商务事业部 •有啊商城的开发 •2010年毕业于中科院计算所
- 4.Outline •美团点评酒旅业务简介 •基于用户画像的召回策略演进 •基于L2R的排序策略优化 •从海量大数据的离线计算到高并发在线服务的推荐引擎架构设计 •推荐在美团点评酒旅的应用实践
- 5.人工智能应用 Critical Digital World Critical Physical World Non-Critical Digital World Non-Critical Physical World
- 6.新美大酒旅 国内发展最快的一站式综合住宿服务 平台 国内最大的在线门票交易平台
- 7.酒旅搜索推荐 2015Q3 组建推荐团队 2015Q4 周边游频道内推荐 2016Q1 搜索少/无结果推荐 2016Q2 详情页推荐 2016Q3 酒旅交叉推荐 2016Q4 点评旅游推荐 酒店住宿 境内度假 搜索/推荐 境外度假 大交通 数据挖掘 数据产品 酒旅数据仓库 集团数据平台
- 8.旅游推荐产品形态 旅游场景下用户兴趣点不明 确,频道内超过50%订单来 自推荐
- 9.旅游推荐面临的问题 本异地差异大 推荐形式多样 季节性明显 需求个性化
- 10.本异地差异大 超过30%订单来自异地请求 常驻城市!=浏览城市
- 11.推荐形式多样 景点下有大量相似门票,不适合 按Deal样式展现 跟团游、景酒套餐关联多个景点 ,不适合按POI样式展现
- 12.季节性明显 冬季温泉订单占比超过20%, 而夏季不到7%
- 13.需求个性化 用户人群 时间地域场景 内容形态
- 14.基于用户画像的召回策略演进
- 15.热销策略 基于Deal所在城市统计分城市热销 分类 场景 召回策略 本地需求 常驻城市=浏览城市 (北京人浏览北京) 当地用户购买的热销POI 异地需求 异地用户购买的热销POI 常驻城市!=浏览城市 (所有非北京人购买的热 (重庆人浏览北京) 销POI) 销量按时间衰减
- 16.热销策略 •精确统计POI销量 •Deal -> POI •POI售卖数据不准 •客户端埋点 POI详情页 F_poiid DEAL详情页 F_poiid 下单页 F_poiid
- 17.用户画像 •模型 •LR:预测常驻城市与某维度城市相等的概率 常驻 •样本 •调查问卷 •特征 •注册城市 •注册手机号 •手机定位城市 •浏览城市 •消费城市:团购、电影、外卖 •接受短信手机号
- 18.用户历史行为强相关策略 •热销策略能区分本异地用户差异 POI/Deal View POI/Deal Collect •不能对具体用户个性化推荐 Kafka •用户一个月内浏览、收藏的 POI/Deal •越实时权重越高 POI/Deal View/Collect Bolt Redis Online Service
- 19.Location-Based策略 •冷启动 •新POI •新用户 •区域消费热门POI •5KM范围内的热销POI •区域购买热门POI •5KM范围内的用户购买的POI •回龙观附近没有POI
- 20.协同过滤 •Item CF •基于POI浏览行为 •POI相似度每天离线更新,User浏览POI行为实时更新 •相似度改进:时间序列衰减 •基于用户搜索行为 •基于搜索后浏览POI行为构造矩阵,计算 POI相似度 •User CF •loglikelihood ratio
- 21.基于用户画像的推荐 •基础属性 用户标签偏好*标签权重*POI标签偏好*POI销量 •性别、年龄、职业 •人群属性 标签在POI维度的分布 •有车:汽车保养 •宅男:外卖 标签在用户维度的分布 •情侣:电影 •亲子:儿童乐园 •旅游达人:酒店旅游交通 •推荐 白领 古北水镇 情侣 九华山庄 有车 南山滑雪场 •基于用户标签计算POI标签 •精确匹配:给亲子类用户推荐亲子类POI •模糊匹配:基于标签计算用户和POI相似度 User
- 22.召回策略演进过程
- 23.基于L2R的排序策略优化
- 24.机器学习流程
- 25.问题建模 •访购率为目标 推荐 推荐 •只看点击率没有反映出交易属性 •看最终收入 •消费受购买限制、退款条件等影响 •收入跟BD谈单毛利相关 访消率 d1[x1,x2,x3,x4,x5,x6,x7,…] d1 d1 d1 d1 d7 d2[x1,x2,x3,x4,x5,x6,x7,…] d2 d2 d2 d2 d2 d2 d3 q1 d3[x1,x2,x3,x4,x5,x6,x7,…] d3 d3 d3 d3 d4 d4[x1,x2,x3,x4,x5,x6,x7,…] d4 d4 d1 •Pointwise L2R •Pairwise性能问题 •NN做rank? q1 …… dn q2 …… q3 …… …… qi …… qn d4 …… …… dn dn dn[x1,x2,x3,x4,x5,x6,x7,…] dn dn 线上工程 Learning System d6 d5 d4 …… 训练样本 L2R System … 。 。 Model h d1 Model h
- 26.问题建模 •GBDT •非线性 •High Level特征多 •XGBoost •泰勒展开,利用了二阶导数信息 •对数据预排序,性能更高 •多模型融合 •GBDT模型+FFM模型
- 27.问题建模 •FFM •矩阵分解+回归 •Low Level特征多 •情景推荐 •发现特征关联关系 •用户画像 •上下文 •POI ID&属性 User age<25 滑雪 25-40 … age>40 温泉 POI
- 28.数据标注
- 29.特征工程
- 30.•特征预处理 •missing value:不需要处理 •position bias:COEC •One-Hot Encoding?周几/小时/city id •Normalize? •召回策略特征化 •销量拆分本异地 •User-POI行为:实时/长期 •GeoHash热销 •POI CF •特征选择 •特征在每棵树每个节点的信息增益之和 特征工程
- 31.特征工程 •特征分析 •分本异地统计转化率、销量 •天气 •特征监控 •覆盖率 •值域范围 特征 •分布异常 coverRatio numValid 参考值 监控值 波动率 参考值 监控值 波动率 CLICKNET 0.931341 0.481258 0.483263 3271405 1745754 0.46636 DISTANCE 0.651660 0.033357 0.948812 13447 662 0.950770
- 32.•模型训练 模型训练 •单机VS分布式 •目标函数:binary:logistic•过拟合VS欠拟合 •样本大小&树的棵数 •样本和特征随机采样 •模型复杂度:max_depth,min_child_weight •通用离线训练工具 •流程抽象化、组件化 •提供公共组件,支持定制组件
- 33.•离线评估 效果评估&线上迭代 •AUC •logloss •在线评估 •ABTest:按UUID分流 训练集表现 测试集表现 问题 •模型更新 <期望目标值 <期望目标值 Underfiting •特征漂移:更新延迟 >期望目标值 接近或略逊于训练集 合适 >期望目标值 远差于训练集 Overfiting •线上迭代
- 34.模型调试 模型Debug工具
- 35.从海量大数据的离线计算到高并 发在线服务的推荐引擎架构设计
- 36.应用 场景 层 猜你喜欢 筛选扩大召回 详情页推荐 搜索少/无结果推荐 …. Thrift 接口 后台管理 场景配 置 推荐 服务 层 召回 过滤 POST Rerank 排序 分流 日志收集 路由调用 AB配置 Diff 核心 数据 层 城市热销 用户行为 LocationBased Item CF Query CF User CF 路由调用 数据维 护 离线 计算 层 算法 用户偏好 协同过滤 城市热单 应用数据 模型 用户基础数据 Deal&POI数据 日志基础数据 基础数据 用户画像 调 度 / 协 调 服 务
- 37.基础数据 Deal中心 POI中心 任务调度平台 city filter Deal New Index geo distance filter Deal Index Alias Deal Old Index POI Index ElasticSearch category filter Online Service
- 38.应用数据
- 39.应用数据线上化-DataHub • 特征抽取 • • • 特征存储 • • 数据压缩:Value String 特征管理 • • 统一特征抽取调度 精确控制数据导入速率,避免并发写压力过大 特征注册、特征监控 特征消费 • • Client缓存:Direct Momery 异步化:Thrift Async 1.25 1 100% 0.75 0.5 33% 0.25 13% 7% Value String Compresse d bytes 0 Ma p JSON String
- 40.推荐引擎 • 召回 • • • • • • • • 调制 分级 过滤 • • APP Merge:子策略融合 • • Booth:场景 Strategy:Baseline SelectRule:Location-Based Selector:区域热销POI Rerank服务 API 通用过滤策略:黑名单 针对某类召回策略:浏览未购买 Rerank:个性化排序 Post Rerank 推荐服务 召回 Merge 过滤 Rerank Post Rerank
- 41.推荐引擎-Rerank Thrift请求 模型及特征配置中心 Strategy Router Strategy Config Model File Model Manager Feature List Data Loader Feature Config Scorer Rerank Service POI Feature User Feature DataHub
- 42.实时策略效果统计
- 43.推荐在美团点评酒旅的应用实践
- 44.推荐应用 美团/点评双平台
- 45.品类区 推荐应用 banner 周边游频道首页 看了又看 景点POI详情页 人气区 角标 酒旅交叉推荐
- 46.推荐应用 POI标签 筛选列表页 筛选异地召回
- 47.搜索少/无结果推荐 • 无结果推荐 • • • • • 查询改写 Query CF Location-Based 热销POI 少结果推荐 • • POI CF POI同品类推荐
- 48.总结
- 49.