信息流算法在微博机器学习平台(WML)的实践 于翔@新浪微博

2020-03-01 189浏览

  • 1.8 信息流算法在微博机器学习平 1 0 2 台(WML)的实践 C C T D 于翔
  • 2.新浪微博 l 于翔 8 1 l 现任职于新浪微博,负责机器学习平台的模型服务平台与深度学习 平台,负责Feed排序/推荐流排序等业务模型服务 C C 0 2 l 曾就职于华为,从事分布式系统与大数据存储工作 T D
  • 3.目录 n 微博 n 微博机器学习平台(WML) n 信息流算法实践 T D C C 0 2 8 1
  • 4.微博 n 信息流场景 n 关注流 8 1 n 推荐流 n 热门流 0 2 n 评论流 T D C C n 视频流
  • 5.微博 n 用户规模 0 2 C C T D 8 1 以上数据基于2017Q4财报
  • 6.微博 n 内容规模 6.2亿 视频发布总量 微博 中国领先的社交媒体平台 0 2 C C T D 8 1 8700万 2600亿 直播总场次数 博文发布总量 以上数据基于2017Q2财报
  • 7.微博 n 业务生态 关注 优质用户 普通用户 理内 解容 优质内容
  • 8.目录 n 微博 n 微博机器学习平台(WML) n WeiFlow-统一架构 n WeiLearn-深度学习平台 n WeiServing-在线推理框架 n 信息流算法实践
  • 9.微博机器学习平台-WML WeiFlow-统一架构 WeiLearn-深度学习平台 WeiServing-在线推理框架
  • 10.WML/背景 n 业务场景高度相似性 n 重复人力投入 n 成果共享有阻力 n 模型依赖复杂,联动性要求高 语音识别 图像识别 ranking ……
  • 11.WML/统一架构 Integrated Frontend For Visualization 可视化集成 weiflow 工作流编排 weilearn k8s yarn 日志工程 特征工程 日志库 spark tensorflow mesos 样本生成 特征库 hadoop 模型训练 样本库 计算引擎 容器调度 在线服务 模型库 日志服务 存储层
  • 12.微博机器学习平台-WML WeiFlow-统一架构 WeiLearn-深度学习平台 WeiServing-在线推理框架
  • 13.WML/深度学习平台 n 复杂模型简单特征 n 数据规模极速扩张 n 非结构化数据指数增长 n 特征工程人力成本高 n 机器学习表征能力上限
  • 14.WML/深度学习平台 n 系统流程 模型库 样本库 weiLearn CTR样本 tensorflow D&W 自然语言样本 caffe LSTM 视频与图像样本 spark CNN
  • 15.WML/深度学习平台 n 大规模-roadmap tensorflow IO 30+ node 计算 通信 60+ M40 8亿样本/小时 10亿样本/小时 20亿样本/小时 100+亿样本/小时 版本 TF1.1 TF1.4 TF1.4 TF on MPI 优化方向 IO优化 通信优化 IO优化 通信优化 主要内容 引入pydoop,引入 多进程 grpc版本升级 实现自定义 operation输入 (C++) MPI替换gprc 引入NCCL2支持多GPU通信
  • 16.微博机器学习平台-WML WeiFlow-统一架构 WeiLearn-深度学习平台 WeiServing-在线推理框架
  • 17.WML/在线推理服务框架 n 系统架构
  • 18.WML/在线推理服务框架 n 性能优化-基本手段 • • • • • 模型量化(quantization) 模型剪枝(prune) 调整batch size 调整session thread & op thread tensorRT
  • 19.WML/在线推理服务框架 n 性能优化-四大陷阱
  • 20.WML/在线推理服务框架 n 性能优化-瓶颈分析 • • • • graph分析-Tensorboard 善用工具( Valgrind / gprof / gperftools ) 一等公民-GPU与CPU内存拷贝耗时 一等公民-内存分配 Assign Op
  • 21.WML/实践效果 接入平台(业务B) 建设平台(业务A) 业务上线 业务上线 模型开发 83% 模型开发 特征工程 人力成本 87% 时间成本 特征工程 80% 机器成本
  • 22.目录 n 微博 n 微博机器学习平台(WML) n 信息流算法实践 n 关注流机器学习排序 n 正文页深度学习推荐
  • 23.业务实践/关注流机器学习排序 l 为什么排序 n 信息过载 n 冗余重复 n 信噪比低 l 面临挑战 n 大数据 n 大计算 n 大模型
  • 24.业务实践/关注流机器学习排序 n 模型选择 LR+特征工程 n 特征选择
  • 25.业务实践/关注流机器学习排序 n 系统实践 Motan server 主feed业务 feed排序 feed物料 机器学习平台 Motan server Thrift server 特征服务 日志收集 特征处理 相关策略 模型服务 模型训练 模型输出
  • 26.业务实践/正文页深度学习推荐 n 模型选择 线性模型 • • 优势:简单,高效,可解释,易扩展,易并行 局限性:特征工程繁琐、无法表达高级抽象特征 深度学习模型 • 更精确刻画User与Item
  • 27.业务实践/正文页深度学习推荐 n Deep&Wide模型
  • 28.业务实践/正文页深度学习推荐 n 系统架构 输出策略层 推荐业务 过滤 召回 LDA Item2Vec 协同过滤 hot word2Vec 相关性 已读 去重 分发控制 运营策略 机器学习平台 物料服务 特征服务 对象 物料 用户 物料 用户 特征 基础 物料 协同 物料 微博 特征 环境 特征 排序服务 精排 粗排 Deep&Wide GBDT LR
  • 29.人工智能赋能社交媒体 Ø 微博机器学习团队 & AI Lab 诚聘英才 扫描⼆维码 简历投递 ☛ yuxiang8@staff.weibo.com
  • 30.
  • 31.