11:30 12:20 单艺 构建企业级机器学习平台
2020-03-01 205浏览
- 1.
- 2.构建企业级机器学习平台 猎聘大数据研究院 单艺
- 3.自我简介 • 现任猎聘首席数据科学家,负责人工智能和大数据研发 • 曾任职于美国硅谷的Altera、Yahoo!和奥美广告 • 专注于机器学习、推荐系统、自然语言处理和大数据 • 毕业于清华大学和美国University of Arizona
- 4.机器学习应用场景
- 5.更多幕后的应用 • 用户和职位画像:职能分类、用户分级、能力模型 • 精准营销:定向产品推广、用户求职行为预测 • 平台运营:自动化订单分配、HR行为预测 • 销售自动化:客户分类分级、商机预测、商机分配
- 6.机器学习应用开发流程 1 目标定义 5 模型应用 • 超参数优化 • 模型集成 2 数据收集 • 特征组合 4 模型优化 3 特征设计 • 特征选择 • 降维 4 算法选择
- 7.问题和挑战 •全流程对于工程和算法要求高 •数据处理繁琐、易错 •项目特征“孤岛”,开发成本高 •模型效果优化严重依赖经验 •部署和运维手工作业,稳定性差 •重复发明“轮子”,质量参差不齐
- 8.平台目标 • 服务人群:机器学习工程师、数据分析师、业务研发工程师 • 简化机器学习模型的开发、测试和部署,提升效率,降低成本 • 提供便利的数据处理和特征管理工具,提升数据和特征质量,促进共享 • 提供全面的监测功能,保证线上服务的稳定、可靠和性能 • 提供高性能的特征计算服务,实现毫秒级的响应 • 提供实时的训练数据生成服务,保证数据质量,避免“穿越”问题 • 运用AutoML技术自动优化模型构建,优化模型效果
- 9.主要功能 模型服务 模型管理 预测服务 实验管理 日志落地 指标监测 特征筛选 降维/聚类 模型训练 AutoML 特征管理 特征生成 特征获取 特征监测 模型构建 特征组合 特征计算 元数据管理
- 10.平台架构 Experiment Mgmt Real-time Prediction Service Client AutoML Event Logger Predictors Hive ES Off-line Feature Generation Event Collector Feature Joiner Training Data Feature Meta Admin Kafka DB Spark Streaming (SQL/Java/Python) Models Distributed Training Leo Scheduler (SQL/Spark/Python) Near-line Feature Generation Online Training Batch Training Distributed Training Features HBase Batch Prediction Job Predictors HDFS Sampled Prediction Performance Monitoring
- 11.数据流概览 输出监测 模型训练和校验 反馈 模型更新 请求 试 验 管 理 数据 数 据 处 理 输入监测 特征 生 产 模 型 模型输出 后 处 理 结果
- 12.数据处理常用设计模式 • • • • Iterators Pub/Sub Actor model Caching joins
- 13.特征任务与特征组 特征组1 特征任务1 特征A 特征B 特征C ……. 特征任务M 特征X 特征Y 特征Z ……. 特征管理 组合服务 特征A 特征X 特征Y ……. 特征组N 特征B 特征C 特征Z …….
- 14.避免“穿越”
- 15.模型训练
- 16.监测 Log Feed Spark Streaming Druid Superset
- 17.建模中的超参数 Item CF 相似度算法、相似度因子权重… Matrix Factorization 隐因子数、正则化权重… Neural Networks 结构、层数、每层神经元数、dropout比例 GBDT 提升次数、树的最大深度、学习率、样本采样率、 特征采样率… Random Forest 树的数量、树的最大深度、样本采样率、特征采样 率… Logistic Regression 正则化权重、正则化方法 Gradient Descent 学习率、批次大小、迭代次数…
- 18.AutoML方法 贝叶斯优化: • • 高斯过程回归 • SMAC • TPE • 谱模型 • Bandit算法 • Hyperband算法 Network Architecture Search • • Network Controller + Reinforcement Learning • DART
- 19.自动化建模 训练数据 特征组合 Truncated SVD (规则、树) 特征打分和筛选 验证数据 聚类 { Model 1 Model N } 模型
- 20.A/B实验 Control Treatment Overall Evaluation Criterion
- 21.分层分域实验
- 22.灵活可配置的实验管理
- 23.开源实验管理系统:Macawhttps://github.com/lpdig/macaw
- 24.