打造金融级智能中台的数据底座 王志勇
2020-03-01 166浏览
- 1.打造金融级智能中台的数据底座 太岳(王志勇)
- 2.自我介绍
- 3.小问题 • 某YC的创业团队,声称可以利用1/1000的数据就可以 进行深度学习训练,是否值得投资? • AI浪潮下,工程开发人员的思维方式是否要改变? • 工作8年以上的请举手
- 4.自我介绍 王志勇(太岳),07年加入阿里,先后支持过中国雅虎、口碑、支付宝的业 务研发,目前负责蚂蚁进入人工智能团队的主要中台产品研发,包括搜索平 台、金融视觉平台、标注平台以及赋能外部金融公司的推荐平台等。
- 5.目录 1. 2. 3. 4. 5. 6. 金融智能的应用场景 数据底座的背景分析 高效:用AI解决AI的问题 高质:流程与工具并用 安全:金融的底线 总结
- 6.AI在蚂蚁的应用场景 智能风控 基于深度学习的风险识别与防控 智能理财 02 个性化智能营销决策 提升业务运营效率 — — 金融大脑 — — — 基于数据隐私加密共享 学习的联合放贷 05 智能营销 — 06 基于金融大数据提供智能 理财策略分析和决策建议 智能信贷 01 03 智能保险 智能保险定价、定损、理 赔,线上自动化流程管理 04 智能客服与助理 一站式金融场景机器人 智能业务决策和执行助理
- 7.蚂蚁AI能力大图 …… 行业 & 场景 智能风控 智能营销 智能保险 机器人平台 智能客服助理 智能信贷 金融信息服务 …… 生物识别 金融视觉平台 金融知识图谱&NLP 金融算法 金融大脑 智能理财 (AutoML ,图推理,隐私保护共享学习,运筹优化,无监督学习,在线学习,强化学习,模型可解释) 计算 数据
- 8.蚂蚁保险-让更多人享受有保障的生活 多收多保 相互宝 • 2500万 小商户 • 半年超过 5000万 用户 • 日均 1万笔 理赔 • 1000万 老年用户
- 9.理赔宝背后的智能 用户上传 理赔信息 • • • • 图像识别 实体抽取 实体匹配 感知 NLP&知识图谱 图像分类:区别病历、发票、证明等 OCR:支持文字、图章识别 反欺诈:识别PS图片等 数十个图像模型多链路融合决策 • 健康知识图谱:医院、疾病、科室、手 术、保险产品等实体关联 • 亿级节点和边在线实时融合推理 金融视觉平台 Computer vision 金融知识图谱平台 Financial knowledge graph u 对比传统流程核赔效率提升5倍以上 系统智能核赔 决策算法策略 Algorithmic decision
- 10.目录 1. 2. 3. 4. 5. 6. 金融智能的应用场景 数据底座的背景分析 高效:用AI解决AI的问题 高质:流程与工具并用 安全:金融的底线 总结
- 11.智能中台的简略框架 数据研发 算法研发 模 型 研 发 平 台 底 层 技 术 数据清洗 数据标注 智能标注平台 模型训练 金融视觉平台 计算 ASDI、ODPS、Kepler 模型部署 模型服务 知识图谱&NLP平台 数据底座(存储、标注、分析等) 存储 ODPS、OSS、Hbase、 RDS、CEPH 工程研发 … 工程底座(训练、评测、发布等) OLAP Explorer、ES 调度 ASWF、DataOS 训练&算法 ALPS 搜索 Ha3、ES
- 12.为什么数据底座很重要 • 数据处理贯穿模型迭代的始终 • 数据和特征决定了机器学习的上限 • 数据安全是金融行业生命线 来源:Stanford机器学习公开课,36氪研究院
- 13.金融智能的数据底座挑战 效率 • 存储分散,多次拷贝 • 滥用批处理 • 标注效率低 质量 • 标注质量 • 数据快速refine 安全 • 标注安全 • 训练安全
- 14.目录 1. 金融智能的应用场景 2. 数据底座的背景分析 3. 高效:用AI解决AI的问题 数据流转 智能标注 4. 高质:流程与工具并用 5. 安全:金融的底线 6. 总结
- 15.数据流转:打通数据闭环,提升流转效率 清洗过滤 数据采集 统一存储 模型预标 标注 数据预处理 模型发布 业务场景 数据选择 训练/评估 验收 数据标注 数据切分 模型 规则校验 模型训练 统一格式 检查 业务数据 映射 数据转换 统一分析 统一编码 业务校验
- 16.数据流转:基于one ID的数据复用 原始数据 标注数据 样本数据 Mark result1 模型数据 snapshot1op1:uuid1'>op1:uuid1