《蚂蚁金服在大数据合作上的创新实践》 周卫林

2020-03-01 468浏览

  • 1.蚂蚁金服在大数据合作上的 创新实践 周卫林(敬智) 蚂蚁金服 资深专家
  • 2.蚂蚁金服在大数据合作上的创新实践 大纲 周卫林 大数据合作是其作为生产资料的必然诉求 大数据合作面临的主要挑战 蚂蚁金服在大数据合作上的实践和应用
  • 3.蚂蚁金服在大数据合作上的创新实践 大纲 周卫林 大数据合作是其作为生产资料的必然诉求 大数据合作面临的主要挑战 蚂蚁金服在大数据合作上的实践和应用
  • 4.大数据的二个天然属性(1/2) 大数据的边际成本趋于零,DT时代最好的生产资料 数据使用成本 0 1 2 N 数据使用次数
  • 5.大数据的二个天然属性(2/2) 大数据存在非常强的网络效应:1+1>2
  • 6.大数据商业价值变现,需要多种数据处理能力 数据价值公式 新数据 新技术 新算法 § 创造业务(客户)价值
  • 7.总结:大数据合作是其作为生产资料的必然诉求 产品 数据 成本 商业 数据 0 1 2 边际成本趋于0 使用 N 次数 § 数据业务 网络效应强,1+1>2 数据价值变现需要多种能力
  • 8.蚂蚁金服在大数据合作上的创新实践 大纲 周卫林 大数据合作是其作为生产资料的必然诉求 大数据合作面临的主要挑战 蚂蚁金服在大数据合作上的实践和应用
  • 9.大数据合作面临的主要挑战(1/4) 如何保护企业的数据产权? • • • 万物有价,是因为其稀缺性 数据是bit,可以低成本无限复制 数据是企业重要资产,不容流失和窃取
  • 10.大数据合作面临的主要挑战(2/4) 如何保护用户隐私和企业隐私? • • 用户隐私保护,即不能直接定位到具体个人 要考虑基于多数据源、基于统计的攻击 • 企业隐私保护,即不能暴露企业或合作 伙伴的关键商业数据,比如经营收入、 经营利润、市场占用率等
  • 11.大数据合作面临的主要挑战(3/4) 如何有效融合匹配多方数据? • 多方数据,如何桥接?如何尽可能地提高匹配率?
  • 12.大数据合作面临的主要挑战(4/4) 如何为数据定价? • • • 不同的数据源,定价机制是不一样的,比如政府数据、公域数据、 私域数据 同一份数据,不同的应用场景,数据价值也是不一样的 数据有价值,但形成价格缺乏有效机制
  • 13.总结:大数据合作面临的4个主要挑战 企业数据产权保护 数据产权(拥有权)不变更是私域数据大数 据合作的前提 用户隐私&企业隐私保护 用户授权是数据合规使用的基本要求 用户隐私和企业隐私泄露是重大安全事故, 零容忍 多方数据有效融合匹配 能够高匹配率地桥接多方数据是大数据合作 的基础条件 数据定价机制 数据价值因来源、应用场景而不同,价值难 定价
  • 14.蚂蚁金服在大数据合作上的创新实践 大纲 周卫林 大数据合作是其作为生产资料的必然诉求 大数据合作面临的主要挑战 蚂蚁金服在大数据合作上的实践和应用
  • 15.蚂蚁金服数据开放的3.0阶段:云数据实验室 3.0 1.0 官方独立数据APP 2.0 商家服务平台 云数据实验室 终于可以自己玩数据了
  • 16.基于云数据实验室的大数据合作案例:差异化车险 人口特征 社会属性 人生阶段 网上购物 生活缴费 地理位置 + 从车因子 从人因子 有车预测 模型 潜在客户群识别 (6000W车主) • • 保险机构 车险数据 风险评分 模型 用户出险风险预测, 提前针对优质客群进行营销 首家合作公司:永安保险,2015年1月21日开始上线微车险 入口:淘宝保险PC端、支付宝钱包-永安保险服务窗 精算定价 模型 提升保险公司 的风险定价能力
  • 17.回顾:大数据合作面临的4个主要挑战 企业数据产权保护 数据产权(拥有权)不变更是私域数据大数 据合作的前提 用户隐私&企业隐私保护 用户授权是数据合规使用的基本要求 用户隐私和企业隐私泄露是重大安全事故, 零容忍 多方数据有效融合匹配 能够高匹配率地桥接多方数据是大数据合作 的基础条件 数据定价机制 数据价值因来源、应用场景而不同,价值难 定价
  • 18.第一代酒店式数据产权保护模式 实验室终端(公司内网) 杭州分部(实验室1,实验室2,…) 人肉出差 北京分部(实验室1,实验室2,…) 无法规模化 上海分部(实验室1,实验室2,…) 实验容器(虚拟机) 支持的数据量小 各类实验数据工具(R/Excel/SAS) 应用渠道缺失 数据存储(csv/txt/mysql/sas服务器) 数据计算(ODPS)
  • 19.新一代酒店式数据产权保护模式 ISV 合作 伙伴 …… 数据应用渠道 实验室终端(公网) 浏览器 KA 商户 蚂蚁开放平台 跳板机 阿里妈妈,… 数据工作台(实验室版本) 数据分析与可视化(BI工具) 数据集成开发(ETL工具) 数据可用不可见 模型在线部署和服务决策 机器学习(算法工具) 实验容器(项目) 账号 资源 权限 ODPS RDS ADS
  • 20.公允性:法律约束和第三方审计 1. 数据合作需签订相应的法律协议,约束双方,确保数据安全和数据产权; 主要协议 数据合作商务协议 线下签署,明确合作目的,数据的产权、知识产权等 数据合作保密协议 线下签署,双方各自对数据安全等的要求 云数据实验室入驻协议 用户使用云数据实验室的使用约束,保密约束等 授权使用协议 相关数据等涉及到开放第三方,需要签署 2. 云数据实验室搭建在金融云上,与蚂蚁内部业务平台物理隔离,法人及协议主体独立 于支付宝之外; 3. 平台受第三方(政府层面)审计,符合金融认证准则;合作伙伴也可进行实验的所有 日志操作审计。
  • 21.依据业务需要对上传数据脱敏,保护用户隐私 铜墙 铁壁 云数据实验室托管区 (去标识 & 采样 ) 数 据 脱 敏 安 全 评 审 去身份标识 生成唯一ID 身份标识 (email,手机…) 去精度 (模糊到小时 、天、月) 时间&日期 短文本部分 掩藏或数值化 文本 (姓名,住址…) 正负 浮动5%-10% 数值 (金额、笔数…) 企业数据仓库 映射转换 标签 (白富美…) 加密转 换重新 标识 唯一ID
  • 22.系统多层次解决数据加工过程用户隐私暴露问题 数据脱敏防护 SQL查询合规检测 提交SQL语句 扫描SQL语句 执行SQL语句 处理查询结果 返回结果 血缘追溯 用户认证 转换策略 防下载 规则判断 数据鉴权 脱敏执行 少量展示 模型识别 记录追踪 实验室记录详细执行日志,形成完善的监控、审计体系,保障数据安全和用户隐私
  • 23.数据安全/数据脱敏技术领域的分类 A 规则 B 数据查询结果返回时, 基于规则对查询结果动 态脱敏 数据上传时,基于规则 对数据物理脱敏 动态 静态 数据上传/存储时,基于 算法做数据匿名和混 淆,比如差分隐私、同 态加密CryptDB等 C 数据计算时,在内存和 CPU里才将数据明文化 (可信计算) 算法 D
  • 24.依托蚂蚁数亿实名用户数据,实现ID-Mapping技术 1. 选择匹配模式、关联表、关联键 刷新页面,可看到状态变化 2. 融合生成的表以客户定义的名称显示在实验区中 3. 融合报告,可查看客户数据与蚂蚁数据的匹配度
  • 25.案例说明蚂蚁如何解决数据开放时的定价问题 店铺页 服务窗 逛 会员 成功页 营销&投放系统 口碑商家服务市场 智能 贴心 支付 ISV APP.. 口碑商家后台 商户 营销/分析.. 蚂蚁开放平台 数 据 回 流 融合 蚂蚁数巢 (数据实验室) 加工 服务 数据 托管区 蚂蚁数据中心 数据集 放 开 …开放数据集 餐饮 分析 数据 实验区 数据安全管理 (Tokamak场) 数据 生产区 建模 数 据 回 流 口碑云 知而行 雅座 其他O2O服务商 云纵
  • 26.大数据×,一个新的世界正在打开 数据使用方 保险产品 Data Consumer (比如蚂蚁乐驾合作产出差异化车险) 数据处理能力 数据加工方 Service Provider 数据实验室 数 据 理财产品 (比如淘金100指数基金) 共 创 的 产 出 信用产品 物 (比如芝麻与趣分期合作大学习生授信) 数据提供方 Data Provider 商家服务产品 (比如开放口碑行业数据集给雅座)
  • 27.