AI在金融科技领域的实践
2020-02-27 296浏览
- 1.AI在金融科技领域的实践 高强 金融副总裁 Beijing,03/25/2017 氪信 CreditX
- 2.Agenda AI+金融 AI 驱动的金融风控解决方案 大数据管理挑战 -> 知识图谱解决数据治理难题 特征提取挑战 -> 深度学习挖掘弱数据的金融价值 数据建模挑战 -> 集成学习框架有效整合各类风险因子 -> 敏捷易集成的风控引擎系统 风控解决方案落地 消费金融案例 2
- 3.人工智能的发展 基础奠定时期 停滞不前时期 重拾希望复兴时期 现代AI成型时期 1950s-1960s 1960s-1970s 1970s-1980s 1990s-2000s 互联网 图像处理 搜索 广告 语音识别 无人驾驶 蓬勃发展时期 2000s-Now 机器人 2012-Now 推荐 电商 3
- 4.AI应用三要素 人工智能的主要应用领域 人工智能应用的三要素 智能投顾、智能客服 大数据风控、智能营销 智能导购和客户、仓储物流 智能监控、 电商 安保机器人 金融 安防 人工 智能 智能汽车、快递、 自驾 工业机器人 PDA 医疗 语音助理、家庭管家 陪护机器人 智能医疗健康的监测诊断 处理数 据能力 需求驱 动技术 商业 变现 场景 数 据 教育 智能评测、个性化辅导、儿童陪护 4
- 5.金融AI的时代已经到来? 巨大的需求 数据爆炸式增长 低 易 征信 2020年: 10ZB->44ZB (44万亿GB) 消费 运营商 社交 行为 其他 高 2015年中国消费信贷规模达到19.0万亿,同比增长 市场现状 23.3%。预计,未来仍将维持20%以上的增长趋势, 2019年将达到41.1万亿 难 处理数据的能力 [VALUE] … 征信体系 覆盖率 [VALUE] [VALUE] 2.5 2013/11 Titan 2014/09 Titan Black 2015/12 Titan X 美国 16-core CPU 中国 0% 20% 40% 覆盖 缺少信用 数据群体 深度学习等量数据的时间 60% 80% 100% 商业变现的场景 未覆盖 现金贷 5亿+ 个人 5000万+ 小微企业 POS贷 消费分期 小微金融 物流金融 5
- 6.大数据时代金融风控之痛 风控 技术 层面 高维 困境 数据通常来自多个系统,异 质异构,形式多样化; 特征工程往往会产生上千维 变量,如何将其有效融合, 形成1+1>2? 机构 战略 层面 风控 业务 层面 价值 困境 意识到大数据的价值,但不 知如何实践; 尤其是面对海量非结构化、 稀疏的弱金融数据,怎样才 能充分挖掘数据价值? 敏捷 困境 新金融7x24小时随时在线的 服务模式和客户对准实时体 验的要求,以及欺诈等风险 模式在博弈中快速演化; 如何动态调整模型策略应对 此类风险? 风控决策低效耗时,人工成本高,坏账率却无法有效降低,大大限制在激烈竞 争格局中的业务发展规模,也无助于取得业绩的持续增长与核心竞争力的强化 数据 难以 整合 风险 难以 捕捉 模型 迭代 困难 6
- 7.AI 驱动的全流程金融风控解决方案 离线 训练 集成 模型 线上 执行 监控 反馈 深度 学习 模型 管理 领域 适配 RNN (LSTM) CNN 特征引擎 知识 图谱 数据适配器 数据治理平台 > 统一数据管理平台 > 金融知识图谱 > > > > > 模型 可解释 自迭代 性能监控与迭代 模型引擎 > 可视化建模平台 > 模型在线监控 > 自迭代 > 机器学习引擎 > 规则引擎 > 模型生命周期管理 > 版本控制 基于深度学习的特征生成框架 基于网络的特征提取框架 人工领域特征适配器 特征的在线实时计算 特征工程管理 > 模块化数据适配 7
- 8.知识图谱:重新定义金融数据架构体系 金融风控的关键 知 识 图 谱 基于纷繁复杂的各种数据, 通过数据金融化和数据价 值挖掘,合理建模从而进 行风险程度评估 面临的挑战 数据的种类多样性、复杂 性、异质异构等特性带来 数据整合、数据管理、数 据使用等方面的挑战 • 知识图谱本质上是语义网络,是一种基于图的数据结构,由节点和边组 成。 • 在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实 体与实体之间的“关系”。知识图谱是关系的最有效的表示方式 • 知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网 络,从而提供了从“关系”的角度去分析问题的能力 8
- 9.基于知识图谱的风险管理数据平台构建 规则模型 模型应用 金融画像 全 流 程 工 作 流 全局数据治理 调 度 与 监 数据处理与集成 控 异构数据源 … 身份属性 深度学习模型 集成模型 网络反欺诈 信贷历史 行为特质 消费偏好 网络特征抽取 暴力特征 深度学习特征提取 履约能力 领域知识工程 社交影响 … 消费金融风险管理 知识图谱(Data Schema) RDF DB Graph DB 历史 数据 实时 数据 第三方 数据 9
- 10.深度学习特征提取框架:超越人工定义的深度和广度以量化金融风险 对于人工难以加工的金融非结构化数据,基于深度学习的特征生成框架自动生成特征,弥补人 工定义特征的局限性;深度学习的本质是特征学习的过程 自下向上逐层学习特征 Deep means many hidden layers 任务领域 原始输入 浅层特征 -> 中层特征 -> 高层特征 训练目标 语音 声强信号 频段- 声音 - 音调 - 音素 - 单词 语音识别 图像 像素 线条- 纹理 - 图像 - 局部 - 物体 图像识别 文本 字母 单词- 词组 - 短语 -句子 - 段落 - 文章 语义理解 10
- 11.DNN文本类数据特征提取框架用于风险预测 通过复杂的词向量模型将文本转化为词向量,结合卷积神经网络提取向量空间中的关系,特征 抽取过程完全黑盒,自动生成抽象脱敏的特征表征 文本数据预处理 文本特征提取框架 中文分词算法 One-Hot 向量 关键词提取算法 词嵌入层 预训练词嵌入模型 预训练 模型 词向量表征 CNN 特征提取 大规模语料库 Word 2vec GloVe Word Representation 分类器网络 预测类别 (违约vs非违约) So KING – MAN + WOMAN = QUEEN 11
- 12.DNN时序类数据特征提取框架用于风险预测 合并学习不同周期和时序模式的循环神经子网络,有效捕捉时序数据的特征隐含信息及不同时 序模式下的协同影响 时序数据 数据预处理 时序模式 LSTM子网 络 (1) 时序模式 LSTM子 网络 (2) 时序模式 LSTM子网 络 (n) DNN 提取 特征 分类器网络 预测类别 (违约vs非违约) 12
- 13.消费金融场景:融合机器和专家经验,实现全量数据价值提取 基于深度学习的特征生成框架,使用不同网络结构拟合不同的数据类型,自动从大量庞杂非结 构化的数据中生成高质量的深度学习特征,并且与专家人工特征结合融入违约概率预测模型 深度学习预测 违约概率 稀疏金融数据 专家特征 文本类数据 Layer Block Dense Layer 时序类数据 稀疏属性数据 业务领域知识 人工定义特征 深度学习 特征提取 框架 RNN(LSTM) Word Embedding CNN Domain Adaptation 生成式网络 Batch Normalization Dropout PreLU Activation 自 动 网 络 结 构 选 择 框 架 13
- 14.集成学习模型框架:最大化AI与金融业务的结合深度 集成学习模型 为什么要使用集成学习模型? • Fraud detection • Default classification • … Ensemble models Middle layer Consume Ability Loan History Rules GBDT Public credit Internet risk DNN DNN LR Universal data Internet behavior apply info Telecom data Credit report • 不同维度/领域的数据具有不同的特 点,需要使用不同的建模方法,集成 学习框架可以支持不同类型模型算法 作为子模型 • 单一模型预测能力有限,通过“集各家 之所长”的模型效果更好 • 可以高效的对稀疏、超高维、非线性 数据建模 • 具有更强的容错和抗扰动能力 • 单独领域的子模型可以快速迁移应用 到新业务领域,实现快速成型和持续 优化 ….. others …… 14
- 15.CreditX 智能风控落地方案 拒绝 用户申请 App/系统 评分低 拒绝 收集数据 通过 业务流 申请评分 反欺诈(个 人/团体风 险) 特征 引擎 图查询引擎 电调 API调用/传输数据 规则模型 机器学习模型 执行引擎 执行引擎 Offline Offline 规则模型 构建平台 机器学习模型 构建平台 特征执行 网络特征文件 数据调用/计算 底层数 据架构 放款 评分高 合规检查 Online 大数据 风控决 策系统 评分中等 深度学习特征文件 专家特征文件 数据调用/计算 数据调用/计算 GraphDB 15
- 16.集成学习模型在消费信用贷场景的应用案例 消费金融天然带有大量低饱和、稀疏、高维的数据,集成模型针对不同领域数据使用不同模型对 数据进行处理和建模,产生一组“个体学习器”,并将多个学习器进行组合,泛化能力显著提升 …… 结 构 化 数 据 非 结 构 化 数 据 黑名单 申请资料 设备信息 互联网行为 网络关联特征 提取框架 (PageRank/ Neighborhood feature) 身份属性 专家人工特征 提取框架 信贷历史 深度学习特征 提取框架 (LSTM) 行为特质 深度学习特征 提取框架 (word2vec/CNN) 行为风险 子模型 社交风险 子模型 消费偏好 运营商 第三方数据 履约能力 集成模型 违约概率 语义风险 子模型 社交影响 …… 16
- 17.集成学习模型在金融机构风控决策中的应用效果 大型消费金融场景 使用前 使用后 KS值 0.19 KS值 0.35 VS 风控维度 50+ 风控维度 2600+ 坏账率下降 46% 17
- 18.大数据+AI 重塑信用价值、助力普惠金融 守 信 激 励 信用 失 信 惩 戒 18
- 19.Thanks! GAO QIANG gq@creditx.com 19