交易风控数据的海量存储与多种离线计算处理

2020-03-01 391浏览

  • 1.Clouder Lab云存储专场 小微金融业务跨平台数据共享与处理 Clouder Lab云存储专场 WIFI:Aliyun-SH-2018 Password:aliyun@sh1 操作文档:https://yq.aliyun.com/articles/599166
  • 2.第三方支付业务的风控场景 Serverless 计算引擎互通 异构数据处理 FunctionCompute LOG+OSS FunctionCompute 风控存储与访问 FunctionCompute+TableStore
  • 3.合作单位 大数据处理 对象存储 金融机构 对象存储 函数计算 网络渠道 日志采集分析 风控查询 风控业务查询 数据湖存储 表格存储
  • 4.Clouder Lab云存储专场 交易风控数据的海量存储与多种离线计算处理 吴华剑 阿里云存储服务产品专家
  • 5.基于OSS的交易风控数据存储与处理 交易记录 日志记录 推荐原因 • 文件数目、容量无限制 • 阿里云日志服务无缝集成 • 计算存储分离,架构灵活 • EB级的存储服务 • 标准/低频/归档多种类型 • Hadoop原生支持OSS • 11个9的可靠性设计 • 生命周期管理自动转换 • TCO成本更低 • 同城3AZ容灾 • 数据规模无缝扩展 • 阿里云计算产品深度融合 • 跨区域复制、异地容灾 • 稳定,高可用 • 弹性扩展,按量付费 • 容量、性能横向扩展 • 同城、异地容灾能力 • 容灾能力、强安全、高可靠 • Select支持查询条件下推 • 11个9的可靠性设计 • Select条件下推提升性能
  • 6.对象存储OSS 阿里云分布式对象存储服务 易用 简单易用,REST API 无缝与计算服务集成 海量 单个文件最大48.8TB 文件数量无限制 容量和处理能力弹性扩展 低成本 总体TCO更低 多种存储类型,优化存储 生命周期成本 高可靠 多重冗余备份 11个9的可靠性设计 强安全 RAM、加密等多层次安全防护 跨区域复制、异地容灾机制
  • 7.OSS无缝对接多种计算处理引擎 在线服务 LogHub 数据通道 移动设备 数据源 海半 量结 非构 结化 构数 化据 OSS 标准型 Hadoop官 方 支持OSS OSS 归档型 对象存储OSS DataLake Analytics SparkSQL Presto Impala 函数计算 EMR Max Compute M-R Hive Pig
  • 8.课程示例
  • 9.数据处理链路 交互式查询分析 用户 DataLakeAnalytic s 大数据分析引擎 金融机构 文件上传 交易文件 Spark SQL 文件上传 标准型 日志记录 企业伙伴 生命周期管理 管理员 归档型 数据存储池——交换、处理、归档中心存储池 事 件 触 发 日志服务 MaxCompute 对象存储OSS Spark 用户交易详情 监管查询 表格存储 实时转换 明细数据库 函数计算 风控数据库 计算引擎 风控引擎
  • 10.交易明细表:trade_final 开户信息: userinfo *c_userid STRING COMMENT ‘用户ID’,主键 u_userid STRING COMMENT '用户ID', *d_dealdate STRING COMMENT '申请时间',主键 u_accountdate STRING COMMENT '开户时间', c_businflag STRING COMMENT '业务代码', u_gender STRING COMMENT '性别', d_cdate STRING COMMENT '确认日期', u_age INT COMMENT '年龄', d_date STRING COMMENT '申请日期', u_risk_tolerance INT COMMENT '风险承受能力,1-10,10为最高级', l_serialno STRING COMMENT '申请序号', u_city STRING COMMENT'所在城市', c_agencyno STRING COMMENT '销售商编号', u_job STRING COMMENT'工作类别, A-K', c_netno STRING COMMENT '网点编号', u_income DOUBLE COMMENT'年收入(万)' c_fundacco STRING COMMENT '基金账号', c_tradeacco STRING COMMENT '交易账号', c_fundcode STRING COMMENT '基金代码', c_sharetype STRING COMMENT '份额类别', f_confirmbalance DOUBLE COMMENT '确认金额', f_tradefare DOUBLE COMMENT '交易费', f_backfare DOUBLE COMMENT '后收手续费', f_otherfare1 DOUBLE COMMENT '其他费用1', c_remark STRING COMMENT '备注'
  • 11.MaxCompute处理OSS数据 1.创建OSS外部表(https://workbench.data.aliyun.com/consolenew#/) SQL查询 2.SQL查询
  • 12.实验:DataLakeAnalytics on OSS 交互式查询分析 课程地址 金融机构 文件上传 交易文件 文件上传 企业伙伴 日志服务https://yq.aliyun.com/articles/598757交易查询 日志记录 对象存储OSS 标准型 生命周期管理 归档型 数据存储池——数据交换、处理、归档 DataLakeAnalytics 异步查询结果导入OSS 用户交易详情 监管查询 监管查询
  • 13.Clouder Lab云存储专场 日志数据采集与分析对接 阿里云日志服务专家 赖锡盛
  • 14.日志服务介绍 日志数据接入分析与数仓对接 功能体验
  • 15.日志数据需求 1 * 异构日志内容 * 存储方式多样 * 分布各种设备环境 2 * 统一存储读取 * 实时查询分析 * 分析结果可视化 3 * 对接其它存储 * 对接计算引擎 * 支持开源生态
  • 16.日志服务 Log Search/Analytics:查询与实时分析 LogHub:数据实时采集 - 数据清洗 - 监控与报警 - DevOps/线上运维 - 日志实时数据分析 - 机器学习与迭代计算 - 安全诊断与分析 - 运营与客服系统 能力 日志服务 视图 - 数据仓库 + 数据分析 - 审计 - 推荐系统 LogShipper:数据仓库投递 数据 生态 转储: OSS/TableStore/Histore /Hbase/RDS/PG/ETL 离线分析: EMR/Hadoop/Presto/Hive /Spark/MaxCompute • Hub:实时数据采集与消费 • Shipper:数据仓库投递对接 • Search/Analytics:实时日志查询分析 - Storm/SparkBlink/Flink - Function Compute - 自定义处理 Java/Python/C++ LogHub:对接流计算 与 自定义处理 流计算: Storm/Spark/Flink/Blink ARMS/CloudMonitor/FC … 可视化: Tableau/JDBC/Grafana DataV/Zipkin
  • 17.日志采集方式 通过IOT、智能设备、ECS、容器、移动端以及各类云产品等接入实时数据(例如Trace、Metric、 TextLog、Click、OSS访问日志、SLB访问日志等)进行查询分析与可视化,并支持对接数据仓库 Logtail Open Source C Producer Android/IOS Ali Cloud User Code 各语言SDK Log4J/LogBack SLB/OSS/RDS 等云产品日志 安恒、Splunk、ELK等 Third party
  • 18.查询分析与可视化 实时、大规模查询索引服务,支持PB/天索引处理能力,秒级实时查询,并能支持无限存储时长,同时提供数值、区间、 文本、模糊、上下文和SQL语法统计功能。除此之外,提供各类地图、三维图、动态图等结果可视化方式。 1.访问日志=》2.应用日志=》3.上下文 1 2 3
  • 19.数仓对接 稳定、高吞吐托管化服务,将日志中枢(LogHub)中数据投递至各类存储服务,支持压缩、自定义 Partition、以及行列等各种存储方式 计算流 数据流 开源计算工具 OSS MaxCompute DataLakeAnalytics E-MapReduce HybridDB
  • 20.演示架构 大数据处理 对象存储 访问日志 数据湖存储 Logtail 日志服务 查询分析 仪表盘可视化
  • 21.THANKS
  • 22.Clouder Lab云存储专场 金融异构报文处理和分发 傅海雯 函数计算产品专家
  • 23.1 金融异构数据特点 2 函数计算解决方案 3 示例代码讲解
  • 24.金融业务异构数据和风控流向图 交易报文 大数据处理 金融机构 对象存储 证券交易 对象存储 数据湖存储 函数计算 交易报文 企业报表 风控信息查询 函数计算 表格存储 表格存储
  • 25.金融行业异构数据特点 金融行业异构数据特点 1、来源机构较多,报文格式不一 传输有明显波 文件格式多样 峰 2、无法预计传输文件大小 3、传输文件峰值和低谷明显 4、系统架构链路较长,从传输、存储、 计算、分析 数据链路长 文件大小不一 报文数据 特点
  • 26.函数计算处理异构报文解决方案 文件上传 金融机构 数据 存储 事件 触发 对象存储 对象存储 函数计算 表格存储 数据存储 报文上传/数据查询 对象存储触发 函数计算处理 数据查询 • 对象存储的PUT/POST 接口上传报文数据到对 象存储 • 设置触发器的条件 • CSV文本格式处理函数 • 数据存储到表格和对象 存储 • 数据汇总和存储 • 调用大数据分析返回结 果并透传给函数计算
  • 27.函数计算查询风控信息方案 风控查询 企业单位 请求数据 HTTP触发器 风控查询系统 函数计算 表格存储 数据查询 HTTP触发器配置 函数计算处理 数据查询 • 企业单位访问风控系统 • 风控系统通过HTTP请 求 • 设置HTTP触发器 • 请求表格存储,获取风 控信息 • 返回查询结果
  • 28.动手实验步骤 第一步:开通服务 第二步:设置服务 第三步:编写代码 演示效果 开通函数计算 设置函数计算 异构数据处理 演示上传代码 开通表格存储 设置表格存储 风控信息查询 演示查询风控 信息查询 开通对象存储 设置对象存储
  • 29.函数计算产品特点 无服务器架构 事件触发 超弹性 粘合剂 百毫秒计费 (Serverless架构) (事件源丰富) (毫秒环境扩容) (打通多款产品) (节省30%费用) 一句话概括:函数计算是提供了一个无服务器的执行环境,用户只需要上传代码就可以运行代码,过程中 用户不需要关心执行环境。
  • 30.函数计算近期功能发布 Ø提供VPC功能:通过函数计算可以访问用户自定义的VPC环境,能安全高效的访问RDS、 ECS应用等 Ø推出代码多版本功能:能让开发者设置多种版本,解决发布和预发布以及灰度上线问题 Ø推出HTTP触发器:能让用户通过HTTP请求轻松调用函数执行 Ø推出环境变量功能:方便开发者存储公共敏感信息 Ø推出CDN触发器:能让用户可以定制CDN数据刷新、CDN访问日志下载、CDN数据预热 等消息
  • 31.动手实验材料 Ø动手实验云栖社区材料:https://yq.aliyun.com/articles/596603Ø函数计算官网:https://www.aliyun.com/product/fcØ函数计算云栖微博:https://yq.aliyun.com/teams/69/type_blog函数计算官网客户群,钉钉扫一扫加群
  • 32.Clouder Lab云存储专场 交易风控数据的海量存储于实时访问 李海龙 阿里云存储服务产品专家
  • 33.需求与挑战 表格存储介绍 课程实例
  • 34.需求与挑战 1 2 数据规模 全民参与,日交易记录达到传统关系 型数据库的单表上限 主库压力&&运维代价均需降低 访问并发 促销、新产品发售等活动会让数据库 访问并发暴增 弹性资源,自动伸缩,避免资源浪费 3 4 性能稳定 无论是PB级数据规模,亦或百万级访 问并发,读写请求延时稳定可预期 风控查询需要小于10ms 可用可靠 数据高可靠,数据高可用 部分故障不能导致业务中断,不丢失 数据
  • 35.表格存储 阿里云自研分布式NoSQL数据库服务 规模无缝扩展 • 表大小无限制 • 自动sharding • 分裂合并秒级完成 高性能 • 单行写入毫秒级延迟 • 单机可支撑5万以上TPS 高性价比 • 预留+按量,费用低 • 多种实例规格 数据模型灵活 完全托管服务 • 单行列数和大小无限制 • 零系统运维 • 多版本 • 监控集成 • 数据过期 • 完全支持RAM安全体系
  • 36.场景优势 交易记录 风控数据 推荐运营 • 单表10PB数据 • 毫秒级读延时 • Schema Free结构 • 万亿记录 • 百万级并发读写能力 • 毫秒级读延时 • 稳定的读写性能 • 数据生命周期管理 • 数据规模无缝扩展 • 交易高峰访问并发大 • 数据规模无缝扩展 • 热点秒级迁移 • 数据多版本 • 稳定,高可用 • 弹性资源,按量付费 • 双集群、双活灾备方案 • 大数据引擎直读直写 • 大数据引擎直读直写
  • 37.表格存储的离线计算 表C 在线服务 数据通道 LogHub 移动设备 表A 表B 表格存储 表D 数据源 Max Compute DataLake Analytics SparkSQL Hive 直读直写
  • 38.表格存储的实时计算 实时数据 聚合计算 表C 在线服务 数据通道 storm LogHub 移动设备 表A spark 流计算 异常报警 实时聚合 用户画像 可视化展示 EMR 全文检索 表B 表格存储 舆情分析 全文索引 实时构建 开放搜索 表D 数据源 数据备份 跨区域复制 增量数据 实时获取 函数计算 自定义应用 自定义分析 多维查询
  • 39.课程示例
  • 40.数据处理链路 用户 金融机构 文件上传 文件存储 交易文件 文件上传 实时转换 事件触发 明细数据库 OSS 函数计算 数据交换中心 Serverless计算引擎 企业伙伴 用户交易详情 风控数据库 表格存储 大数据分析引擎 MaxCompute DataLakeAnalytics 管理员 风控引擎
  • 41.交易明细表:trade_final 风控数据: user_risk *c_userid STRING COMMENT ‘用户ID’,主键 *c_userid STRING COMMENT ‘用户ID’,表格存储主键 *d_dealdate STRING COMMENT '申请时间',主键 d_dealdate STRING COMMENT '最近交易时间' c_businflag STRING COMMENT '业务代码', c_fundacco STRING COMMENT '基金账号' d_cdate STRING COMMENT '确认日期', sharetype_num INTEGER COMMENT '购买基金种类数' d_date STRING COMMENT '申请日期', confirmbalance DOUBLE COMMENT '购买金额总数' l_serialno STRING COMMENT '申请序号', trade_num INTEGER COMMENT '历史交易次数’ c_agencyno STRING COMMENT '销售商编号', 示例数据: c_netno STRING COMMENT '网点编号', 00501686 2018-05-24 21:50:33 00501686-0000 5 850893.0 11 c_fundacco STRING COMMENT '基金账号', c_tradeacco STRING COMMENT '交易账号', c_fundcode STRING COMMENT '基金代码', c_sharetype STRING COMMENT '份额类别', f_confirmbalance DOUBLE COMMENT '确认金额', f_tradefare DOUBLE COMMENT '交易费', f_backfare DOUBLE COMMENT '后收手续费', f_otherfare1 DOUBLE COMMENT '其他费用1', c_remark STRING COMMENT '备注’ 示例数据: 00502090 2018-06-04 21:59:41 保本基金F 2018-06-04 2018-06-04 2018-06-04-009990 SXS_0080 STORE-0851 00502090-0000 00502090-0000 保本基金F1 保本基金F 323122.0 100.0 30.0 10.0 Null
  • 42.做好用的分布式NoSQL数据库服务 THANKS
  • 43.扫码参与本场培训测试 *通过考试(60分)可凭分数联系现场工作人员领取本场Lab结业证书
  • 44.Clouder Lab云存储专场