[神策数据]从日志统计到大数据分析-曹犟

2020-02-27 593浏览

  • 1.从日志统计到大数据分析 曹犟 @  神策数据
  • 2.• 2008:日志统计平台 • 2011:用户数据仓库 • 2013:数据源管理
  • 3.• 需求响应周期长 • 运维成本高 • 运行速度慢 • 员工个人成长受限
  • 4.基于 Hadoop  的日志统计平台
  • 5.
  • 6.
  • 7.
  • 8.n   days n   mins n   hours n   mins 开发周期: 运行时间: 天级 到 分钟级 小时级 到 分钟级 经过1年半的时间, 整个公司的统计任务 都统一到了平台
  • 9.• 计算资源需求急剧膨胀 • 数据质量没有保证 • 数据价值没有充分利用
  • 10.统一的用户数据仓库
  • 11.Insight DataMart User  Data  Warehouse 网页搜索 凤巢 网盟 知道 百科 结构化数据 网页搜索 凤巢 网盟 知道 百科 文本日志
  • 12.全公司所有业务线的用户行为数据统一到一张表,通过用户 ID   可以访问到用户在全百度上的所有行为 用户ID 事件类型 时间 国家 省份 URL ID01 注册 … … … … ID02 登陆 … … … … ID03 搜索 … … … …
  • 13.
  • 14.数据源混乱 入库周期长 数据时效性低
  • 15.直接从数据源头治理
  • 16.非结构日志源 • 格式变更影响下游 • 数据解析效率低 • 数据内容不可理解
  • 17.结构化日志源(Google  Protocol  Buffer): • 格式变更向前向后兼容 • 数据解析效率高 • 数据带有Schema • 节省存储和带宽
  • 18.日志源的结构化、 元数据审核管理 传输实时化 查询引擎直接可分 析源结构化数据
  • 19.• 数据源统一管理,覆盖数万台服务器 • 数据源头产生,既可实时 SQL  分析
  • 20.• 数据源很重要 • Event  模型很有效
  • 21.• 数据采集手段在增强 • 大数据计算能力的软硬件环境在成熟 • 竞争加剧,整个行业的数据意识在提升
  • 22.• 人力成本 • 时间成本
  • 23.• 数据采集能力不足 • 分析能力比较基础 • 数据资产顾虑
  • 24.神策分析
  • 25.可以私有化部署的 用户行为分析产品
  • 26.
  • 27.
  • 28.私有化部署 全端数据接入 PaaS  平台
  • 29.全端数据接入
  • 30.代码埋点 可视化埋点 导入辅助工具
  • 31.PaaS  平台
  • 32.BI 查询层 数据存储层 数据传输层 数据接入层
  • 33.BI 查询层 数据存储层 数据传输层 数据接入层
  • 34.架构实现
  • 35.• 适应私有化部署 • 数据与处理能力完全开放 • 模型精简,减少 ETL 开销 • 支持每天十亿级别数据 • 秒级导入,秒级查询
  • 36.数据流向
  • 37.利用神策的查询开放接口,可以非常容易的: • 与客户已有的系统进行无缝对接 • 利用 SQL  引擎扩展已有的分析功能 • 为合作方提供强大的在线分析能力
  • 38.在线分析 搜索优化 个性化推荐 用户画像 精准广告 100% 反作弊 文本挖掘
  • 39.金融 电商 视频 么么直播 企业服务 在线教育
  • 40.在线医疗 新媒体 健身 游戏 互联网+ 其他
  • 41.神策分析,帮你实现数据驱动!
  • 42.