[神策数据]从日志统计到大数据分析-曹犟
2020-02-27 593浏览
- 1.从日志统计到大数据分析 曹犟 @ 神策数据
- 2.• 2008:日志统计平台 • 2011:用户数据仓库 • 2013:数据源管理
- 3.• 需求响应周期长 • 运维成本高 • 运行速度慢 • 员工个人成长受限
- 4.基于 Hadoop 的日志统计平台
- 5.
- 6.
- 7.
- 8.n days n mins n hours n mins 开发周期: 运行时间: 天级 到 分钟级 小时级 到 分钟级 经过1年半的时间, 整个公司的统计任务 都统一到了平台
- 9.• 计算资源需求急剧膨胀 • 数据质量没有保证 • 数据价值没有充分利用
- 10.统一的用户数据仓库
- 11.Insight DataMart User Data Warehouse 网页搜索 凤巢 网盟 知道 百科 结构化数据 网页搜索 凤巢 网盟 知道 百科 文本日志
- 12.全公司所有业务线的用户行为数据统一到一张表,通过用户 ID 可以访问到用户在全百度上的所有行为 用户ID 事件类型 时间 国家 省份 URL ID01 注册 … … … … ID02 登陆 … … … … ID03 搜索 … … … …
- 13.
- 14.数据源混乱 入库周期长 数据时效性低
- 15.直接从数据源头治理
- 16.非结构日志源 • 格式变更影响下游 • 数据解析效率低 • 数据内容不可理解
- 17.结构化日志源(Google Protocol Buffer): • 格式变更向前向后兼容 • 数据解析效率高 • 数据带有Schema • 节省存储和带宽
- 18.日志源的结构化、 元数据审核管理 传输实时化 查询引擎直接可分 析源结构化数据
- 19.• 数据源统一管理,覆盖数万台服务器 • 数据源头产生,既可实时 SQL 分析
- 20.• 数据源很重要 • Event 模型很有效
- 21.• 数据采集手段在增强 • 大数据计算能力的软硬件环境在成熟 • 竞争加剧,整个行业的数据意识在提升
- 22.• 人力成本 • 时间成本
- 23.• 数据采集能力不足 • 分析能力比较基础 • 数据资产顾虑
- 24.神策分析
- 25.可以私有化部署的 用户行为分析产品
- 26.
- 27.
- 28.私有化部署 全端数据接入 PaaS 平台
- 29.全端数据接入
- 30.代码埋点 可视化埋点 导入辅助工具
- 31.PaaS 平台
- 32.BI 查询层 数据存储层 数据传输层 数据接入层
- 33.BI 查询层 数据存储层 数据传输层 数据接入层
- 34.架构实现
- 35.• 适应私有化部署 • 数据与处理能力完全开放 • 模型精简,减少 ETL 开销 • 支持每天十亿级别数据 • 秒级导入,秒级查询
- 36.数据流向
- 37.利用神策的查询开放接口,可以非常容易的: • 与客户已有的系统进行无缝对接 • 利用 SQL 引擎扩展已有的分析功能 • 为合作方提供强大的在线分析能力
- 38.在线分析 搜索优化 个性化推荐 用户画像 精准广告 100% 反作弊 文本挖掘
- 39.金融 电商 视频 么么直播 企业服务 在线教育
- 40.在线医疗 新媒体 健身 游戏 互联网+ 其他
- 41.神策分析,帮你实现数据驱动!
- 42.