海量数据挖掘简介

2020-03-01 128浏览

  • 1.第一章 海量数据挖掘简介 金澈清 19/5/3
  • 2.大纲 2 一、课课 程课课 介 二、大数据溯源 三、大数据特性 四、技课课课 步 五、内容课课 划
  • 3.课程介绍 3 一. 二. 三. 四. 时间:每周一下午 5-6 节 地点:数学馆西 113 考试方式:卷面考试为主 海量数据挖掘 Mining of massive data sets 其他阅读文献 19/5/3
  • 4.预期收获 4 一. 师傅领进门 一. 二. 二. 问题驱动——了解具体问题的解决思路 方法驱动——了解各类方法的基本特点 修行靠个人 一. 遇到新问题时,举一反三,找到解决方案 19/5/3
  • 5.好消息:未来数据挖掘需求巨大 •5
  • 6.高层重视 6 2015 年 6 月 17 日,习近 平总书记在考察贵阳市大数 据广场时,说:“贵州发展 大数据确实有道理。” 2012 年,香山会议,李 国杰院士:大数据成为信 息科技新关注点,要构建 大数据的良性生态环境。 背景:贵阳大数据交易所成立于 2015 年 4 月,是全国首个大数据 交易所,面向全国提供数据交易 服务 背景:香山科学会课 是由国家 课 课课 课 科技部(原国家科委)发起, 在科技部和中国科学院的共同 支持下于 1993 年正式创办。 2010 年底,美国总统科 技顾问委员会 (PCAST) 报告建议“由于数据规模 呈指数增课 ,……各 邦 课课 机构都需要制定应对‘大 数据’的策略” 背景: PCAST 是由美国顶尖 科学家和工程师组成的咨询机 构,直接向课 课 提交咨 课 课课课 课课 告 。
  • 7.上海市政府 7 上海市科委:上海推 进大数据研究与发展 三年行动计划( 201 3-2015 年) 市委书记韩正在 2015 年 5 月调研上海新闻宣传系统新 媒体发展情况时,指出:“ 深刻认识大数据‘互联网 +’ 时代发展规律 把握住‘变’ 与‘不变’”。 由市经济和信息化委、市 交通委主办,中国工业设 计研究院承办的 SODA 比 赛,开放上千 GB 数据, 为城市交通系统的建设出 谋划策,“打开瓶盖,释 放数据的能量”
  • 8.•8  成立大数据学院 / 研究院  2012 年,美国哥伦比亚大学数据科学学 院  2013 年 9 月,华东师范大学数据科学与 工程研究院  2014 年 4 月,清华大学数据科学研究院  2015 年 6 月,中山大学数据科学与计算 机学院  2015 年 8 月,北京大数据研究院(中关 村管委会、海淀区政府、北大、北工大)  2015 年 10 月,复旦大学大数据学院 / 大 数据研究院  2016 年 9 月,华东师范大学数据学院
  • 9.二、大数据溯源 9 《自然》 ,2008 年 9 月刊 标题:大数据 下一个谷歌! 《自然》询问若干科研人员和商业 人士未来十年最重要的技术变 革。其回答涉及面很广,但共 通之处在于均认可需要整合物 理世界和信息世界 《科学》 ,2011 年 2 月刊 标题:如何处理数据 课 述 了在多个 课课课 域的大数据 课课课课 象,包括气象数据、神课 科学 课课 、社会科学、基因数据等,以 及所面课 的挑 课课课课 。
  • 10.当当网搜索结果 10 2017 年有 696 册 搜索“大数据”,可以在当当自营 书店找出 377 种! 涂子沛 维克托 · 迈尔 - 舍恩伯格 阿里巴巴集团副总裁 牛津大学教授
  • 11.四大科学范式 11  实验科学:一千多年前  描述自然现象 吉姆 · 格雷 图灵奖得主 火药制作  司南 理论验证:近几百年前  模型与泛化 万有引力定律 质能方程 微软研究院, 2007 年出版 课念 吉姆· 格雷
  • 12.四大科学范式 12  基于计算的研究:近几十年来  模拟复杂的现象 吉姆 · 格雷 图灵奖得主 天气预报  气体扩散模型 eScience :现今时代  基于数据探索的研究 社交媒体分析 智慧城市 微软研究院, 2007 年出版 纪念吉姆 · 格雷
  • 13.三、大数据特性 13
  • 14.3V 特性 14 47.5 亿条 1.8ZB (10^21) 2011 年全球被创建和被复 制的数据总量,远远超过人 类有史以来所有印刷材料的 数据总量( 200PB ) 12TB 推特每天产生推文 20TB 淘宝每天产生的交易数据 Facebook 每天发布的各种 内容,包括照片、课课课 、课课课 、 状态更新和赞等 Variety 多样 20% : 80% 大数据 Volume 海量 Velocity 高速 结构化数据:非结构化数据 25.6 万笔 / 每秒 双 11 支付宝支付峰值 4200 万次 / 秒 OceanBase 数据处理峰值 200 万 谷歌每秒处理搜索请求数
  • 15.大数据产生的必然性 15 1K = 103 1M = 106 1G = 109 1T = 1012 1P = 1015 1E = 1018 1Z = 1021 背景:到 2011 年为 止 , 人类生产 的所有印刷 材料的数据 量是 200PB
  • 16.Veracity 准确性 16 李建中 哈工大教授 973 首席科学家 CCF 王选奖得主 主持 973 项 目 :海量信息可用 性基础理论与关键技术研究 在 2010 年,有统计表明全 国至少 100 万人身份证号http://news.163.com/10/0622/13/6重复 9PO497L0001124J.html 大数据的一个重要 方面:数据可用性 不一致:某患者是上海人,但联系电话写成: 010-******** 不精确:某患者的体温 37.5℃ ,但未写明是口腔温度还是腋 下 温度,存在 0.5℃ 误差 不完整:某患者的既往病史记录部分缺失 不新鲜:某患者换居住地,但地址没更新 有冗余:多家医院就诊数据整合,某患者曾在不同医院就诊, 应表示为同一个人 量质融合 劣质容忍 深度演化
  • 17.Value 价值总量大 知识密度低 17  价值密度低。稀疏、但是珍贵的信息。 单个点 -> 某时位置 一天点 -> 一天行程 一个月 -> 日常规律 所有用户一个月 -> 城市脉搏 融合社交数据 -> 事件影响 最近,新课课 品上市,用 课 课 课 课 课课 反响如何? 课 课课课
  • 18.基于数据的产品推荐案例 18 优惠券推送:分析用户购买行为,发送优惠券,以促进销售。 美国一名男子闯入他家附近的一家美国零售连锁超市 Target 店铺进行 抗议: " 你们竟然给我 17 岁的女儿发婴儿尿片和童车的优惠券。 " 店铺经理立刻向来 者承认错误,但是其实该经理并不知道这一行为是总公司运行数据挖掘的结 果。一个月后,这位父亲来道歉,因为这时他才知道他的女儿的确怀 Target 孕了。 比这 位父亲知道他女儿怀孕的时间足足早了一个月。 背景: Target 基于 25 项与怀孕高度相关的商品制作 " 怀孕预测 " 指数。比如 他们发现女性会在怀孕四个月左右,大量购买无香味乳液。以此为依据推算 出预产期后,就抢先一步将孕妇装、婴儿床等折扣券寄给客户来吸引客户购
  • 19.三、技课 课 课 步:硬件技 课课课课课课课 步 19 商业路径 研究路径 内存价格显 著降低,单机配置 已经是 8GB 到 16G B ,稍微大型的服 课器 就可以做到几 百 GB 甚至 TB 级别 ,大幅提高数据访 问效率。 多个执行内核可 以同时进行运算,因此 可以显著提升计算能 力,而每个内核的主频 可以比以前低,因而总 体功耗增加不大。 GPU 已经不仅仅是 一种专门用来处理图形的处 理器,它已经演变成一 个强大的可编程处理器。 其巨大算术能力和内存 带宽都显著大于高端 CPU 。
  • 20.体系架构升级 20 纵向扩展: 提升单台机器的处理能力 横向扩展: 利用多台机器提升处理能力
  • 21.谷歌的贡献 21  文件系统    算法框架     设计 GFS ,通过复制提升可靠性 开源版本: HDFS 提出 MapReduce ,任务分解 / 整合 完美体现“横向扩展” 开源版本: Hadoop 数据组织  提出了 BigTable ,分布式的结构化 数据存储策略
  • 22.隐私保护 •22  发布任何数据都有可能带来信息泄露    黑客攻击 / 管理不善 数据脱敏操作也无法做到万无一失 项合项项私保 项 项项的数据管理 项项 项项 方院士担任第 120 期双清论坛主席,提出了“大 搜索”的概念,推动了国家自然科学基金“智慧 搜索”重点项目群的立项。其中,“隐私保护”是 一个重要组成部分。 方滨兴 工程院院士
  • 23.•23  日常管理不善  《解放军报》 2015 年 11 月 9 日文:“行 车记录仪入营请 ' 闭 眼 '” 士官长林江家属来队,将私家车开到了营区家属楼旁。 周末开车外出时,他们的车与地方一辆车发生刮蹭,查证行 车记录仪时林江傻了眼:单位地形地貌、官兵任务出动在记 录视频中清晰可见。车辆事故处理完后,林江立即将这一情 况上报给了军务部门。
  • 24.•24  黑客入侵 / 系统漏洞 好莱坞艳照门 携程隐私泄露门 2014 年 3 月 22 日,乌云网连续 2014 年 09 月 01 日,有 披露了两个携程网安全漏洞, 黑客疑利用苹果公司的 称:由于携程开启了用课 课 支付 课 iCloud 云课课 系课课 的漏洞, 课课课 服课 课 接口的 课课课课课 功能, 课课课课 致携 课 非法盗取了众多全球当红 程安全支付日志可被任意读取 女星的裸照,课课 而在网 课 课 课课课课课 布。 课 ,日志可以泄露包括持卡人姓 名、身份课 课 、课 课 行卡 课课课课 、课 行卡号、 CVV 码等信息。
  • 25.•25   数据脱敏  对敏感信息进行变形 处理,以保护该信息  但是,仍可基于部分隐 含的关联关系进行推演 案例    2006 年 8 月,美国在线( AOL )公布大量旧搜索查询数据。数据经 过脱敏处理,包括用户名称和地址等个人信息。 《纽约时报》在几天内综合分析“ 60 岁的单身男性”、“有益健康的 茶叶”、“利尔本的园丁”等搜索记录之后,发现 4 417 749 号代表 是佐治亚州利尔本的一位 62 岁的寡妇塞尔玛 · 阿诺德。 最终,美国在线的首席技术官和另外两名员工被开除
  • 26.服务 - 隐私权衡 •26 服务 - 隐私权衡  样例:离我最近的加油站 在哪里?
  • 27.隐私保护: k- 匿名 •27  矩形区域包含至少 k 个用户  指定用项项 无法与在矩形区域中 项项项项项项项项 的其他用项 区分开来 项项项项  矩形区域的大小与周围环境 紧密相关  令 k =100 。当用户在体育 项项 , 区域面 项项项项 可能极小; 项项 而当用项 在沙漠中 项项项项项项 ,区域 项项 面项 项 将极大 项 项 10- 匿名
  • 28.智慧城市 •28 智慧城市是运用物项项 网、云计算、大数据、空 项 项 项 项 项 项 项 项 项 项 项项 地理信息集成等新一代信息技 项项 项项项 项项 项项项 项项 项 ,促项 项 城市 项 项项 划、建 项项项 项 、管理和服 项 项项项 项项 智慧化的新理念和新模式。 项 项项 项项项 项项 项项项 -- 发改高技 [2014]1770 号《关于印发促进智慧城市健康发展的指导意见的通知》 智慧商圈 智慧旅游 智慧市政 智慧教育 智慧城市是基于数字城市、物 联网和云计算建立的现实世界 和数字世界的融合。城市大数 据是现代信息技术发展的结果 ,是智慧城市的重要基础。 智慧医疗 智能交通 智慧社区 平安城市 智慧城市: 大数据 + 互联化 + 智 能化 所有大数据相关的应用中,智慧城市对大数据的关注度最高。 中国电子技术标准化研究院,《大数据标准化白皮书》, 2014.6
  • 29.国家战略需求 •29 智慧城市的大规模数据计算与服务已成为国家战略需求 智慧城市的大规模数据计算与服务已成为国家战略需求
  • 30.过去时代 •30  包括各类交通标志牌和广告牌等 事实上,多年以来这也是唯一的 LBS 数据来源
  • 31.风云再起 •31
  • 32.典型应用 •32  基于位置的路况报告  范围查询 : 在高速路行有多少车辆在行驶?  最短路径查询:抵达目的地需要多少时间?   基于位置的商铺发现  范围查询 : 找出我当前 5 公里范围内的餐馆 ?  最近邻居查询 : 离我最近的快餐店在哪? 基于位置的广告  范围查询 : 向离加油站 5 公里范围内 的所有顾客发送电子优惠券
  • 33.实时路况地图 •33  传统方法   在道路上布置 摄像头,人工 识别或者视频 识别 新型方法  智能手机自动 上传位置信息
  • 34.个性化出租车拼车 •34  现有拼车软件不适用出租车拼车    出租车流动性强,不适合固定路线(如上下班) 拼车软件注册无门槛,混杂“黑车”运营 只拼同路乘客,难满足即时打车 该数据引用企鹅智酷调查http://www.zhishihao.com/news/117660
  • 35.•35 定价策略 实时 路况 个性化 满意度 离线 统计 实时个性化 出租车拼车应 用 定位 一款能够处理用户实时打车请求的出租车 拼项 项 项 用,它充分考 项 项 项 项 项 项 项 每位乘客在价 项 项 项 项 项 项 项 、 乘车时间、等车时间方面的不同偏好,给 出一种使已上车乘客、等待乘客和司机三 方满意度最大化的拼车解决方案(包括: 选择最合适的接等待乘客的出租车;搭载 等待乘客后选择合适的路线行驶;制定合 理的定价策略)。
  • 36.•36 实时 实时处理用户请 求、实时给出解 决方案供用户选 择。 出租车拼车 ✘ 提前几天预 定发车时间 ✘ 使用私家 车拼车 出租车有运营资 项 ,项 项 项 技 项 项 、 车辆安检、服务 态度规范。 个性化 应用 乘客可以选择价 钱、乘车时间、 等车时间三方面 的优先排序。 适用 Android 系统的手机应用 ,更加方便。
  • 37.37 个性化的用户画像   等车乘客:对减少等待时间的满意度,对多付车费的容忍度  坐车乘客:对增加时间的容忍度,对少付车费的满意度 司机: 增加收入的满意度 宗旨:量化参与方的感受,使所有参与方均可接受   个性化的定价分配策略    为拼车行为建模,划分不同路段 对不同路段可设定不同的支付系数
  • 38.百度的鬼城研究 •38  在标准的城市地区, 一平方公里内应该容 纳 10000 人,而百 度将城市密度不足该 数值的一半的城市定 义为鬼城。  根据人口密度是否会 随季节推移而变化, 可判断是旅游城市还 是真正的鬼城。
  • 39.外滩踩踏事件 •39 2014 年 12 月 31 日 23 时 35 分,正值跨年夜活动,因很多游客市 民聚集在上海外滩迎接新年,上海市黄浦区外滩陈毅广场东南角通 往黄浦江观景平台的人行通道阶梯处底部有人失衡跌倒,继而引发 多人摔倒、叠压,致使拥挤踩踏事件发生,造成 36 人死亡, 49 人 受伤。
  • 40.•40  教训惨痛,值得反思的地方很多   公共安全教育、项项 警方案制定、媒体交互等 项 项项项 项项 项项项 项 一种声音:利用大数据技术降低悲剧发生概率    可以提前预测目的地的人流量 可以根据人流量情况进行异常等级评估,确定异常 的区域、时间范围和大概的严重等级 辅助制定撤离和疏导方案http://www.36dsj.com/archives/19965http://www.36dsj.com/archives/20006
  • 41.人口流动分析 •41  估算人口总量、分析行政区流动人口特征, 是各行政区制定人口政策的依据和前提。  传统方法  人口普查:逢 10 年进行一次,最近三次是 1 990,2000,2010  人口抽查:逢 5 年进行一次,最近两次是 19 95,2005  职能部门调查:由公安等部门组织  特点:所获得的数据全面、准确,但是资源 消耗高
  • 42.•42  发展趋势:智能手机的快速普及为人口流动情况 分析找出了一条新路。  2017 年,我国移动电话普及率首破 102.5 部 / 百人 ——工信部《 2017 年通信业统计公报》  可获取手机用户的位置、通话关系 / 上网日志  手机实名制登记 丁金宏 全国政协委员 人口学专家 华东师范大学教授 智能手机大数据将是人 口学研究的重要方法
  • 43.上海市进出人流量 •43 • 2014-11-16 至 2014-11-22 ,一周内工作日和周末对比情况,以及每日进 / 出 上海市人流量变化情况; • 工作日的人流总量变化相对平稳,相较于其他工作日,周一的流入流出量都略有 增加,周五的人流量显著增加。
  • 44.徐汇区各时段人口流入量 •44 流入早高峰 • 工作 5 天呈现规律性,早晚有高峰,而流入早高峰更加明显; • 周末 2 天呈现规律性,早晚高峰没有工作日时明显;早晨流入 > 傍晚流入 ; • 日流量:周末 < 工作日
  • 45.徐汇区各时段人口流出量 •45 流出晚高峰 • 工作 5 天呈现规律性,早晚有高峰,而流出晚高峰更加明显; • 周末 2 天呈现规律性,早晚高峰没有工作日时明显;早晨流出 < 傍晚流出 • 日流量:周末 < 工作日
  • 46.南京路商圈分时人口流量 •46 周六为周末第一 天,全天客流量 保持在高位。中 午 2-3 点达到高 峰 周日为周末最后 一天,全天客流 量保持在相对高 位。由于第二天 上班,晚上 6 点 后,客流撤退明 显 周五后为周 末,下午下 班后出现客 流高峰 周三工作日 ,消费人口 最低
  • 47.四大商圈每日人口流量 •47 南京路和中山公园属于 中档商圈,消费日流量 相对较高。其中南京路 由于知名度和范项 大, 项项 流量最大。淮海路和陆 家嘴属于高档商圈,日 流量较小。 日流量呈一周周期 性项 化,周末客流 项项项项项项 量大,工作日小。 区项 项 明项 项 。
  • 48.四大商圈游客日流量 •48 陆家嘴游客 比例最高 南京路游客 数量最大
  • 49.49  具体应用领域的问题      时空数据 相似度匹配 推荐 图数据管理 ...
  • 50.实时路况地图 50  传统方法   在道路上布置 摄像头,人工 识别或者视频 识别 新型方法  智能手机自动 上传位置信息
  • 51.大数据不是万能的 51  谷歌流感预测( GFT )  2008 年,在 H1N1 流感爆项项 的几周前,谷歌的研究人 项 项 项 项 项 项 项 项 项 项 项项 《自然》杂 在 志上宣称他们能够根据人们在搜索引擎上留下的信息对流感进行“ 即时预报” ,并比当前美国疾病预防控制中心( CDC ) 的数据 预测提早至少 2 周。
  • 52.52  谷歌流感趋势失败: 2013 年 2 月,《自然》项志项项文指出, 项 项 项 GFT 预测的流感样病例门诊数超过了 CDC 根据全美各实验室监测报告 得出的预测结果的两倍。
  • 53.53 大数据运用的典范   Why ? 大数据缺陷的典范 “ 大数据傲慢”:即认为大数据可以完全取代传统的数据收集方法,而非作为后者 的补充。这种观点的最大问题在于,绝大多数大数据与经过严谨科学试验得到的数据之间存在很 算法项项 化 :谷歌搜索引擎的算法并非一成不变的,谷歌对算法会进行不断地调整和 改项 项 。而搜索引擎算法的改 项 项 项 项 项 项 项 项 项 项 项 和用 项 项 项 的搜索行 项 项 项 项 项 会影响 项 项 GFT 的预测结果。 启示:大规模数据集分析给予技术公司巨大力量, 但这种力量又是危险的。大数据不是万能的!
  • 54.大数据的“冬天” 54  问:是否公众即将经历一场大数据项目带来虚警 的流行病? 答:是的。当你有了大量的数据之后,就会想 提出更多的假设。而一旦提出假设的速度超出 了数据的统计内涵,那么你的推断里有很多都 可能是错误的。  问:有哪些东西是人们承诺大数据能带来的而您 认为其实是无法兑现的? 答:我们必须在我们所有的预测上加上误 差线,而这正是目前很多机器学习文献中所欠 缺的。 迈克尔 · 乔丹 加州大学伯克利分校教授 美国科学院、工程院、课课 与科学院院士 2014 年末,迈克 尔教授接收 IEEE S 杂志采访,谈自 己对于大数据的看 法。
  • 55.55  问:如果处理数据的人并不理会您的建议,会发生 什么情况呢? 答:我喜欢使用“造桥”来做类比。假设我不依从任何准 则,毫无科学根据地建造了上千座桥梁,那么它们有很多 都会崩塌,造成巨大的灾难。  问:现在有提供哪些误差线的工具吗? 答:解决这些问题是很难的数学和工程课题,并且需要时 间。  问:如果我们继续在您描述的那条(错误的)轨迹 上前项 项 ,大数据将会面 项 项 项 项 项 项 项 项 怎项 项 的不利后果? 项 项 项 项 项 答:最主要的就会是一次“大数据的冬天”。在一场泡沫之 后——人们已经投了钱,一大批公司做了承诺却又拿不出严 肃的分析结果——泡沫会破碎。并且很快,在 2-5 年间,人 们就会说“大数据来了又走了,它死了,并且是错的”。
  • 56.五、内容项 划 项 56  基于硬件发展  多核  海量内存  GPU  FPGA  基于分布式平台  Hadoop  Spark  Storm  基于统计和机器学习  数据流  低项项 数据管理 项项 项  安全和隐私保护
  • 57.海量内存技术的发展 •57 Tape is Dead Disk is Tape Flash is Disk RAM Locality is King ——Jim Gray December 2006
  • 58.58
  • 59.谢谢! 19/5/3