不确定数据管理

2020-03-01 166浏览

1.不确定数据管理金澈清
2.大纲 1.应用背景和数据模型 2.不确定时空数据库 3.不确定数据集成 4.不确定数据世系管理 5.ranking 查询 6.NN 查询 7.Inversed NN 8.skyline
3.一、应用背景和数据模型应应应应应应应应
4.信息世界的不确定性 1. 原始数据不准确 2. 聚集数据集 3. 隐私保护 4. 缺失值处理应用背景 5. 数据集成 6. 更多应用 ····
5.原始数据不精确仪器精度网络传输外部环境影响应用举例传感器网络 RFID 读卡器，读准率仅 60%-70%
6.传感器网络的架构服务外部用户因特网本地用户网关 PDA 传感器节点网关多跳低能耗的无线网络 • 传感器节点经由多跳无线网络（ multi-hop wireless networks ）连接 • 数据在传感器网络之中路由并且被获得 • 网关将传感器簇和有线网络 / 因特网连接起来 • 服务处理传感器簇中产生的数据，并向固定 / 移动外部用户提供信息 • 本地用户可以从无线网络中直接获取并处理数据 • 面向查询的处理模型
7.RFID 应用Source:Sun and RFID
8.聚集数据集局部聚集各条聚集记录可以被视为是服从一个概率分布应用举例人口数据集合
9.
10.隐私保护应保持数据应应应应的敏感性，应应应应应应应应一个混沌的数据集应应应应应应以概率密度函数替代原始数据应用举例：位置业务（ LBS ）移动对象的当前位置以及位置变迁信息涉及用户隐私从物理设备采集的数据再加上一层保护以区域描述物体位置，隐藏对象的真实位置
11.动机 : LBS 中的隐私问题去大使馆怎么走？ LBS 提供者 唯一身份 位置信息去购物中心怎么走？
12.隐私 & QoS 权衡隐私要求 位置匿名 L 包含至少 k-1 其他用户 • 敏感的位置 : 诊所 , 夜总会 l(x,y) 包括至少 k-1 个其他请求  身份匿名 – 敏感消息 : 政治性的 , 金融性的 k- 匿名模型位置点 l(x,y) r2 r3 r1 覆盖的区域 L r4
13.应用背景四 • 缺失值处理 • 缺失数据是应应典的不确定数据的应应应应应应应应应用 • 经插值后的缺失数据可以看作服从某个概率分布的随机变量，或者看作是数据具有预先定义好的误差。 • 一些数据记录通过统计方法得到，比如通过预测和插值得到的数据记录，在这种情况下，推断得到的数据可以被精确地估计。 • 应用举例 • 在数据清洗应用中非常常应应应应应应
14.空缺值 • 数据并不是永远有效的 • 例如，很多应应应的应应多属性应应应应以应应取，比应应应应应在应应售数据中客应应应应应应的收入应应情况很应掌握。应应应 • 数据空缺可能是由于 • 装应应的故障应应 • 由于和其他数据不一致而被删除了 • 由于理解错误而未被录入 • 某些数据在应应入的应应应候并不认应应应应应是重要的，因此没应应应应应应应应应入 • …… • 空缺的数据可能需要被推断出来
15.如何应对空缺值？ • 忽略该记录 : 当类标号缺少时通常这样做（假定挖掘任务涉及分类或者描述）。除非元组有多个属性缺少值，否则该方法不是很有效。当每个属性缺少值的百分比变化很大时，它的性能非常差。 • 手动填充空缺值：一般地说，该方法很费时，并且当数据集很大、缺少很多值时，该方法可能行不通。 • 使用一个全局的常数代表缺失值，例如 “ unknown”, 但是这可能会引入一个新类型 ?! • 使用平均值来取代缺失值 • 使用与给定元组属同一类的所有样本的平均值：例如，若将顾客按 credit_risk 分类，使用具有相同信用度的应客的平均收入替应应应应应应应应 income 中的空缺值 • 使用最可能的值去填充缺失值：例如贝叶斯公式或者决策树
16.数据集成相异模式数据不一致性应用举例：万维网（ Web ）万维网（ Web ）是 Internet 上最重要的应用从海量 Web 数据中自动抽取重要信息
17.网页信息抽取的不确定性 • 抽取条目可能存在错误 ! • 对于各个条目，提供置信分数 • 以简单的人名条目抽取为例 C = 首字母大写的单词 D = 在人名字典中找得到的单词信息抽取规则精度 1. [CD] [CD] 0.9 2. [CD] 0.6 Last evening I met the candidate Shiv Vaithyanathan for dinner. We had an interesting conversation and I encourage you to get an update. His host Bill can be reached at X-2465. 抽取的条目概率 Shiv Vaithyanathan 0.9 Bill 0.6 [CD] [CD] [CD]
18.迫切需要新技术处理这类问题以经典确定性技术（ deterministic technology ）解决上述问题？数据清洗无法有效处理所有类型的不准确数据例如， RFID 数据的不准确性表现为漏读、多读、脏数据等多种情况，分应应采用不同方法应应应应应应应行应应理，例如建立概率模型、应应应应应应应应应应机器学应应建模、网应应应 RFID 应应应器应应最应化应应应度策略等，然而并没应应应应应应有出现能够有效处理所有不准确类型的技术。因此，迫切发展不确定性数据库管理技术
19.概率关系数据库从上世纪 80 年代后期开始，至今仍在继续为何现在博得学术界的关注？应用驱动多种数据类型，如不匹配数据值、不精确查询、不一致数据、不匹配的模式等。 Xml, 数据流， ··· 是最主要的驱动力量技术驱动处理不确定性数据比处理确定性数据更难部分现有方法回避了复杂度研究成果有助于更好地管理概率数据库
20.挑战一：庞大的可能世界实例集合共有 24 个实例（ instance ），每个实例 = 各记录发生或不发生的情况
21.• 描述所有实例，在各实例中，各元组出现或不出现 I P( I ) 1 • 两种不确定性 • 存在级不确定性（ Existential Uncertainty ） • 描述元组在数据库中的存在性 • 元组的存在（ / 不存在）会影响其他元组的存在（ / 不存在） • 元组间存在更复杂的相关性 • 属性级不确定性（ Attributer Level Uncertainty ） • 元组存在，值不确定 • 以概率分布函数或者具体概率参数表示 • 易于处理
22.可能世界 • 元组之间存在依赖关系的情况
23.属性域 : int, int,char(30), char(30),varchar(55), varchar(55),datetime datetime 关系模式 : 值域大小 : 232, 2240, 2440, 264 Employee(name:varchar(55),Employee(name:varchar(55),dob:datetime,salary:int)'>dob:datetime,salary:int)