7 质量控制
2020-03-01 155浏览
- 1.《知识图谱: 概念与技术》 第7讲 知识图谱质量控制 李直旭 苏州大学 zhixuli@suda.edu.cn
- 2.背景 - 数据质量问题无处不在 2018/8/30 第 6 章:知识图谱质量控制 2
- 3.背景 - 甚至日趋严重 数据量剧增 伴随数据质量剧降 2018/8/30 第 6 章:知识图谱质量控制 3
- 4.关系数据库的六个数据质量维度 2018/8/30 第 6 章:知识图谱质量控制 4
- 5.举例:关系型数据库 • DifferentSchemas:e.g., “Sex”-“Gender”, “Phone/Fax”-“Phone”+“Fax” • Inconsistencyvalues:e.g., “0/1”-“F/M” • Missing values 2018/8/30 第 6 章:知识图谱质量控制 5
- 6.举例:DBLP •Polyseme:10+ different “Wei Wang” •Synonyms:“Pei Lee” and “Pei Li” 2018/8/30 第 6 章:知识图谱质量控制 6
- 7.知识图谱同样存在质量问题! 2018/8/30 第 6 章:知识图谱质量控制 7
- 8.知识图谱中的质量问题 37.8万平方公里 ...... 960万 平方公里 数据缺失 37.8 平方公里 美国 面积 面积 数据错误 ? 表达不一 数据过期 人口 北京 首都 面积 2069万 国家 中国 人口 13.75亿 东京 人口 英国 2015年13.75亿 2016年13.83亿 2018/8/30 日本 首府 英伦 三岛 1.26亿 英国别称 第 6 章:知识图谱质量控制 8
- 9.如何应对? 做好质量控制 - 知识图谱构建中必不可少的一环 • 高质量的知识图谱 • 构建层面:首先是我们追求的构建目标。 • 应用层面:决定了最终应用的落地效果。 2018/8/30 第 6 章:知识图谱质量控制 9
- 10.第 6 章 知识图谱质量控制 • 知识图谱质量评估与控制概述 • 知识图谱数据来源的质量控制 • 知识图谱数据获取的质量控制 • 知识图谱数据融入的质量控制 • 知识图谱数据补全的质量控制 • 知识图谱数据更新的质量控制 2018/8/30 第 6 章:知识图谱质量控制 10
- 11.知识图谱质量评估与控制概述 2018/8/30 第 6 章:知识图谱质量控制 11
- 12.本节大纲 • 知识图谱质量评估与控制概述 • 知识图谱质量评估概述 • 知识图谱质量控制概述 • 知识图谱数据来源的质量控制 • 知识图谱数据获取的质量控制 • 知识图谱数据融入的质量控制 • 知识图谱数据补全的质量控制 • 知识图谱数据更新的质量控制 2018/8/30 第 6 章:知识图谱质量控制 12
- 13.何谓“高质量”知识图谱? • 从知识构建角度 • • • • • 从最终应用角度 仅关注构建层面 衡量数据和知识本身的质量 有一些通用的衡量标准 准确、一致、时效、完整… • • • • 本章关注点 2018/8/30 关注KG应用层面 没有通用衡量标准,case by case 只看KG是否满足应用需求 KG结构、表达方式… 暂不关注 第 6 章:知识图谱质量控制 13
- 14.知识图谱质量的评估维度 • 一致性:考察图谱中的知识 是否统一、一致。 • 准确性:考察图谱中各类知 识的正确程度。 • 时效性:准确性的一个子维 度,但其主要强调图谱中知 识是否是当下最新知识。 • 完整性:考察图谱中的知识 对某相关领域的覆盖程度。 知识图谱数据质量的四个维度 2018/8/30 第 6 章:知识图谱质量控制 14
- 15.知识图谱质量的评估维度 知识图谱的质量评估细分表 一致性 准确性 时效性 完整性 概念 √ √ √ √ 实体 √ √ √ √ 属性 √ √ √ √ 关系 √ √ √ √ 属性值 √ √ √ √ 知识维度 2018/8/30 第 6 章:知识图谱质量控制 15
- 16.知识图谱质量的检测与评估 知识图谱质量检测与评估一览表 知识维度 概念 实体 一致性 时效性 专家人工 冗余实体检测 专家人工(抽样)检测 完整性 专家人工 OR 外部数据 OR 属性 关系 准确性 一致性检测 (冲突检测) 借助外部领域数据 对比评估 完整度评估 属性值 2018/8/30 第 6 章:知识图谱质量控制 16
- 17.一致性评估 • 概念:量小,人工更靠谱 校区: 建校时间: 1900年 • 抽样:抽取部分样本数据 • 评估:人工评判质量 本部,东区,北 区,独墅湖校区, 阳澄湖校区 学校性质: 综合性大学 现任校长: 熊思东 苏州大学 学校地址: 江苏苏州 • 实体:冗余实体检测 • 检测发现知识图谱中的冗余实体 • 核心:实体匹配算法 • 实体相似度计算模型 ... ... ... 前身 ... ... ... ... 东吴大学 之文理学 院 苏南文化 教育学院 ... ... ... ... ... • 属性、关系、属性值:一致性检测 • 发现表达不一致的数据。 • 核心:多源融合算法 ... ... 学校性质: 综合大学 学校地址: 江苏苏州 • 属性匹配;实体匹配;属性值归一化 2018/8/30 ... ... 前身 前身 前身 院部数量: 26 第 6 章:知识图谱质量控制 ... 现任校长: 熊思东 Soochow Uni. 构成 构成 苏南文 化教育 学院 ... 东吴大学 之文理学 院 构成 ... ... 现有校区: 本部、东区,北 区(校区),独 墅湖校区,阳澄 湖校区 建校日期: 1900年 构成 ... ... 17
- 18.完整性评估 • 概念、实体:人工抽样评估法 • 抽样式获取样本数据,检查数据的缺失率 • 关系、属性、属性值:完整度评估 • 基于分布的完整性评估(以基于三大百科构建的KG为例) • • • • 2018/8/30 计算三大百科在概念C下的属性A的总体完整度和独立完整度 计算概念C下缺失属性A的实体需要补全的概率 使用实体需要补全的概率衡量实体所在概念c需要补全属性A的概率 用所有概念的完整度的加权平均计算KG的完整度 第 6 章:知识图谱质量控制 18
- 19.本节大纲 • 知识图谱质量评估与控制概述 • 知识图谱质量评估概述 • 知识图谱质量控制概述 • 知识图谱数据来源的质量控制 • 知识图谱数据获取的质量控制 • 知识图谱数据融入的质量控制 • 知识图谱数据补全的质量控制 • 知识图谱数据更新的质量控制 2018/8/30 第 6 章:知识图谱质量控制 19
- 20.KG质量问题源自何处? 百科数据 基于模板 表格解析 有监督 无监督 信息抽取技术 搜索引擎辅助 浅层互联网 投票统计 数据获取方式 2018/8/30 各类数据来源 实体对齐 属性对齐 数据 补全 冲突消解 数据融入 在线知识库 众包数据源 数据融合技术 各阶段都可能产生质量问题, 因此都需要进行质量把控! 定期主动更新 被动实时更新 更新维护
- 21.知识图谱质量控制概述 • 知识图谱数据来源的质量控制 • 各类数据源的质量控制方法 • 知识图谱数据获取的质量控制 • 搜索质量控制,信息抽取质量控制 • 知识图谱数据融入的质量控制 • 知识的融合统一,知识的链接融入 • 知识图谱数据补全的质量控制 • 实体类型补全、关系补全、属性值补全 • 知识图谱数据更新的质量控制 • 错误数据清洗,过期数据更新 2018/8/30 第 6 章:知识图谱质量控制 21
- 22.知识图谱质量控制概述 • 知识图谱数据来源的质量控制 • 各类数据源的质量控制方法 • 知识图谱数据获取的质量控制 • 搜索质量控制,信息抽取质量控制 • 知识图谱数据融入的质量控制 • 知识的融合统一,知识的链接融入 • 知识图谱数据补全的质量控制 • 实体类型补全、关系补全、属性值补全 • 知识图谱数据更新的质量控制 • 错误数据清洗,过期数据更新 2018/8/30 第 6 章:知识图谱质量控制 22
- 23.知识图谱质量控制概述 – 数据来源 百科数据 在线知识库 • 常见的知识来源质量评估 • 互联网获取数据的质量评估 • 众包获取数据的质量评估 浅层互联网 众包数据源 2018/8/30 第 6 章:知识图谱质量控制 23
- 24.知识图谱质量控制概述 – 数据来源 • 互联网数据的质量评估 • 基于网站权威性的数据可信度评估, 如.mil>int>.gov>.org>.edu>.com>.net • 基于关联规则的数据可信度评估 通过发现评论者对图书是否存在偏见,进而间接体现评论的可信度 2018/8/30 第 6 章:知识图谱质量控制 24
- 25.知识图谱质量控制概述 – 数据来源 • 互联网数据的质量评估 • 信任值传播机制 • 评价机制: • 某条信息发布网站的可信度越高,这条信息的可信度就越高; • 某条信息被转载的次数越多,这条信息的可信度就越高 • 预处理: • 有无重复记录,若有需去重 Page2 Page1 Page3 Page2 Page6 Page4 Page5 2018/8/30 第 6 章:知识图谱质量控制 25
- 26.知识图谱质量控制概述 – 数据来源 • 众包数据的质量评估(各类其他数据类似) • 使用黄金标准数据(Golden standard data)评估 已知答案的 标准数据 • 利用冗余信息标识正确答案的方法 2018/8/30 External Knowledge 第 6 章:知识图谱质量控制 26
- 27.知识图谱质量控制概述 • 知识图谱数据来源的质量控制 • 各类数据源的质量控制方法 • 知识图谱数据获取的质量控制 • 搜索质量控制,信息抽取质量控制 • 知识图谱数据融入的质量控制 • 知识的融合统一,知识的链接融入 • 知识图谱数据补全的质量控制 • 实体类型补全、关系补全、属性值补全 • 知识图谱数据更新的质量控制 • 错误数据清洗,过期数据更新 2018/8/30 第 6 章:知识图谱质量控制 27
- 28.知识图谱质量控制概述 – 数据获取 • 从浅层互联网获取知识 • 构建查询词:通过搜索引擎,搜索到相关网页 • 信息抽取:再搜索到的网页中,抽取获得相关知识 • 从自然文本中获取知识 • 基于pattern的方法:syntax-based自增迭代和 semantic-based自增迭代 • 基于模型的方法:从文本中抽取出大量的和给定语法 pattern匹配的句子,然后借助语义分析工具,从句子 中抽取出需要的信息 数据获取的方式主要依托:WSE+IE 常用质量评估方法:黄金数据集评估 如何控制质量?。。。主要是IE的质量 2018/8/30 第 6 章:知识图谱质量控制 基于模板 表格解析 有监督 无监督 信息抽取技术 搜索引擎辅助 投票统计 28
- 29.知识图谱质量控制概述 – 数据获取 • 如何管理迭代式IE中出现的错误和纠正错误?(语义漂移问题) • 依托非结构化文本构建知识图谱主要依赖信息抽取技术 • 信息抽取的主流是自增迭代式(bootstrapping)信息抽取技术 • 自增迭代式信息抽取的一大问题是语义漂移问题 • 语义漂移问题? • 自增迭代式的抽取最终都会倾向于抽取到一些含义模糊的实例或者与目标语义类相 关性较弱的上下文模式,导致开放式自动信息抽取(IE)系统的抽取质量的降低 2018/8/30 第 6 章:知识图谱质量控制 29
- 30.知识图谱质量控制概述 • 知识图谱数据来源的质量控制 • 各类数据源的质量控制方法 • 知识图谱数据获取的质量控制 • 搜索质量控制,信息抽取质量控制 • 知识图谱数据融入的质量控制 • 知识的融合统一,知识的链接融入 • 知识图谱数据补全的质量控制 • 实体类型补全、关系补全、属性值补全 • 知识图谱数据更新的质量控制 • 错误数据清洗,过期数据更新 2018/8/30 第 6 章:知识图谱质量控制 30
- 31.知识图谱质量控制概述 – 数据融入 • 知识的融合统一:融合多源知识库(图谱)中的数据 • 概念对齐与融合 • 包括概念合并、概念上下位关系合并以及概念的属性定义合并 • 实体对齐 • 判断相同或不同数据集中的两个实体是否指向真实世界同一对象 • 属性对齐 • 识别来自单一或多个数据源的属性之间存在的对应关系 • 属性值归一化 • 规范同一类型的属性值的表现形式 • 知识链接与融入:将获取的各类知识“链接”到知识图谱 • 概念链接(量少,人工融入最准确) • 实体链接(关键问题,研究热点:刚需、海量、歧义性大) • 属性链接(实体链接正确了,属性链接相对简单些) 2018/8/30 第 6 章:知识图谱质量控制 31
- 32.知识图谱质量控制概述 • 知识图谱数据来源的质量控制 • 各类数据源的质量控制方法 • 知识图谱数据获取的质量控制 • 搜索质量控制,信息抽取质量控制 • 知识图谱数据融入的质量控制 • 知识的融合统一,知识的链接融入 • 知识图谱数据补全的质量控制 • 实体类型补全、关系补全、属性值补全 • 知识图谱数据更新的质量控制 • 错误数据清洗,过期数据更新 2018/8/30 第 6 章:知识图谱质量控制 32
- 33.知识图谱质量控制概述 – 数据补全 • 实体类型补全 • 又称:实体分类,或 类型断言(Type Assertions) • 旨在给出实体缺失的上位概念 • 实体间关系补全 • 又称:关系预测(Relation Prediction) • 旨在补全图谱中缺失的实体间的一些关系 • 实体属性值补全 • 与数据库领域研究的数据补全(data imputation)相近似 • 旨在补全图谱中实体缺失的属性值 2018/8/30 第 6 章:知识图谱质量控制 33
- 34.知识图谱质量控制概述 • 知识图谱数据来源的质量控制 • 各类数据源的质量控制方法 • 知识图谱数据获取的质量控制 • 搜索质量控制,信息抽取质量控制 • 知识图谱数据融入的质量控制 • 知识的融合统一,知识的链接融入 • 知识图谱数据补全的质量控制 • 实体类型补全、关系补全、属性值补全 • 知识图谱数据更新的质量控制 • 错误数据清洗,过期数据更新 2018/8/30 第 6 章:知识图谱质量控制 34
- 35.知识图谱质量控制概述 – 数据更新 • 错误数据清洗 • 关系数据库:找出并修正关系数据库中的错误属性值 • 知识图谱中:找出并修正图谱中的错误属性值或实体间关系 • 过期数据更新 • 随着时间的推移,数据是变动的 • 一直在变的:人口,年龄,职位,作品数量,美国总统。。。 • 不断新增的:新人,新公司,新词,。。。 • 旨在保持知识图谱中数据的“新鲜度” 2018/8/30 第 6 章:知识图谱质量控制 35
- 36.本节大纲 • 在接下来的章节中,我们将对以下几方面的研究工作展开介绍 知识图谱数据获取的质量控制 搜索质量控制,信息抽取质量控制 知识图谱数据融入的质量控制 知识的融合统一,知识的链接融入 知识图谱数据补全的质量控制 实体类型补全、关系补全、属性值补全 知识图谱数据更新的质量控制 错误数据清洗,过期数据更新 2018/8/30 第 6 章:知识图谱质量控制 36
- 37.知识图谱数据获取的质量控制 2018/8/30 第 6 章:知识图谱质量控制 37
- 38.本节大纲 • 知识图谱质量评估与控制概述 • 知识图谱数据来源的质量控制 • 知识图谱数据获取的质量控制 • 语义漂移问题的处理技术 • 知识图谱数据融入的质量控制 • 知识图谱数据补全的质量控制 • 知识图谱数据更新的质量控制 2018/8/30 第 6 章:知识图谱质量控制 38
- 39.知识图谱质量控制概述 – 数据获取 • 什么是语义漂移?---- 两种自增迭代式IE中的语义漂移问题示例 (a)Semantic-based bootstrapping mechanism 2018/8/30 (b)Syntax-based bootstrapping mechanism 第 6 章:知识图谱质量控制 39
- 40.知识图谱质量控制概述 – 数据获取 • 语义漂移造成的危害 • 常见的迭代抽取式系统 •e.g.:KnowItAll, SnowBall, ProBase … • 在几轮之后,准确度急剧下降。。。 2018/8/30 第 6 章:知识图谱质量控制 40
- 41.知识图谱质量控制概述 – 数据获取 • 语义漂移问题处理主流方法 • Mutual Exclusion Bootstrapping (PACLING’07) • Drop those instances belonging to mutually exclusive classes • Type Checking (WSDM’10) • Check the type of an entity for correctness • Random Walk Ranking (ICDM’06) • Construct a graph, do random walk ranking • Pattern-Relation Duality Ranking (WSDM’11) • The quality of a pattern (tuple) can be determined by the tuples (patterns) it extracts. • A Model based on Detected Drifting Points (EDBT’14,TKDE’17) 2018/8/30 第 6 章:知识图谱质量控制 41
- 42.语义漂移问题处理技术 • Mutual Exclusion Bootstrapping • Pros andCons:High Precision, Low RecallPositives:Canada Egypt France …Negatives:Asia Europe London Florida … 2018/8/30 war with × ambassador to × war in × occupation of × nations like × countries other than × country like × 第 6 章:知识图谱质量控制 Planet Earth Freetown North Africa Pakistan Sri Lanka Greece Russia 42
- 43.语义漂移问题处理技术 • Type Checking • Checking types of relevant entities • Pros andCons:High Precision, Low Recall Pillar, San Jose OK Type CheckingArguments:X ,which is based in Y …companies such as Pillar… … cities like San Jose… Inclined pillar , foundation plate 2018/8/30 第 6 章:知识图谱质量控制 NO 43
- 44.语义漂移问题处理技术 • 主流方法 • Mutual Exclusion Bootstrapping (PACLING’07) • Drop those instances belonging to mutually exclusive classes • Type Checking (WSDM’10) • Check the type of an entity for correctness • Random Walk Ranking (ICDM’06) • Construct a graph, do random walk ranking • Pattern-Relation Duality Ranking (WSDM’11) • The quality of a pattern (tuple) can be determined by the tuples (patterns) it extracts. • A Model based on Detected Drifting Points (EDBT’14,TKDE’17) 2018/8/30 第 6 章:知识图谱质量控制 44
- 45.语义漂移问题处理技术 • Random Walk based Cleaning 9 ri cWri (1 c ) ei 2 1 Ranking vector 0.13 0 0.10 1/3 0.13 1/3 0.22 1/3 0.13 0 0.05 0 0.9 0.05 0 0.08 0 0.04 0 0.03 0 0.04 0 0.02 0 2018/8/30 Adjacent matrix 1/3 1/3 1/3 0 0 0 0 0 1/3 0 0 0 0 1/4 1/3 0 1/3 0 0 0 0 0 1/3 0 1/4 0 0 0 0 0 1/3 0 1/2 1/2 1/4 0 0 0 1/4 0 1/2 0 0 1/3 0 0 0 0 0 0 0 0 0 0 0 1/4 1/2 0 0 0 1/4 0 0 0 0 0 0 0 1/4 0 0 0 0 0 0 0 0 0 1/4 0 0 0 0 0 Restart p Starting vector 0.13 0 0 0 0 0 0.10 0 0 0 0 0 0 0.13 0 0 0 0 0.22 1 0 0 0 0 0 0.13 0 0 0 0 0.05 0 0.1 0 0 0 0 0 0.05 1/2 0 1/3 0 0.08 0 0 0 1/3 0 0 0.04 0 1/2 0 1/3 1/2 0.03 0 1/3 0 1/2 0.04 0 0 0 1/3 1/3 0 0.02 0 0 0 8 3 10 12 11 4 5 6 0 第 6 章:知识图谱质量控制 7 45
- 46.语义漂移问题处理技术 • 主流方法 • Mutual Exclusion Bootstrapping (PACLING’07) • Drop those instances belonging to mutually exclusive classes • Type Checking (WSDM’10) • Check the type of an entity for correctness • Random Walk Ranking (ICDM’06) • Construct a graph, do random walk ranking • Pattern-Relation Duality Ranking (WSDM’11) • The quality of a pattern (tuple) can be determined by the tuples (patterns) it extracts. • A Model based on Detected Drifting Points (EDBT’14,TKDE’17) 2018/8/30 第 6 章:知识图谱质量控制 46
- 47.语义漂移问题处理技术 • Pattern-Relation Duality •Idea:The quality of a pattern (tuple) can be determined by the tuples (patterns) it extracts. •Cons:still can not reach high precision and recall 9 2 1 8 3 10 12 11 4 5 6 7 2018/8/30 第 6 章:知识图谱质量控制 RW on Precision RW on Recall F-Score = Precision+Recall Ranking with F-Score 47
- 48.语义漂移问题处理技术 • 主流方法 • Mutual Exclusion Bootstrapping (PACLING’07) • Drop those instances belonging to mutually exclusive classes • Type Checking (WSDM’10) • Check the type of an entity for correctness • Random Walk Ranking (ICDM’06) • Construct a graph, do random walk ranking • Pattern-Relation Duality Ranking (WSDM’11) • The quality of a pattern (tuple) can be determined by the tuples (patterns) it extracts. • A Model based on Detected Drifting Points (EDBT’14,TKDE’17) 2018/8/30 第 6 章:知识图谱质量控制 48
- 49.语义漂移问题处理技术 • 一个基于漂移点(Drifting Points)检测的预测模型 •Intuition:Drifting Points (DPs) are the reasons of Semantic Drift. • 两种DPs: • Intentional DPs • Synonyms such as Chicken • Accidental DPs • Errors by themselves • E.g., … Countries such as France, Germany, Japan and New York. 2018/8/30 第 6 章:知识图谱质量控制 × 49
- 50.语义漂移问题处理技术 • 漂移点(DPs)一些特征: • For a target class, the distribution of instances triggered by a DP is different from the distribution of instances that truly belong to the target class. • If classes C1 and C2 are mutually exclusive, instance e ∈ 𝐶1 ∩ 𝐶2 is very likely an Intentional DP. • An accidental DP is usually supported by very weak evidence, that is, the instance is derived from very few (mostly only one) sentences. • An error extraction (e isA C) triggered by a DP is usually supported by weak evidence, since the extraction is usually not triggered by other instances of C. • 利用以上特征,构建DP检测模型。 Distributions of instances triggered by DPs and non-DPs 2018/8/30 第 6 章:知识图谱质量控制 50
- 51.语义漂移问题处理技术 • 检测到漂移点之后,再根据检测的漂移点,发现抽取中的错误。 𝑰𝒏𝒑𝒖𝒕: 𝐴 𝑝𝑎𝑟𝑠𝑒𝑑 𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒 𝑆 𝑎𝑛𝑑 Detected DPs yes S is triggered by Accidental DPs? no S is triggered by Intentional DPs? no yes Calculate Score(s,C) yes C doesn’t hold the highest Score(s,C)? Withdraw all pairs extracted from s 2018/8/30 no 第 6 章:知识图谱质量控制 end 51
- 52.语义漂移问题处理技术 Cleaning Method Before Cleaning - - 0.4305 1.0 MEx 0.9119 0.1570 0.4592 0.9832 TCh 0.9423 0.1451 0.4789 0.9724 RW-Rank 0.5753 0.5831 0.5636 0.6509 PRDual-Rank 0.5621 0.6545 0.5812 0.6940 DP Cleaning 0.9696 0.9145 0.8921 0.9393 • (1)𝒑𝒆𝒓𝒓𝒐𝒓 : percentage of removed errors in all the removed instances; • (2)𝒓𝒆𝒓𝒓𝒐𝒓 : percentage of removed errors in all the errors under each concept; • (3)𝒑𝒄𝒐𝒓𝒓𝒆𝒄𝒕 : percentage of remained correct instances in all the remained instance; • (4)𝒓𝒄𝒐𝒓𝒓𝒆𝒄𝒕 : percentage of remained correct instances in all the correct instances under each concept 2018/8/30 第 6 章:知识图谱质量控制 52
- 53.知识图谱数据融入的质量控制 2018/8/30 第 6 章:知识图谱质量控制 53
- 54.本节大纲 • 知识图谱质量评估与控制概述 • 知识图谱数据来源的质量控制 • 知识图谱数据获取的质量控制 • 知识图谱数据融入的质量控制 • 关系数据库中的数据融合统一 • 知识图谱中的知识融合统一 • 知识图谱中的知识链接融入 • 知识图谱数据补全的质量控制 • 知识图谱数据更新的质量控制 2018/8/30 第 6 章:知识图谱质量控制 54
- 55.关系数据库中的数据融合与统一 • 数据融合一般包括如下两个关键步骤: 型号 品牌 京东价 屏幕尺寸 GPU 模式匹配 (Schema Mapping) MX3 魅族 1799 型号 品牌 促价价 尺寸 ... MX3 MeiZu 1999 ... 5.1英寸 5.1英寸 八核 ... ... 型号 品牌 京东价 屏幕尺寸 GPU 记录匹配 (Record Matching) 2018/8/30 MX3 魅族 1799 型号 品牌 促价价 尺寸 ... MX3 MeiZu 1999 ... 型号 品牌 尺寸 MX3 魅族 5.1英寸 5.1英寸 5.1英寸 GPU 八核 ... ... 京东价 天猫价 第八核 6 章:知识图谱质量控制 1799 1999 ... 55
- 56.关系数据库中的数据融合与统一 • 模式匹配(Schema Mapping) • 基于属性名字的字符串相似度的方法 • 如基于编辑距离,Jaccard距离,欧式距离等等 • 基于实例下面的属性值的方法 • 如基于统计的方法:抽样,众数等等 • 基于共同的实例数量的方法 2018/8/30 第 6 章:知识图谱质量控制 56
- 57.关系数据库中的数据融合与统一 • 模式匹配(Schema Mapping) 2018/8/30 第 6 章:知识图谱质量控制 57
- 58.关系数据库中的数据融合与统一 • 记录匹配(Record Matching) • 基于内容的方法 • 基于结构的方法 • 基于混合模式的方法 2018/8/30 第 6 章:知识图谱质量控制 58
- 59.关系数据库中的数据融合与统一 • 记录匹配(Record Matching) 结构化主属性:编辑距离,Jaccard,Q-gram等 优点:可以唯一决定一个实体 缺点:易受表达方式多样化的影响 结构化非主属性: 匹配树,基于实例驱动的匹配方法等 优点:选择决策能力高的非主属性参与匹配 缺点:没有考虑树中不同层次节点的重要性的不同;易受缺失值影响 文本类型非主属性:基于阈值的匹配方法,基于无监督学习上下文的匹配方法等 优点:同时考虑文本之间的字符串相似性和语义相似性 缺点:依赖于WordNet,模型过于单一,健壮性差 借助外部资源的匹配方法:Crowdsourcing等 优点:准确性高 缺点:开销大,工人的准确性难以评估 2018/8/30 第 6 章:知识图谱质量控制 59
- 60.关系数据库中的数据融合与统一 2018/8/30 第 6 章:知识图谱质量控制 60
- 61.本节大纲 • 知识图谱质量评估与控制概述 • 知识图谱数据来源的质量控制 • 知识图谱数据获取的质量控制 • 知识图谱数据融入的质量控制 • 关系数据库中的数据融合统一 • 知识图谱中的知识融合统一 • 知识图谱中的知识链接融入 • 知识图谱数据补全的质量控制 • 知识图谱数据更新的质量控制 2018/8/30 第 6 章:知识图谱质量控制 61
- 62.知识图谱中的知识融合与统一 37.8万平方公里 ...... 960万 平方公里 37.8 平方公里 美国 面积 面积 ? 表达不一 人口 北京 首都 面积 2069万 国家 中国 人口 13.75亿 东京 人口 英国 2015年13.75亿 2016年13.83亿 2018/8/30 日本 首府 英伦 三岛 1.26亿 英国别称 第 6 章:知识图谱质量控制 62
- 63.知识图谱中的知识融合与统一 • 概念对齐与融合 • 包括概念合并、概念上下位关系合并以及概念的属性定义合并 • 实体对齐 • 判断相同或不同数据集中的两个实体是否指向真实世界同一对象 • 属性对齐 • 识别来自单一或多个数据源的属性之间存在的对应关系 • 属性值归一化 • 规范同一类型的属性值的表现形式 2018/8/30 第 6 章:知识图谱质量控制 63
- 64.概念对齐与融合 • 主流方法 • 专家人工构建 • 从可靠的结构化数据中映射生成 • 建模工具 • Protégé • • • • 开源软件 基于RDF(S)、OWL等语义网 图形化界面 提供在线版本WebProtégé • PlantData • 商用软件 • 屏蔽OWL,可自定义本体语言 2018/8/30 第 6 章:知识图谱质量控制 64
- 65.实体对齐 • 目标 • 高质量链接多个现有知识库,并从顶层创建一个大规模的统一知识库, 从而帮助机器理解底层数据 • 评价指标 • 质量:实体对齐的准确性和全面性 • 效率:大规模数据下的匹配时耗 • 问题与挑战 • 计算复杂度 • 数据质量 • 先验对齐数据的获取 2018/8/30 第 6 章:知识图谱质量控制 65
- 66.实体对齐 • 主流方法 • Property-based • 机器学习方法 • Febrl – A Freely Available Record Linkage System with a Graphical User Interface(KDD 2008) • 基于概率 •PARIS:Probabilistic Alignment of Relations, Instances, and Schema (VLDB 2012) • Relation-based • Embedding方法 • Iterative Entity Alignment via Joint Knowledge Embeddings(IJCAI 2017) • Property & Relation-based • Cross-Lingual Entity Alignment via Joint Attribute-Preserving Embedding(ISWC 2017) • Crowdsourcing-combined •Hike:A Hybrid Human-Machine Method for Entity Alignment(CIKM 2017) 2018/8/30 第 1 章:知识图谱概述 66
- 67.实体对齐 • 主流方法 • Property-based • 机器学习方法 • Febrl – A Freely Available Record Linkage System with a Graphical User Interface(KDD 2008) • 基于概率 •PARIS:Probabilistic Alignment of Relations, Instances, and Schema (VLDB 2012) • Relation-based • Embedding方法 • Iterative Entity Alignment via Joint Knowledge Embeddings(IJCAI 2017) • Property & Relation-based • Cross-Lingual Entity Alignment via Joint Attribute-Preserving Embedding(ISWC 2017) • Crowdsourcing-combined •Hike:A Hybrid Human-Machine Method for Entity Alignment(CIKM 2017) 2018/8/30 第 1 章:知识图谱概述 67
- 68.Property-based 之 机器学习方法 • Motivation • 对于不同领域的实体,用于实体匹配的特征可能不同,为了能够学习到 不同的匹配规则,提出利用已有的alignment seeds,通过机器学习的方 法习得个性化的匹配规则,以解决领域之间的差异性问题。 • Framework 2018/8/30 第 1 章:知识图谱概述 68
- 69.实体对齐 • 主流方法 • Property-based • 机器学习方法 • Febrl – A Freely Available Record Linkage System with a Graphical User Interface(KDD 2008) • 基于概率 •PARIS:Probabilistic Alignment of Relations, Instances, and Schema (VLDB 2012) • Relation-based • Embedding方法 • Iterative Entity Alignment via Joint Knowledge Embeddings(IJCAI 2017) • Property & Relation-based • Cross-Lingual Entity Alignment via Joint Attribute-Preserving Embedding(ISWC 2017) • Crowdsourcing-combined •Hike:A Hybrid Human-Machine Method for Entity Alignment(CIKM 2017) 2018/8/30 第 1 章:知识图谱概述 69
- 70.Property-based 之 基于概率 • Motivation • 机器学习的方法往往需要人工标注alignment seeds作为训练数据,为了 解决训练数据匮乏及参数调节困难的问题,提出基于概率去衡量两个实 体的匹配程度。 • Idea • 两实体匹配的概率公式: • 两实体不匹配的概率公式: • 最终的实体匹配概率公式: • 其中,(x, r, y)为三元组,fun-1(r)为逆函数性,其大小表明事实三元组的同一关系中 宾语相等对主语相等的决定能力,逆函数值越大,则在宾语相等的情况下,主语相 等的可能性越大。 2018/8/30 第 1 章:知识图谱概述 70
- 71.实体对齐 • 主流方法 • Property-based • 机器学习方法 • Febrl – A Freely Available Record Linkage System with a Graphical User Interface(KDD 2008) • 基于概率 •PARIS:Probabilistic Alignment of Relations, Instances, and Schema (VLDB 2012) • Relation-based • Embedding方法 • Iterative Entity Alignment via Joint Knowledge Embeddings(IJCAI 2017) • Property & Relation-based • Cross-Lingual Entity Alignment via Joint Attribute-Preserving Embedding(ISWC 2017) • Crowdsourcing-combined •Hike:A Hybrid Human-Machine Method for Entity Alignment(CIKM 2017) 2018/8/30 第 1 章:知识图谱概述 71
- 72.Relation-based • Motivation • Property-based方法的效果往往受限于属性表达方式多样性,而基于关 系的structure embedding则很好地避开了这一障碍,通过将实体及实体 间关系映射到同一向量空间中,以衡量实体间的距离。 • Framework 先验对齐的数据 基于TransE的embedding模型 e2’和e2匹配的程度即e2’ + r2的结果与e3的距离 2018/8/30 第 1 章:知识图谱概述 72
- 73.实体对齐 • 主流方法 • Property-based • 机器学习方法 • Febrl – A Freely Available Record Linkage System with a Graphical User Interface(KDD 2008) • 基于概率 •PARIS:Probabilistic Alignment of Relations, Instances, and Schema (VLDB 2012) • Relation-based • Embedding方法 • Iterative Entity Alignment via Joint Knowledge Embeddings(IJCAI 2017) • Property & Relation-based • Cross-Lingual Entity Alignment via Joint Attribute-Preserving Embedding(ISWC 2017) • Crowdsourcing-combined •Hike:A Hybrid Human-Machine Method for Entity Alignment(CIKM 2017) 2018/8/30 第 1 章:知识图谱概述 73
- 74.Property & Relation-based • Motivation • 主流的Embedding方法通常只考虑实体的relationship,而属性三元组 (attribute triple)则被忽略,而对于那些relationship很稀疏的实体,只 用structure embedding可能缺乏有效信息,通过attribute embedding模 型引入属性信息,则更加有利于实体匹配。 • Framework 最终的实体相似 度为SE与AE分别 得到的相似度的 结合: 将属性三元组(S,P,O)中的O 简化成数据类型,如 Integer、String、Double等, 再对P进行embedding,目 标是让那些经常为同一实 体所拥有的属性之间的距 离更近。 2018/8/30 实体的embedding 为该实体所有属性 embedding的平均 值。 第 1 章:知识图谱概述 74
- 75.实体对齐 • 主流方法 • Property-based • 机器学习方法 • Febrl – A Freely Available Record Linkage System with a Graphical User Interface(KDD 2008) • 基于概率 •PARIS:Probabilistic Alignment of Relations, Instances, and Schema (VLDB 2012) • Relation-based • Embedding方法 • Iterative Entity Alignment via Joint Knowledge Embeddings(IJCAI 2017) • Property & Relation-based • Cross-Lingual Entity Alignment via Joint Attribute-Preserving Embedding(ISWC 2017) • Crowdsourcing-combined •Hike:A Hybrid Human-Machine Method for Entity Alignment(CIKM 2017) 2018/8/30 第 1 章:知识图谱概述 75
- 76.Crowdsourcing-combined • Motivation • 为了弥补自动化实体对齐方法召回率低的缺点,本文提出可借助众包平 台提升对齐效果 • Framework 找出最具有推理期望 (Inference Expectation) 的实体对 容错机制 利用匹配对之间的传递关 系进行推理,以减少众包 问题数量,使得众包代价 最小化 2018/8/30 第 1 章:知识图谱概述 76
- 77.Crowdsourcing-combined • 偏序模型 • 根据以下规则建立右图所示偏序图 • 推理期望公式如下: • 其中,pre和suc分别表示前驱和 后继结点,sijk表示在第k个属性对 匹配的情况下Pij的相似度, 表示实体相似度,wk 为第k个属性对对于实体相似度计算 的权重。 2018/8/30 第 1 章:知识图谱概述 77
- 78.属性对齐 • 意义 • 其结果可作为实体对齐及本体构建的基础 • 完善的属性对应关系有利于提高语义检索、问答系统的召回率 • 挑战 • Web信息的不完整、噪声多等特性 • 中文表意的灵活性使得属性间的关系尤为复杂 • 主流方法 • 人工建立属性映射表 • 基于属性的扩展(extension),针对关系型属性 • 对于三元组(S, P, O),若O为实体,则称P为关系型属性,(S, O)即为P的扩展 • 利用已有的实体匹配结果,通过计算匹配数与共现数的比例确定同义属性 • 基于属性值相似度,针对非关系型属性 • 对于三元组(S, P, O),若O不是实体,则称P为非关系型属性 • 使用聚类法获取单一数据集内部的同义属性簇 2018/8/30 第 6 章:知识图谱质量控制 78
- 79.属性值归一化 • 意义 • 消除属性值不同量级以及不同表达方式的影响,使数据具有一致性 • 属性值规范化后,更加有利于实体对齐和属性对齐 • 更加能够满足问答系统的需求 • 挑战 • 表达方式的多样化,无法100%覆盖所有形式进行归一 • 方法 • 将属性值分类 • 数据类型 • 表达规律 • 按类别制定统一表达规则 • 以常用的表达习惯为标准 • 半自动化抽取固定的Pattern • 按规则进行归一化 2018/8/30 第 6 章:知识图谱质量控制 79
- 80.本节大纲 • 知识图谱质量评估与控制概述 • 知识图谱数据来源的质量控制 • 知识图谱数据获取的质量控制 • 知识图谱数据融入的质量控制 • 关系数据库中的数据融合统一 • 知识图谱中的知识融合统一 • 知识图谱中的知识链接融入 • 知识图谱数据补全的质量控制 • 知识图谱数据更新的质量控制 2018/8/30 第 6 章:知识图谱质量控制 80
- 81.知识图谱中的知识链接与融入 • 知识链接与融入:将获取的各类知识“链接”到知识图谱 • 概念链接(量少,人工融入最准确) • 实体链接(关键问题,研究热点:刚需、海量、歧义性大) • 属性链接(实体链接正确了,属性链接相对简单些) • 实体链接 • 实体链接是解决命名实体歧义问题的一种重要方法,该方法通过将具有 歧义的实体指称项链接到给定的知识库中从而实现实体歧义的消除。 • 难点:一词多义,多词一义 2018/8/30 第 6 章:知识图谱质量控制 81
- 82.实体链接(Entity Linking) Also known as Entity Recognition and Disambiguation 1. Polysemy(一词多义)E.g.:'>E.g.: