5 大规模百科图谱构建

2020-03-01 146浏览

  • 1.《知识图谱: 概念与技术》 第5讲 百科图谱构建 徐波 东华大学 bolang1988@gmail.com
  • 2.本章大纲 • 百科图谱概述 • 基于单源的百科图谱构建 • • • • 实体发现 知识抽取 实体分类 知识补全 • 基于多源的百科图谱构建 • • • • 2018/8/30 本体融合 实体对齐 属性对齐 属性值融合 第 5 讲:百科知识图谱构建 2
  • 3.百科图谱概述 2018/8/30 第 5 讲:百科知识图谱构建 3
  • 4.百科图谱 • 定义 • 是一类以百科类网站作为数据源构建而成的知识图谱 • 区别 • 和纯文本页面不同,百科网站的页面中包含丰富的结构化的知识 2018/8/30 非百科网页 第 5 讲:百科知识图谱构建 百科网页 4
  • 5.百科图谱的特点 百科网站的特点 一个实体一个页面 百科图谱的特点 获取容易 • 每个页面均围绕一个实体进行全方面的介绍 • e.g., •https://en.wikipedia.org/wiki/Donald_Trump•https://baike.baidu.com/item/唐纳德·特朗普 页面格式统一 抽取简单 • 由统一的网页模板自动生成,包含固定格式的半结构化文本 内容质量高 质量高 • 由众包或者专业人员编辑,准确率较高 2018/8/30 第 5 讲:百科知识图谱构建 5
  • 6.百科图谱分类 根据百科数据源的领域可分为通用百科图谱和领域百科图谱 • 通用百科图谱 • 领域百科图谱 • 来自于通用百科网站 • E.g., • 来自于领域百科网站 • E.g., • 维基百科,百度百科 • 电影网站,购物网站 2018/8/30 第 5 讲:百科知识图谱构建 6
  • 7.基于单源的百科图谱构建 2018/8/30 第 5 讲:百科知识图谱构建 7
  • 8.基于单源的百科图谱构建 • 目标 • 输入:一个百科数据源 • 输出:一个百科知识图谱 2018/8/30 • 步骤 • • • • 第 5 讲:百科知识图谱构建 实体发现 知识抽取 实体分类 知识补全 8
  • 9.实体发现 2018/8/30 第 5 讲:百科知识图谱构建 9
  • 10.网页获取 • 目标 • 获取一个百科数据源中所有网页 • 策略 • 基于Dump数据的下载 • Wikipedia Dump 网站全部数据都以Dump的 形式提供下载 Wikipedia Dumphttps://dumps.wikimedia.org/2018/8/30 第 5 讲:百科知识图谱构建 10
  • 11.网页获取 • 目标 • 获取一个百科数据源中所有网页 • 策略 • 基于Dump数据的下载 • Wikipedia Dump • 基于超链接的遍历策略 • BFS / DFS 基本假设:百科数据源中所 有网页都通过超链接链接 缺点:部分百科页面未被其 他页面链接,导致无法获取 2018/8/30 第 5 讲:百科知识图谱构建 11
  • 12.网页获取 • 目标 • 获取一个百科数据源中所有网页 • 策略 • 基于Dump数据的下载 • Wikipedia Dump • 基于超链接的遍历策略 • BFS / DFS • 基于枚举的遍历策略 • ID / 名称 / 哈希 ID NAMEhttp://baike.baidu.com/view/[ID].htmhttp://baike.baidu.com/item/'>http://baike.baidu.com/item/