14 知识图谱的落地与实践
2020-03-01 151浏览
- 1.《知识图谱: 概念与技术》 第 14 讲 知识图谱落地与实践 肖仰华 复旦大学 shawyh@fudan.edu.cn
- 2.概述 2018/8/30 第 1 章:知识图谱概述 2
- 3.产业化概览 知识图谱产业概览 知识图谱数据与服务 构建大规模通用知识图谱和领域图谱, 为机器认知提供背景知识 百科图谱 商情图谱 垂直图谱 底层支撑系统与产品 1)支撑知识图谱运作的混合型系 统,提供高效稳定的查询; 2)领域知识图谱构建的工具集成 系统,提供知识图谱构建能力 KW 提供领域知识图谱构建与应用咨询 服务或落地解决方案,给华为、电 信、移动、阿里巴巴、滴滴等数十 家应用单位提供了知识图谱解决方 案。 智能数据获取系统 图数据库系统 知识库构建工具集 2018/8/30 知识图谱咨询与方案 第 1 章:知识图谱概述 3
- 4.技术体系 服务 数据 系统 百科 问答 实体 链接 知识库 验证码 信息 抽取 智能 水军 商情图谱 百科图谱 其他图谱 工商、产品、投融资、 诉讼、专利软著、商标 人物、字词、地理、 经济、军事、科学、社会 影视、音乐 法律、食物 智能信息获取 图数据管理
- 5.知识图谱能力体系 应 用 实体 理解 文本实体化 实体同义词 图片实体化 同义实体识别 搜索 推荐 三元组补全 清 洗 补全 纠 错 类别补全 属性补全 构 建 支 撑 AVP检索 Type检索 描述检索 标注 抽取 样本优化 众包 垂直领域 工商 音乐 法律 影视 金融 …. 推理 开放领域 文本相似性 文档标签化 文本提问 对答 外 链 版本更迭 实体 识别 关系 抽取 概念 识别 中文 OpenIE 实体 链接 关系分 类体系 构建 概念 抽取 纯文本 事实抽取 分布式爬虫 领域 数据 标注 知识库问答 知识库对话 关系标注 概念标注 SameAs外链 众包反馈 版本更迭 远程监督 文档摘要 传递性推理 错误检测 众包反馈 文本 理解 意图 理解 更 新 DBpedia类别链接 中英文跨语言链接 半结构化 数据抽取 智能爬虫 百度 百科 中文 维基 移动端支持 优先级调度 多语言支 持 验证码 破解 智能枚举 屏蔽检测 互动 百科 … 多网段支持 并行调度 多OS支持 代理发现 深度爬取 屏蔽规避 周期更新 局点同步 基于日志的更新 融合 图 管 理 主动更新 属性值分割 冲突消解 属性融合 属性值归一化 图划分 查询分发 图缓存 图嵌入 关联查询 社团查询 图推理 社团 搜索 最短路 查询 关键词 查询 基于mongo 数据的管理 基于关系数 据库的管理
- 6.本章大纲 • 概述 • 领域知识图谱 • 应用案例 • 知识图谱平台 • 知识图谱系统 2018/8/30 第 1 章:知识图谱概述 6
- 7.领域知识图谱 2018/8/30 第 1 章:知识图谱概述 7
- 8.提纲 • 1、什么是领域知识图谱DKG? • 2、领域知识图谱与通用/开 放领域知识图谱的关系是什 么? • 3、为何需要符号化表示的知 识图谱? • 4、为什么需要领域知识图谱? • 5、领域知识图谱系统的生命 周期? • 6、领域知识图谱的知识如何 表示? • 7、领域知识图谱如何构建? • 8、领域知识图谱的评价标准? • 9、领域知识图谱如何存储? • 10、领域知识图谱如何查询? • 11、领域知识图谱如何使用? • 12、领域知识图谱落地的最佳 实践? • 13、领域知识图谱还存在哪些 挑战? 8
- 9.1、什么是领域知识图谱? • Knowledge Graph is a large scale semantic network • Consisting of entities/concepts as well as the semantic relationships among them • Domain-specific Knowledge Graph • Knowledge graphs for specific domains 知识图谱富含实体、概念、 属性、关系等信息,使得机 器理解与解释成为可能 医学知识库 代码知识库 军事知识库 电信知识库 工商知识库 电商知识库 计算机知识 库 网络运维知 识库 一带一路知 识库 各类领域知识图谱 9
- 10.NoKG (Not only KG): 从“小”知识到“大”知识 • 传统知识工程,专家构建,代价高昂,规模有限;知识边 界易于突破,难以适应大数据时代开放应用到规模化需求 • 大规模开放应用需要“大”知识(大规模知识库) Ontology,Frame Logic rules Bayesian network Big Knowledge Decision tree Small knowledge+ big data= big knowledge 知识图谱引领知识工程复兴 10
- 11.2、DKG与GKG的关系?-区别 • DKG与GKG在知识表示、获取与应用等方面有着显著差异 知识表示 知识获取 知识应用 DKG GKG 广度 窄 宽 深度 深 浅 粒度 细 粗 质量要求 苛刻 高 专家参与 重度 轻度 自动化程度 低 高 推理链条 长 短 应用复杂性 复杂 简单 11
- 12.DKG与GKG的关系-联系 • DKG是从GKD通过隐喻得到 领域知识 隐喻 简单事实、世界知识 通用 知识 基本常识(时间、 空间、因果) 隐喻 ... 人类的知识架构 12
- 13.领域行业应用对于知识需求难以闭合 领域知识 开放知识 行业应用中的知识需求难以封闭于预设的领域知识边界内 13
- 14.DKG与GKG的关系-联系 • GKG对于DKG有着显著支撑作用 领域KG 领域KG … 领域KG Deep 补充完善 1.提供高质量的事实 2.提供基本的领域Schema 通用知识图谱 Wide 通用知识图谱与领域知识图谱的关系 14
- 15.3、为何需要符号化表示的知识图谱? • 符号表示与分布式表示是两种重要的知识表示方式 符号化表示 分布式表示 DKG DR(Distributed Representation) 显式 隐式 可解释(易理解) 难解释(难理解) 可推理 难推理 符号表示 数值表示 面向人 面向机器 15
- 16.4、为什么需要领域知识图谱DKG 大数据时代需要知识引擎 释放大数据价值 形成行业认知能力 实现简单工作自动化 人工智能时代需要机器智脑 实现自然人机交互 16
- 17.将领域知识赋予机器,解放人类脑力 领域知识的积累与沉淀是智能化的必经路径 依赖领域专家的传统信息化 缺点 成本高 效率低 传统信息化 领域 知识 将领域知识赋予机器,实现 简单知识工作自动化 优点 高度自动化 效率高 未来智能化
- 18.以政府领域知识图谱为例 政府治理 数据融合 共享开放 为政务数据的 普适融合提供 必要的元数据 为政务数据的理 解与洞察提供丰 富的背景知识 决策分析 为政府治理的 决策分析提供 可解释依据 政府治理领 域知识图谱 创新应用 为基于政府数据 的深度应用提供 推理框架
- 19.5、领域知识图谱系统的生命周期? 起点 知识表示 知识应用 知识获取 知识管理 领域知识图谱的迭代周期 19
- 20.6、DKG中知识如何表示? • 三元组SPO表示 • • • • <七里香, MV导演,邝盛> <七里香,发行时间,2004年08月03日> <七里香,填词,方文山> <七里香,歌曲原唱,周杰伦> • 跨媒体表示 • 文本、图片、视频 • 时空语义扩展 • 时间维度/空间维度 Tesla Model S (贝拉克·奥巴马,职业,美国总统,2009年1月20日,2017年1月20日) (唐纳德·特朗普,职业,美国总统,2017年1月20日,--) (复旦大学,类别,公立大学,121.4989(经度),31.2932(纬度) 通过文字、图片和视频来表示实体“Tesla Model S” (Tesla Model S,图片,“//123.jpg”) (Tesla Model S,视频,“//123.avi”) 20
- 21.7、DKG如何构建? 领域知识图谱构建的基本流程
- 22.7.1 模式设计 • 目标 • 把认知领域的基本框架赋予机器 • 步骤 • 概念层设计 • 指定领域的基本概念,以及概念之间subclassof关系 • E.g.,足球领域,足球运动员是运动员的子类 • 属性定义 • 明确领域的基本属性,明确属性的适用概念,属性值的 类别或者范围 • E.g., “效力球队” 的 domain为 “足球运动员”,range为 “球队” • 约束规则定义 • E.g., 多值属性约束:出生日期(单值约束),获得奖项 (多值约束) • E.g., 互逆属性约束:“隶属球员” 和 “效力球队” 为 互逆 属性 22 DBpedia Ontology,http://mappings.dbpedia.org/server/ontology/classes/
- 23.7.2 明确数据来源 • 目标 • 明确建立领域知识图谱的数据来源 • 来源分类 • • • • 互联网上的领域百科爬取 通用百科图谱的导出 内部业务数据的转换 外部业务系统的导入 结构化数据 半结构化数据 D2R转化器 规则抽取器 知识图谱 文本抽取器 非结构化数据 不同数据来源通过不同的知识获取方式构建知识图谱 • 选择建议 • 选择结构化程度相对较高、质量较好 的数据源,以尽可能降低知识获取代 价 23
- 24.7.3 词汇挖掘 • 目标 • 识别出领域中的重要短语和词汇 • 典型示例:叙词表 • 涵盖的大都是领域的主题词,及 这些词汇之间的基本语义关联 • 步骤 • • • • 识别领域的高质量词汇 识别同义词 识别缩写词 识别领域的常见情感词 “川普” “特朗普” “Trump” “特朗普” Jiawei Han, etc.,. Mining Quality Phrases from Massive Text Corpora 24
- 25.7.4 实体发现 • 目标 • 识别出领域中的常见实体 • 意义 • 理解领域文本和数据的关键一步 • 步骤 Guillaume Lample etc., Neural Architectures for Named Entity Recognition • 实体识别 • 实体归类 • 实体链接 知识工场实验室的实体链接DEMO 25
- 26.7.5 关系发现 • 目标 • 填充知识库中的关系实例 • 问题分类 • 关系分类 • 将给定的实体对(entity pairs)分类到某个已知关系 Stanford Open Information Extraction, • “李娜”-“姜山” “丈夫”,“教练”https://nlp.stanford.edu/software/openie.html• 关系抽取 • 从文本中抽取某个实体对的具体关系 • “姜山曾先后两次成为李娜的教练” (“李娜”,“教练”, “姜山”) • 开放关系抽取 • 从文本中抽取出实体对之间的关系描述 • “上海隔东中国海与日本九州岛相望” (“上海”,“相望”, “日本九州岛”) 26
- 27.7.6 知识融合 • 目标 • 融合来自不同数据源的知识 • 步骤 • 实体对齐 • 识别不同来源的统一实体 • E.g.,复旦大学,复旦公学,fudan,复旦 … • 属性融合 跨语言知识融合 • 识别同一属性的不同描述 • E.g.,英文名,英文名称 • 值规范化 • 规范化到统一格式 • E.g., 175cm, 1.75, 1米75 Effective Online Knowledge Graph Fusion 27
- 28.7.7 质量控制 • 目标 • 提升知识图谱的质量 • 步骤 • 知识补全 • 基于预定义规则:E.g., “如果一个人 出生是中国,推断其国籍也可能是中 国” • 从外部互联网文本数据进行补充: E.g., 鲁迅身高,需要从互联网文本寻 找答案进行补充” 基于图中环结 构的自动错误 isA关系识别方 法。Taxonomy 中的环倾向与 包含错误isA关 系 • 知识纠错 • 基于规则 • 互逆属性纠错:A 妻子 B, B 老公 C • 图结构纠错:概念和实例构成的 Taxonomy中存在环 • 知识更新 • E.g., “战狼同款饰品” 基于Taxonomy中传递性推断的缺失关系推断 28
- 29.7.8 人工干预 • 目标 • 提升知识图谱的质量 • 步骤 • 人工编辑 知识工场实验 室推出的KADE 系统,能够所 见即所得的知 识图谱编辑 • 知识编辑工具支持用户添加、编 辑和修改 • 众包构建 • 利用众包手段将很多知识获取任 务分发下去 • 《未来人机区分》:利用知识问 答形式的验证码来做知识获取 基于文本理解的超级验证码可 以实现大规模众包化知识获取 29
- 30.8、DKG如何评价? 规模 (全) 质量 (准) 实时 (新) DKG 30
- 31.9、DKG如何存储? • 数据库选型依据 • 操作复杂度 规模 • 全局计算 • 多步遍历 • 复杂子图 Graph DB Graph DB • 知识库规模 • 节点 • 关系 • 密度 NoSQL DB Relational DB Graph DB • 三元组中存储哪些信息? • 关联事实 操作复杂度 31
- 32.10、DKG如何查询? • SPARQL • 优点:表达能力强、可 推理 • 缺点:较复杂、难书写、 复杂查询执行代价高昂 e.g., 找到所有朋克摇滚(Punk Rock)风格的 乐队和它的成员名 • SQL • 优点:简单,普及 • 缺点:表达能力相对较 弱 32
- 33.11、DKG如何应用? 搜索 推荐 问答 解释 决策 33
- 34.DKG落地实践案例 领域 内容 状态 效果 应用 政务知识图谱 构建政务知识图谱,实现市民服务 的精准推荐 已上线 服务600万上海市民 推荐 “一带一路”地缘 环境知识图谱 展示“一带一路”沿线国家的地缘 环境,支撑专家决策 已上线 为某部门的信息决策起到了重要的支撑作用 决策 多媒体素材知识图 谱 针对多媒体素材,实现精准推荐和 智能索引 开发中 对多媒体素材的管理、推荐和检索,强化了平台的实 用性 搜索、推 荐 代码知识图谱 针对公司内部数千代码库,上百万 已上线 条代码难以复用的现状,加以规整, 便于检索 为几万名公司软件工程师提供了代码检索功能,代码 平均搜索时间从10分钟降低到1分钟 搜索 运营商业务知识图 谱 丰富的搜索召回和个性化推荐,运 营商的知识管理和分析支撑平台 已上线 在与运营商的服务层面,显著提升了业务的复用率。 决策、分 析 商业情报知识图谱 降低企业获取商业的门槛,帮助发 现并对接客户、友商、供应商 开发中 让商业信息的管理流程化,对接成功率提升明显 决策、分 析 电信知识图谱 为电信营销、运营提供支撑 已上线 有力支撑了上海电信的互联网营销平台(每年数千万 产值),技术转移给移动的方案中 推荐 电子商务知识图谱 构建电商图谱,实现商品智能推荐 已上线 部分品类下的商品销售率提高了2.8个百分点 搜索、推 荐
- 35.12、DKG落地有哪些最佳实践? • 应用引领 • 避难就简 技 术 • 结构化-> 半结构化->非结构化 • 避免从零开始 • 以通用图谱中的领域图谱作为种子 • 问题:如何有效发现领域实体与关系? 军 事 通用图谱 • 跨领域迁移 • 从邻近领域迁移 • 问题:如何迁移具有共性的知识? 法 律 工 商 文 娱 35
- 36.13、DKG还存在哪些挑战? 知识表示 知识获取 知识应用 •知识图谱只能表达简单关联事 实,对于时空语义、跨媒体语 义支撑力度不够 •领域样本缺失现象严重,手工 构建代价高昂;稀疏样本下的 高质量自动化构建缺乏有效手 段 •领域知识图谱在行业的深入应 用中仍缺乏有效手段,特别是 推荐、推理与解释。 如何增强知识图谱 的语义表达能力? 如何实现稀疏样本 如何深化基于领域 下的图谱自动构建? 知识图谱智能应用? 36
- 37.应用案例 2018/8/30 第 1 章:知识图谱概述 37
- 38.基于代码知识图谱的搜索与推荐管理 • 贴合全球最大规模软件项目实际情 况代码的搜索引擎,管理对象为代 码仓库,包括代码,项目,程序员 等。 project database 类型 类型 类型 上位词 django 作者 上位词 作者 mongodb 共现 mysql 属于 bob 属于 关联 code2 类型 code1 类 型 • 平均代码搜索时间从10份中降低到 一分钟 alice project1 关联 • 实现某代码平台的精准、高效搜索 user code
- 39.运营商业务分析智能化解决方案 • 项目背景 • 通过知识图谱实现更丰富的 搜索召回和更精准的个性化 推荐,为运营商业务知识管 理和分析提供支撑 • 关键技术/模块 • Kade知识库编辑系统 • 搜索、推荐技术 • 落地应用成果 • 已作为基础组建集成进入某 大型民营企业知识管理平台 2018/8/30 39
- 40.商业情报分析智能化解决方案 • 项目背景 • 该系统实现面向企业商业情 报分析,旨在降低企业获取 商机的门槛,帮助企业发现 并对接客户、友商、供应商。 事件 事件源 文本理解 图谱源 B2b网站、业务 填充 智能信息获取 • 与河南省某孵化器公司深度对 接,帮助其旗下数百家中小型 企业发现商业机会。 2018/8/30 爬取、解析、清洗、融合 智能信息获取 文本标签化、实体链接 关联分析、知识推理 用户画像与个性化推荐 • 落地应用成果 用 户 查 询 、 消 息 推 送 实体识别与链接、 关联分析、标签化 • 关键技术 • • • • 商机 支 撑 图谱构建 schema设计与校验、 众包构建、三元组抽 取、概念抽取、更新 风险 资讯 查询 知识图 谱 40
- 41.司法智能辅助审判 • 项目背景 • 为提高简单案件的审判效率,减少宝 贵的司法资源的浪费,本项目建立了 一套智能判案辅助机器人系统,为当 事人提供专业的案件咨询,案件风险 评估,法院服务和法律援助等。 • 关键技术 • 专家系统、知识推理 • 结构化信息抽取 • 落地应用成果 • 与上海市长宁区人民法院对接,已在 民间借贷案由下取得初步成果, 2018/8/30 41
- 42.一带一路地缘环境知识图谱 • 项目背景 • 展示一带一路沿线国家的地缘环境, 用以支持专家决策 应用 可视化展示 垂直搜索 • 关键技术 通用问答 知识图谱管理系统 • 领域实体发现 • 多源数据融合 • 落地应用效果 通用搜索 一带一路 地缘环境知识图谱构建 知识概念分 类体系构建 • 已作为基础组件集成进入某军事部 门的信息系统,用以支持领导策略 多源异构数 据自动抽取 线下数据 多源异构数 据自动融合 知识更新 互联网数据采集系统 数据库 图像 视频 地图 图表 文本 线上数据 2018/8/30 开放领域 垂直领域 42
- 43.基于政务大数据的市民服务云应用 • 项目背景 • 通过信息惠民综合试点,以创新社 会管理、方便百姓服务为目标,建 立了市民服务云,整合教育、医疗、 卫生、社保、民政等多部门信息资 源,引入优质社会服务资源,提供 多渠道、多形式的信息服务,满足 了居民多样化需求,逐步实现公共 服务事项和社会信息服务的的全人 群覆盖、全天候受理和“一站式”办 理 • 关键技术 • 领域知识图谱构建技术 • 针对领域数据的实时爬虫系统、多源 异构数据自动抽取、多源数据融合 • 用户画像技术 • 用户关联技术、用户画像技术 2018/8/30 43
- 44.基于知识图谱的网站多媒体推荐 • 项目背景 • 北京长城网作为北京市党员干部现代远程教育的网络中心,需要把合适 内容推送给目标用户。 • 关键技术 • 基于标签的领域知识图谱构建 • 多媒体的语义搜索和个性化推荐 • 可视化展示 • 落地应用 • 作为网站模块开发 2018/8/30 44
- 45.数据 应用 业务 感知 用户行为分析 用户上网标签结果 业务统计分析 专题分析挖掘 客户标签知识库 用户应用标签结果 用户兴趣标签结果 业务感知分析引擎 标签分类体系库 URL标签体系 语义分析 URL去噪 算法库 网页内容解析算法 App标签体系 网络爬虫 文本语料库 复杂网络分析算法 用户兴趣标签体系 分类审核 URL标签化 语义分词库 中文知识图谱 数据 融合 自然语言处理算法 数据挖掘算法 App标签化 互联网访问(DPI)数据 用户标签化 机器学习算法 互联网页面快照数据
- 46.知识图谱平台 2018/8/30 第 1 章:知识图谱概述 46
- 47.知识工场平台:知识图谱数据与认知服务平台 复旦知识工场平台 • 1. 2. 3. 4. 5. 6. 数百家 近8亿次 2.2亿 95% 1800万 准确率达到99% 1700万 3300万 27万 准确率达到 CN-Dbpedia 服务列表 api/mention2entity api/entityAVP api/entityAttribute api/entityType api/entityTag api/entityInformation • ProbasePlus服务列表 1. api/probase/getconceptsapi/entityAV P 2. api/probase/getentities • SuperV:验证码服务 • 知识问答服务 • 实体链接服务 实体理解 • 实体识别与链接 • 实体概念化 • 实体推荐 china, japan, india, korea -> asian country
- 48.知识图谱系统 2018/8/30 第 1 章:知识图谱概述 48
- 49.知识图谱编辑系统Kade 上海数眼科技发展有限公司版权所有,未经书面许可请勿 擅自传播。 49
- 50.Curiosity:知识图谱探索式交互系统 上海数眼科技发展有限公司版权所有,未经书面许可请勿 擅自传播。 50
- 51.Timeline:事件图谱展示系统 上海数眼科技发展有限公司版权所有,未经书面许可请勿 擅自传播。 51
- 52.实体链接 上海数眼科技发展有限公司版权所有,未经书面许可请勿 擅自传播。 52
- 53.References • [Wu et al. 2012] "Probase:A probabilistic taxonomy for text understanding." Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data. ACM, 2012. • [Banko et al. 2007] "Open information extraction from the web." IJCAI. Vol. 7. 2007. • [Newell, Allen et al. 1976] “Computer Science as EmpiricalInquiry:Symbols and Search”, Communications of the ACM, 19 (3) • [Dreyfus, Hubert 1979] What Computers Still Can't Do, NewYork:MIT Press. • [陈文伟 et. Al] 知识工程与知识管理 • [Yin, et al. 2017] Truth Discovery with Multiple Conflicting Information Providers on the Web, kdd07 • [Wanyun Cui et al. 2017]KBQA:Learning Question Answering over QA Corpora and Knowledge Bases, (VLDB 2017) • [Yi Zhang, et al, 2017] Entity suggestion with conceptual explanation, (IJCAI 2017) • [Bo Xu, et al, 2016] Learning Defining Features for Categories. (IJCAI 2016) 2018/8/30 第 1 章:知识图谱概述 53