大数据时代的知识工程与知识管理
2020-03-01 63浏览
- 1.大数据时代的知识工程 与知识管理 肖仰华 复旦大学知识工场实验室 上海数眼科技发展有限公司 kw.fudan.edu.cn shawyh@fudan.edu.cn
- 2.知识工程与知识管理 • Knowledge Management (KM) is the formal management of knowledge for facilitating creation, access, and reuse of knowledge, typically using advanced technology. • KE (Knowledge engineering) is an engineering discipline that involves integrating knowledge into computer systems in order to solve complex problems normally requiring a high level of human expertise. Ref Wikipedia KM KE 2
- 3.Can machine think like humans? 3
- 4.知识工程(KE)的源起- Symbolism • 符号主义的主要观点 • 认知即计算 • 知识是信息的一种形式,是构成智能的基础 • 知识表示、知识推理、知识运用是人工智能的核心 • Physical Symbol System Newell Simon • A physical symbol system has the necessary and sufficient means of general intelligent action [R1] • The mind can be viewed as a device operating on bits AI System=Knowledge + Reasoning of information according to formal rules. [R2] • GOFAI(“good old fashioned artificial intelligence” , proposed by John Haugeland) • Focused on these kind of high level symbols,such asandR1: Newell, Allen; Simon, H. A. (1976), “Computer Science as EmpiricalInquiry:Symbols and Search”, Communications of the 4 ACM, 19 (3)
- 5.传统KE-代表性人物与成就 KE (Knowledge engineering) is an engineering discipline that 知识工程是以知识为处理对象,研究知识系统的知 involves integrating knowledge into computer systems in order to solve complex problems normally requiring a high level of human expertise. Ref Wikipedia 识表示、处理和应用的方法和开发工具的学科 Ref: 陈文伟,陈晟. 知识工程与知识管理
- 6.传统KE-代表性系统 DENDRAL 化学领域 规则表示,LISP语言 PROSPECTOR 探矿领域 确定性因子的规则系统 1965年-1968年 1978年 RI(XCON)系统 计算机系统配置 Forward chaining Dipmeter 石油探测 Forward chaining Vertical Transporter elevator systems Plausible reasoning 1987年 1984年 1979年 1983年 MYCIN系统 医疗领域 Backward chaining,LISP语言 1986年 PROTEAN系统 识别蛋白质的三维结构 Local and global constraints 传统知识工程在规则明确、边界清晰、应用封闭的应用场景取得了巨大成功
- 7.传统KE的基本特点 • 自上而下:严重依赖专家和人的干预 • 规模有限 • 质量存疑 MYCIN专家系统中的人工参与部分 7
- 8.传统KE的主要挑战:知识获取困难 • 隐性知识、过程知识等难以表达 • 如何表达做蛋炒饭的知识? • 老中医看病用到了哪些知识? • 领域知识的形式化表达较为困难 • 专家知识不可避免地存在主观性 • 不同专家之间知识可能存在不一致性 • 知识表达难以完备,缺漏是常态 基于规则系统的高中 几何自动解题过程
- 9.传统KE的主要挑战:知识应用困难 • • • • • 应用易于超出预先设定的知识边界 很多应用需要常识的支撑 难以处理异常情况 难以处理不确定性推理 知识更新困难 领域知识 Can pig fly ? Rule:if x is a bird then x can 开放知识 fly How about ostrich? 行业应用中的知识需求难以封闭于预 设的领域知识边界内
- 10.互联网应用催生大数据时代知识工程(BigKE) • 大规模开放性应用 • 永远不知道用户下一个搜索关键字是什么 • “创造101”、“吃鸡”、“纸片人”、“蛙儿子” • 精度要求不高 • 搜索引擎从来不需要保证每个搜索的理解和检索都是 正确的 互联网上的搜 索关键字具有 开放性、规模 巨大等特点 • 应用/推理简单 • 大部分搜索理解与回答只需要实现简单的推理 • 简单推理:“姚明的身高是多少” • 复杂推理:“姚明老婆的婆婆的儿子有多高” 互联网时代的大规模开放性应用需要全新的知 识表示,谷歌知识图谱诞生,知识工程迈入大 数据时代 2012年,谷歌推出其知识图谱 已满足搜索中知识应用需求 10
- 11.大数据时代的机遇—大规模自动知识获取 • Big Data + Machine Learning+ Powerful Computation • Enables large scale automatic knowledge acquisitionhttp://www.erogol.com/brief-history-machinelearning/https://blog.openai.com/ai-and-compute/11
- 12.数据驱动的大规模自动化知识获取 • 自下而上:网页文本、搜索日志、购买记录…… • 从统计关联挖掘语义关联将成为BigKE的重要任务 Hearst pattern NP such as NP, NP, ..., and or NP such NP as NP,* or and NP NP, NP*, or other NP NP, NP*, and other NP NP, including NP,* or and NP NP, especially NP,* or and NP 面向文本的基于规则isA知识抽取 办公用品:中性笔 订书机 别针/回形针 胶带/胶纸/胶 养猫必备:猫砂 逗猫棒 猫主粮 猫抓板 基于搜索日志的消费场景知识挖掘 洗簌用品:衣物用刷 皂盒 脸盆 洗漱杯 基于购物记录的消费场景知识挖掘Ref:Mining High-quality Phrase from Query logs in E-commerce, Technique Report 12
- 13.大数据时代的机遇—众包技术 • 众包与群智成为大规模知识获取的 一条新路径 案例2:基于众包的Taxonomy构建 • DBpedia通过众包方式构建了DBpedia Ontology 案例1: 基于知识问答验证码的知识获取 • 复旦大学知识工场实验室提供知识验证码服务, 通过众包的方式对现有知识进行验证http://kw.fudan.edu.cn/ddemos/vcode/13
- 14.大数据时代的机遇—高质量UGC • Web2.0时代到来,产生大量的高质量 UGC(User Generated Content) • 提供获得广大用户一致认可的高质量数据源 • Wikipedia, 百度百科 • 为自动挖掘知识提供了高质量数据源 • 为构建抽取模型提供了高质量样本 Ref:Danqi Chen, etc.. Reading Wikipedia to Answer Open-Domain Questions Wiki和百科的编辑机制保证了UGC内容的质量 Ref: Fei Wu, etc.. Autonomously Semantifying Wikipedia 14
- 15.大数据时代的到来,使得知识库技术突破了长久 以来制约其发展的规模与质量瓶颈。知识图谱是 这一突破的代表性产物。知识工程在知识图谱技 术引领下进入全新阶段(大数据时代的知识工程 BigKE),BigKE将显著提升机器认知智能水平。 15
- 16.知识图谱引领知识工程复兴 • Knowledge Graph is a large scale semantic network • Consisting of entities/concepts as well as the semantic relationships among them • Domain-specific Knowledge Graph • Knowledge graphs for specific domains 医学知识库 代码知识库 军事知识库 电信知识库 工商知识库 电商知识库 计算机知识库 知识图谱富含实体、概念、 属性、关系等信息,使得机 器理解与解释成为可能 网络运维知识库 一带一路知识库 各类领域知识图谱 16
- 17.NoKG (Not only KG): 从“小”知识到“大” 知识 • 传统知识工程,专家构建,代价高昂,规模有限;知识边 界易于突破,难以适应大数据时代开放应用到规模化需求 • 大规模开放应用需要“大”知识(大规模知识库) Ontology,Frame Logic rules Bayesian network Big Knowledge Decision tree Small knowledge+ big data= big knowledge 17
- 18.知识图谱使能(Enable)机器语言认知 • Language understanding of machines needs knowledge bases • Large Scale • Semantically Rich • Friendly Structure • High Quality • Traditional knowledge representations can not satisfy these requirements, but KG can • Ontology • Semantic Network/Frame • Texts NLP+KB= NLU, NLP=Natural Language Processing, NLU=Natural Language Understanding
- 19.知识图谱使能可解释人工智能 鲨鱼为什么那么可怕? 因为它们是食肉动物 概念 鸟儿为何能够飞翔? 因为它们有翅膀 属性 鹿晗关晓彤最近为何刷屏? 因为关晓彤是鹿晗女朋友 解释取决于人类认知的基本框架; 概念、属性、关系是认知的基石 关系 “Concepts are the glue that holds our mental world together” --Gregory Murphy 19
- 20.知识将显著增强机器学习能力 传统机器智能 数据 机器学习 模型 基于知识的机器智能 结果 数据 机器学习 知识 模型 传统专家系统 数据 专家系统 知识库 知识 知识增强的 结果 机器学习 知识 结果 • 降低机器学习模型的大样本依赖,提高学习的经济性 知识 • 提高机器学习模型对于先验知识的利用效率 • 增强机器学习模型与先验知识的一致性 ML+KB= ML2 20
- 21.知识图谱有着广泛应用场景 搜索 推荐 问答 解释 决策 21
- 22.智慧搜索 • 精准搜索意图理解 • 精准分类、语义理解、个性化 Search • 复杂多元对象搜索 • 表格、文本、图片、视频 • 文案、素材、代码、专家 • 多粒度搜索 • 篇章级、段落级、语句级 • 跨媒体搜索 • 不同媒体数据联合完成搜索任务 Search keywords 推荐 一切皆可搜索,搜索必达 22
- 23.智能推荐 • 场景化推荐 • • • • 任务型推荐 冷启动环境下的推荐 跨领域推荐 知识型推荐 跨领域推荐,比如给微博 用户推荐Taobao商品,存 在巨大的Vocabulary Gap 电商领域的 场景化推荐 精准感知任务与场景,想用户之未想 从基于行为的推荐发展到行为与语义融合的智能推荐 23
- 24.智能问答 Google Now Apple Siri Amazon Alexa Question Answering (QA) systems in academics KW Xiao Cui industries and 人机交互方式将更加自然,对话式交互取代关键词搜索成为主流交互方式 一切皆可问答: 图片问答、新闻问答、百科问答 24
- 25.智能解释 • • • • 事实解释 关系解释 过程解释 结果解释 解释机器学习过程 解释事实 解释是智能的重要体现之一,将是人 们对于智能系统的普遍期望 可解释是智能系统决策结果被采信的 前提 25
- 26.决策分析 Why baoqiang select Qizhun Zhang as his lawyer? Why A invests B? 隐式关系发现、深层关系推理将成为智能的主要体现之一 26
- 27.BigKE仍然存在巨大挑战 知识表示 知识获取 知识应用 •知识图谱只能表达简单关联事 实,对于时空语义、跨媒体语 义支撑力度不够 •领域样本缺失现象严重,手工 构建代价高昂;稀疏样本下的 高质量自动化构建缺乏有效手 段 •领域知识图谱在行业的深入应 用中仍缺乏有效手段,特别是 推荐、推理与解释。 如何增强知识图谱的 语义表达能力? 如何实现稀疏样本下 的图谱自动构建? 如何深化基于领域知识 图谱智能应用? 27
- 28.BigKE为知识管理带来全新机遇,BigKE有望解决 传统知识管理中的若干痛点问题,知识管理将进 入全新阶段。 28
- 29.提升知识获取的自动化程度 • • • • 自动标签 自动归类 自动关联 全流程自动化知识获取基本可行 知识工场实验室领域知识库构建体系70%的知识图谱构建工作能够实现 自动化,传统知识工程中的知识获取瓶颈正在逐步被解决 知识工场实验室研发的基于知识问答的验证码可以 有望实现大规模知识验证 KW研发的全天候无 人值守互联网知识 抽取与更新系统 每天更新 1.6K实体 2.2W关系 29
- 30.全面提升知识编辑效率-辞书出版 • 传统辞书编撰工作可以被代替吗? • 词条自动化链接 • 词条编撰辅助 • 词条编撰等工作效率可以被显著提高 自动词条 定义 Ste p 1 : Ste p 2 : 固有属性挖掘 词条文本生成 鸟类: “有羽毛( feathered) 、 有翅膀(wi ged)、 双足行走 (bi eda )、 温血(war -b ded)、 卵生(egg- ayi g)、 有脊椎 ( vertebrate) 的动物(ANIM AL)” [Multicellular, Eukaryotic, Kingdom Animalia] ANIMAL [feathered, winged, bipedal, warm-blooded, egg-laying, vertebrate] isA BIRD isA isA FISH isA ROBIN OWL [red-breast] [Order Strigiform] isA SHARK 词条定义的自动生成 词条之间的自动化链接,90%+以上准确 率,正在某大型辞书出版社试点
- 31.革新出版阅读形式-图书出版 • • 碎片化的时代如何实现深度阅读? 《红楼梦》深度阅读包 • 基于知识图谱的深度阅读 深度阅读关键技术已经成熟,有可能对传统阅读形 成颠覆 深度阅读的目标 《红楼梦》人物关系图谱
- 32.全面提升科技情报服务内涵-图书情报 • 建设学科图谱,提升科技情报服务内涵 • Eg,猎头行业:寻找从事深度学习的博士生 • 大规模、自动化、高质量学科图谱建设基本可行 • 叙词表建设基本上可以交给机器了 从NIPS论文自动抽取的学科图谱片段 词汇挖掘 实验结果:从NIPS论文数据集中自动 化抽取出候选主题词个数30W+主题 词,100W+词汇关系,95%以上准确 率。 关系挖掘
- 33.实现细粒度知识表示与获取 • 知识碎片化 • 突破传统基于文档的粗放式知识管理,实现精细化知识管理 • 适配移动终端,实现随时随地知识获取,降低知识获取门槛 Triples 刑法第五节 标题 死刑 刑法第四十八条 所属 第五节 刑法第四十九条 内容 犯罪的时候… 刑法第五节 内容 刑法第四十八条 … 刑法第五节 内容 刑法第五十一条 Rules IF 年龄<18周岁 THEN 不适用死刑 IF 死刑缓期执行 & Duration>2年 & 无故意犯罪 THEN 减 为无期徒刑 知识工场实验室为某法院研发的判案辅助系统中将各类法律文案中的知识碎片化,形成了三元组、产生式规则等多种粒度的 知识表示,使得后续知识应用成为可能 33
- 34.提升知识访问的敏捷性 • 语义搜索:搜得到、搜得准 • 问答式知识获取:更自然的知识获取方式 • 知识问答技术日趋成熟,实用化关键技术 已经取得突破 知识工场实验室研发的实体理解服务使得机器可以理解文本中的实体,使 得实体搜索、语义搜索成为可能,通用领域90%+准确率和召回率 知识工场实验室研发的知识问答系统,能够实现精准语义理 解,复杂问题理解,具有小样本学习、先验知识敏感等优点 ,在通用知识问答达到80%准确率;在特定领域可以达到99% 左右水平 34
- 35.促进知识传播与分享 • 知识画像 • 精准传播 • 智能推荐 知识工场提出的一系列基 于知识图谱的用户标签画 像技术,可以显著解决标 签画像不全、不准的问题 • 主动传播 利用知识图谱增 强用户、知识点 的表示与描述, 实现精准推荐 利用概念分类体系,为某世界500强IT企业实现面向程序员的技能画像 35
- 36.提升知识的可视化效果 • 从时间、空间、语义等视角,对知 识进行全方位展示,实现友好的知 识浏览、导航Curiosity:知识图谱探索式系统 知识工场研发的WiiCluster系统可以按照知识分类结构浏览、 导航知识体系 Kezun Zhang, Yanghua Xiao*, Hanghang Tong, Haixun Wang, Wei Wang,WiiCluster:a Platform for Wikipedia Infobox Generation, (CIKM 2014Timeline:大规模事件抽取和探索系统 36
- 37.Takeout Notes • 以知识图谱为代表性进展的大数据知识工程方兴未艾 • 大数据知识工程将显著提升机器的认知智能水平 • 知识管理在BigKE的推动下面临全新机遇 • • • • • • • • 全流程自动化知识获取基本可行 词条编撰效率已经得到显著提升 基于知识图谱的深度阅读有可能颠覆传统阅读与出版形式 传统图书情报领域的叙词表建设可以交给机器完成 知识管理将在知识图谱技术支撑下从粗放走向精细 知识问答日趋成熟,问答将成为知识获取的主要形式 基于知识图谱的知识技能画像已经在使用 时间、空间、语义等多维度知识展示与交互将使知识管理 形式日趋活泼 More information can be found Kw.fudan.edu.cn
- 38.谢谢! 38