ATT2017 Knowledge

2020-03-01 367浏览

  • 1.第十二届 中国中文 信息学 会暑期 学校 暨中国中文信息学会《前沿技术讲习班》 深度学习与知识获取 刘康 中国科学院自动化研究所 模式识别国家重点实验室 7月18日
  • 2.深度自然语言理解需要知识图谱的支撑 知识激活 与关联 知识推 理 知识系统 语义单 元识别
  • 3.深度自然语言理解需要知识图谱的支撑 2011年4月11日17点16分,日本东北部的福岛和茨城地区发生里氏7.0级强 烈地震(震中北纬36.9度、东经140.7度,即福岛西南30公里左右的地方, 震源深度10公里,属于浅层地震)。当局已经发布海啸预警。震后约30分 钟后在日本海地区发生巨型海啸,同时造成福岛核电站出现核泄漏。震后 第十天,国际原子能机构对于日本政府反应迟钝进行了谴责。 话题: 日本地 震 福岛核电 站 事件: 核泄漏事件:日本核泄 漏 时间:震后两天 地区:福岛核电站 影响范围:30平方公里 相关事件:切尔诺贝利 事件: 地震事件:日本福岛地 震 震级:7.0级 地区:日本福岛和茨城 震中:北纬36.9度,东 经140 .7度 震源深度:10km 性质:浅层地震 浅层地震 福岛 观点: 国际原子 能机构 持有者:国际原子能机 构 对象:日本政府 原因:福岛核泄漏 倾向性:谴责 事件: 海啸事件:日本海啸 时间:震后30分钟 地区:日本海 性质:巨型海啸 海啸
  • 4.知识图谱包含哪些内容 Root 实体三元组: (Ent1, Relation, Ent2) Subclass Concept InstanceOf InstanceOf …… InstanceOf Instance Ontology Concept Subclass Subclass Concept Instance …… Concept …… Concept InstanceOf Instance Attribute Relation Attribute Relation InstanceOf Instance
  • 5.知识图谱基本概念 • 知识库是一个有向图 • • • • 多关系数据(multi-relational data) 节点:实体/概念 边:关系/属性 关系事实 = (head, relation, tail) • head:头部实体 • relation:关系/属性 • tail:尾部实体 (姚明,born in,上海) head relation tail
  • 6.符号表示 child 𝐴, 𝐵 ∧ child 𝐴, 𝐶 ⇒ spouse 𝐵, 𝐶 含有 𝐴, 𝐵 ∧ 治疗 𝐵, 𝐶 ⇒ 预防 𝐴, 𝐶
  • 7.分布式表示
  • 8.知识图谱历史 Wikipedia Cyc WordNet 1985 1990 知网 高质量数据源 500万概念 多语言 富含丰富语义结构 的文档: Infobox,table, list,category… 2005-2010 来自于刘知远、韩先培CCL2016 Tutorial
  • 9.Knowledge Graph
  • 10.已有的知识图谱 • 语言知识图谱 • WordNet:155, 327个单词,同义词集117,597个,同义词集之间由22种关系连接 • 事实性知识图谱 • OpenCyc: 23.9万个实体,1.5万个关系属性,209.3万个事实三元组 • Freebase:4000多万实体,上万个属性关系,24多亿个事实三元组 • DBpedia:400多万实体,48,293种属性关系,10亿个事实三元组 • YAGO2 :980万实体,超过100个属性关系, 1亿多个事实三元组 • 百度百科:词条数1000万个 • 互动百科:800万词条,5万个分类,68亿文字
  • 11.已有的知识图谱 • 领域知识图谱 • Kinships:描述人物之间的亲属关系,104个实体,26种关系, 10,800个三元组 • UMLS:医学领域,描述医学概念之间的联系,135个实体,49种关系,6,800个三元组。 • Cora:2,497个实体,7种关系,39,255个三元组 • 机器自动构建的知识图谱 • NELL: 519万实体,306种关系, 5亿候选三元组 • KnowledgeVault:4500万实体,4469种关系,2.7亿三元组
  • 12.Knowledge Graph 涉及的领域 Semantic Web Data Base NLP
  • 13.问答
  • 14.搜索 2017/8/19 14
  • 15.推理
  • 16.构建知识图谱的任务 • 知识体系构建 • Ontology自动生成(概念关系) • 异构Ontology关联 • 知识获取 • 实体识别 • 实体扩展 • 实体分类(链接、消歧) • 实体关系抽取(属性抽取) • 事件知识获取 • 知识推理 •… • 知识存储 • 知识查询
  • 17.目录 •Part1:• 实体关系获取 • 从非结构化文本中获取知识 • 基于深度学习的实体关系抽取 • 基于弱监督(远距离监督)学习的实体关系抽取 • 从已有知识图谱中获取知识 • 基于表示学习的知识推理 •Part2:• 事件知识获取 • 基于深度学习的事件识别及事件属性抽取 • 面向开放域的事件知识获取
  • 18.目录 •Part1:• 实体关系获取 • 从非结构化文本中获取知识 • 基于深度学习的实体关系抽取 • 基于弱监督(远距离监督)学习的实体关系抽取 • 从已有知识图谱中获取知识 • 基于表示学习的知识推理 •Part2:• 事件知识获取 • 基于深度学习的事件识别及事件属性抽取 • 面向开放域的事件知识获取
  • 19.文本数据形态(结构化、半结构化) • 结构化与半结构化数据(例如网络百科的Infobox ) • 置信度高 • 规模小 结构化数据 半结构化数据
  • 20.百度百科中的数据形态(非结构化) • 纯文本 • 置信度低 • 复杂多样 • 规模大
  • 21.实体关系抽取的目标 • 从已有文本数据中抽取关系信息(实体属性),形成结构化的数据资源 (姚明,国籍,中国) 实体1 关系名(属性名) 实体2
  • 22.实体关系抽取(Sentence Level) • 任务:判别句子中的实体之间的语义关系 The [haft]e1 of the [axe]e2 is made of yew wood. Component-Whole(e1,e2) The [fire]e1 inside WTC was caused by exploding [fuel]e2. Cause-Effect(e1,e2)
  • 23.语义关系抽取(Corpus-Level) • 给定两个实体,判别两个实体的关系 Evidence Steve Jobs Founder? Apple Steve Jobs was the co-founder and CEO of Apple and formerly Pixar. Steve Jobs passed away the day before Apple unveiled iPhone 4S. …… • At-least-one 假设 • If two entities participate in a relation, at least one sentence that mentions these two entities might express that relation.
  • 24.分类问题 • Relation Classification r1 …. “Steve Jobs was the co-founder and CEO of Apple and formerly Pixar.” Classification Model founders …. rn Feature Representation Labeled Training Data
  • 25.Relation Classification • 传统方法将其看做是分类任务,核心是如何表示实体间表征语义关系的文本特征 • 特征提取需要NLP预处理+人工设计的特征 been the chairman of its board … • • Words: chairmanm11, ofb1, itsb2, boardm21 Entity Type: PERSONm1 , ORGANIZATIONm2 Parse Tree: PERSON-NP-PP-ORGANIZATION KernelFeature:问题1:对于缺少NLP处理工具和资源的语言,无法提取文本特征 问题2:NLP处理工具引入的“错误累积”
  • 26.利用RNN对于句子中的语义关系进行建模 • 利用递归神经网络(RNN)学习句子中两个实体之间语义关系的表示 Matrix-Vector Recursive Neural Network for Relation Classification Matrix-Vector Recursive Neural Network Socher, et al. Semantic Compositionality through Recursive Matrix-Vector Spaces, In Proceedings of EMNLP 2012
  • 27.实验结果 • SemEval-2010 Task 8 # of training instance # of test instance # of relationships 8,000 2,717 19 与State-of-the-arts的比较
  • 28.利用CNN对于句子中的语义关系进行建模 • Recursive Neural Network仍旧依赖于句法信息 Zeng, et al. Relation Classification via Convolutional Deep Neural Network, In Proceedings of COLING 2014 (Best Paper Award)
  • 29.Lexical Level Features • 利用词向量(Word Embedding)信息作为Lexical Level Features The [haft]e1 of the [axe]e2 is made of yew wood. 0.5 , 0.2, -0.1,0.1 0.4, 0.3, -.01, 0.10.4 , -0.3, 0.1, 0.4
  • 30.Sentence Level Features • 利用CNN(convolutional neural network)学习 Sentence Level Features Convolution
  • 31.Sentence Level Features • 在句中滑动窗口获得句子的局部特征: Word Feature (WF) and Position Feature (PF) • Word Features:窗口内中心词的上下文信息 …
  • 32.Sentence Level Features • Position Features:句子中每个词相对于给定的两个实体的相对位置 2 -4
  • 33.Sentence Level Features • 合并WF和PF • 卷积并进行Max Pooling • Sentence Level Features
  • 34.Relation Classification Softmax
  • 35.实验结果 • SemEval-2010 Task 8
  • 36.不同特征的影响 结果比较
  • 37.CNN窗口大小以及词向量初始化对于性能的影响 • 改变CNN窗口的大小 • 词向量初始化的影响 Nguyen, et al. RelationClassification:Perspective from Convolutional Neural Networks, In Proceedings of NAACL-HLT 2015
  • 38.CNN窗口的影响 CNN窗口大小、词向量初始化对于性能的影响 与State-of-the-arts的比较
  • 39.损失函数的影响 • CNN(softmax) • Ranking CNN • 𝐿 = log 1 + exp 𝛾 𝑚9 − 𝑠< 𝑥 • • • • • >? + log 1 + exp 𝛾 𝑚 @ + 𝑠< 𝑥 AB 𝑦 9 表示正确的关系类别 𝑐 @ 表示随机产生的错误类别 𝑚9, 𝑚@ :margins 𝛾 :scaling factor 𝑠< 𝑥 > ? 和𝑠< 𝑥 AB 分别表示文本和真实标记和错误类别之间的相似度得分 Santos, et al. Classifying Relations by Ranking with Convolutional Neural Networks, In Proceedings of ACL 2015
  • 40.实验结果 Ranking CNN的效果 与State-of-the-arts的比较
  • 41.基于Shortest Dependency Path的CNN网络 • 基于句法依存树,生成shortest dependency path Xu, et al. Semantic Relation Classification via Convolutional Neural Networks with Simple Negative Sampling, In Proceedings of EMNLP 2015
  • 42.基于Shortest Dependency Path的CNN网络 • 目标函数: − ∑P ∑M INO 𝑡I •𝐽 𝜃 = 𝑥 log 𝑑I 𝑥 + 𝜆 𝜃 • 𝑡 𝑥 is the target distribution vector • 𝑑(𝑥) is the predict distribution vector • 𝐾 is the number of relations • Negativesampling:• Subject和Object的标记非常重要 • (Apple, Jobs)和(Jobs, Apple)的语义关系是不同的 • 从object到subject的shortest dependency path L
  • 43.实验结果 不同的Negative Sampling的比较 与State-of-the-arts的比较
  • 44.利用词向量对于句子的语义关系进行建模 • Feature-rich Compositional Embedding Model (FCM) • 对于每一个实例 𝑦, 𝑥 ,𝑥 = 𝑀O , 𝑀L , 𝑆, 𝐴 , 𝑦 是关系类别 • 𝑀O, 𝑀L 是两个实体的提及,𝐴 是𝑆的相关标注, 例如NE,𝑆 = {𝑤O, 𝑤L, … , 𝑤Z } Gormley, et al. Improved Relation Extraction with Feature-Rich Compositional Embedding Models, In Proceedings of EMNLP 2015
  • 45.算法流程 • For each word in a sentence, there are a hand-crafted feature vector 𝑓]^ and a dense embedding vector 𝑒]^ • Substructure embedding ℎ]^ = 𝑓]^ ⊗ 𝑒]^ , ⊗ is outer product • Annotated sentenceembedding:𝑒P = ∑ZbNO 𝑓]^ ⊗ 𝑒]^ • Given instance 𝑥 = 𝑀O, 𝑀L ,𝑆, 𝐴 , the predict probability of the relationy:𝑃 𝑦 𝑥; 𝑇, 𝑒 = fgh ∑o ^pq ij ⊙ lm ⊗nm ∑ jr∈t fgh ∑o ^pq ijr ⊙ ^ ^ lm ⊗nm ^ ^ • ⊙ is matrix dot product • 𝑇 = 𝑇> is a list of weight matrix of each label 𝑦 >∈u • Hybrid model O • 𝑝wxy9z{ zbZ 𝑦 𝑥 = } 𝑝wxy 𝑦 𝑥 𝑝z{ zbZ 𝑦 𝑥 • ObjectiveFunction:• 𝑙 𝐷; 𝑇, 𝑒 = ∑ P,> ∈€ log 𝑃 𝑦 𝑥; 𝑇, 𝑒
  • 46.实验结果 与State-of-the-arts的比较
  • 47.利用RNN进行语义关系表示 • 双向LSTM (Bi-LSTM) • ℎO, ℎL , … , ℎ i = 𝐿𝑆𝑇𝑀(𝑥O, … , 𝑥 i ) • ℎO, ℎL , … , ℎ i = 𝐿𝑆𝑇𝑀(𝑥O, … , 𝑥 i ) • ℎb = ℎL ⊗ ℎL ⊗ is element-wise sum • Attention • • • • • 𝐻 = ℎO ,ℎL , … , ℎ i 𝑀 = tanh 𝐻 𝛼 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝜔i 𝑀 𝑟 = 𝐻𝛼 i ℎ∗ = tanh(𝑟) • 分类 • 𝑝 𝑦 𝑆 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑊 Œ ℎ∗ + 𝑏 Œ Zhou, et al. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification, In Proceedings of ACL 2016
  • 48.实验结果 与State-of-the-arts的比较
  • 49.在句法树上利用LSTM对于语义关系进行建模 • 在依存句法树上抽取两个实体之间的shortest dependency path (SDP) • 在SDP上获取四个方面的信息:word embeddings, POS embeddings, GR embeddings, WordNet embeddings • 基于每个方面的信息,利用LSTM从两个方向在句法树上对于句子进行建模 • 在隠层上进行max pooling • 输出层:softmax Yan, et al. Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths, In Proceedings of EMNLP 2015
  • 50.实验结果 不同方面信息的比较 与State-of-the-arts的比较
  • 51.在句法树上利用RNN和CNN对于语义关系进行建模 • 基于句法树,得到Augmented Dependency Path Liu, et al. A Dependency-Based Neural Network for Relation Classification, In Proceedings of ACL 2015
  • 52.在句法树上利用RNN和CNN对于语义关系进行建模 • 基于得到的Augmented Dependency Path,利用RNN对于augmented part进行建模 • 利用CNN对于Short Dependency Path进行建模
  • 53.实验结果 考虑句子的不同部分对于结果的影响 与State-of-the-arts的比较
  • 54.对于实体和关系联合抽取 • 传统关系抽取都假定两个实体是预先给定的 • Pipeline(实体识别à关系抽取):误差传递 • Joint Model:人工设计联合特征 The [United States]E-loc President [Trump]E-per will visit the [Apple Inc]E-Org {United States, Country-President, Trump}
  • 55.对于实体和关系联合抽取 • 传统关系抽取都假定两个实体是预先给定的 others begin end single Country_president First entity inside Second entity Number oftags:2 ∗ 4 ∗ 𝑅 + 1 𝑅 is the number of relation, 4 means begin, end, single, inside Zheng, et al. Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme, In Proceedings of ACL 2015 (outstanding paper)
  • 56.Encoder-Decoder Model
  • 57.学习目标函数 Length of sentence 𝑥‘ Size of training set The label of word 𝑡 in 𝑥‘ Probabilities of tags Bias weight, the larger it is, the greater influence of relational tags on the model sentence
  • 58.实验结果 • Dataset • NYTdataset:Training dataset 353K triplets, testing dataset 3880 triplets, 24 relations. 与State-of-the-arts的比较
  • 59.目录 •Part1:• 实体关系获取 • 从非结构化文本中获取知识 • 基于深度学习的实体关系抽取 • 基于弱监督(远距离监督)学习的实体关系抽取 • 从已有知识图谱中获取知识 • 基于表示学习的知识推理 •Part2:• 事件知识获取 • 基于深度学习的事件识别及事件属性抽取 • 面向开放域的事件知识获取
  • 60.语义关系抽取(Corpus-Level) • 给定两个实体,判别两个实体的关系 Evidence Steve Jobs Found? Apple Steve Jobs was the co-founder and CEO of Apple and formerly Pixar. Steve Jobs passed away the day before Apple unveiled iPhone 4S. …… • At-least-one 假设 • If two entities participate in a relation, at least one sentence that mentions these two entities might express that relation.
  • 61.Distant Supervision for Relation Extraction • Distantsupervision:利用两个知识图谱中的两个实体,在句子中进行回标,标注得 到句子可以认为是表征这一语义关系的训练样本 • 问题:训练数据噪声 • 解决方案:Multi-instance learning (Hoffmann et al. 2011, Surdeanu et al. 2011) Sentence Knowledge base Relation Entity 1 Entity 2 Founder Steve Jobs Apple … … … Steve Jobs was the co-founder and CEO of Apple and formerly Pixar. Steve Jobs passed away the day before Apple unveiled iPhone 4S. …
  • 62.Multi-instance Learning • 假设有T个 bags {!M1 ,M2 ,!MT } q 1 1 q M = {m ,m ,!m } • 第i个bag中包含有! i 个样本 ! i i i i • 目标函数为: i 其中j 为:
  • 63.Piece-wise CNN Model Zeng, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks, In Proceedings of EMNLP 2015
  • 64.词向量表示 • Word Embeddings ... hired Kojo Annan , the son of Kofi Annan , in word position • Position Embeddings
  • 65.Convolution • The convolution operation involves taking the dot product of w with each w-gram in the sequence q • Under the assumption that we use n filters
  • 66.Piecewise Max Pooling • 两个实体把句子分成两部分,在每部分内分别进行Maximum-Pooling
  • 67.实验结果 • Held-out Evaluation • Manual Evaluation
  • 68.Piece-wise Max-pooling and MIL
  • 69.在训练数据选择过程中利用Selective Attention信息 • 所有回标的样本对于判别两个实体之间的关系都有贡献 • 句子集合:S = 𝑥O, 𝑥L, … , 𝑥Z • 利用CNN学习每个句子的表示 • 𝑋b = 𝐶𝑁𝑁(𝑥b ) • 按照权重得到所有句子的语义表示𝑠 = ∑b 𝛼b 𝑋b fgh { • 利用Softmax分类器学习𝑝 𝑟 𝑆, 𝜃 = ∑o• fgh• { • 𝑜 = 𝑀𝑠 + 𝑑 • 𝑛 ˜ 关系数据 –pq – Lin, et al. Neural Relation Extraction with Selective Attention over Instances, In Proceedings of ACL 2016 Ji, et al. Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Descriptions, In Proceedings of AAAI 2016
  • 70.如何确定每个样本的权重 • Selective Attention • 𝛼b = fgh n^ ∑– fgh n– • 𝑒b = 𝑥b 𝐴𝑟 • 𝐴 is a weighted diagonal matrix • 𝑟 is the query vector associated with relation r • Objective function › 𝐽 𝜃 = ™ log 𝑝(𝑟b 𝑆b , 𝜃) bNO Ji, et al. AAAI 2017
  • 71.实验结果 Held-out Evaluation 与feature-based方法相比较
  • 72.利用Dynamic Transition Matrix对于噪声进行建模 • Distant Supervision所产生的噪声是有规律且可学习的 Luo, et al., Learning withNoise:Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix, In Proceedings of ACL 2017
  • 73.利用Transition Model the NoiseMatrix对于噪声进行建模 True relation is i, erroneously labeled as j Transition Matrix 𝒑(𝒋 𝒊) 𝒊, 𝒋 = 𝟏, 𝟐, … , 𝒌 𝑻𝒊𝒋 = 𝒑(𝒋 𝒊) Slides来自于Bingfeng Luo
  • 74.对于噪声进行建模 Model the Noise • Transition Matrix • 𝑇b‘ is 𝑝(𝑗 𝑖), true label is i, erroneously labeled as j × Predicted Relation Distribution Base RE Model = Transition Matrix Observed Relation Distribution Match the Noisy Label Slides来自于Bingfeng Luo
  • 75.对于噪声进行建模 • Sentence Level • Bag Level Z 𝑥𝑛 = 𝑃𝐶𝑁𝑁(𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒) 𝑠‘ = ™ 𝑎b‘ 𝑥b b BI PL NA born-in (BI) 0.6 0.2 0.2 exp 𝑥bi 𝑟‘ 𝑎b‘ = i ∑br exp 𝑥bir 𝑟‘ place-lived (PL) 0.2 0.6 0.2 NA 0.1 0.2 0.7 Donald Trump lives in New York. Slides部分来自于Bingfeng Luo
  • 76.Trace of Transition Matrix • Trace of Transition Matrix • Each row of the transition matrix sums to 1 • No Noise à Identity Transition Matrix à Largest Trace • Imposing the noise expectation by trace regularization Trace of Transition Matrix Slides来自于Bingfeng Luo
  • 77.目标函数 • 课程学习(Curriculum Learning based Training) • 无先验知识 •Initialize:𝛼 = 1, big 𝛽 • 不断减小𝛼和𝛽 • 有先验知识(即那些样本是可靠样本,那些样本是不可靠样本) • 对于可靠样本集:较大的𝛽 • 对于不可靠样本集:较小的𝛽
  • 78.实验结果 • EntityRE dataset (Lin et al. 2016) Precision on Recall = 10%, 20% and 30%att:Attention based methodavg:Average
  • 79.小结 • 以CNN、RNN为代表的深度学习方法在实体关系抽取任务上取得了效果 的显著提升 • 加入结构信息有助于语义关系的学习(基于句法信息的CNN、RNN) • Ranking based loss比softmax based loss更加有效 • 实体识别与关系抽取一体化模型(End2End Model) • 面向开放域环境,如何针对类型关系,自动获取训练数据,并且消除 自动标注带来的造成问题成为目前的研究热点 • Sentence-level vs. Corpus-level • Multi-Instance Learning • At-least-one假设
  • 80.小结 • ACL2016 • • • • • • • Bidirectional Recurrent Convolutional Neural Network for Relation Classification Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification Relation Classification via Multi-Level Attention CNNs Investigating LSTMs for Joint Extraction of Opinion Entities and Relations End-to-End Relation Extraction using LSTMs on Sequences and Tree StructuresJEDI:Joint Entity and Relation Detection using Type Inference Neural Relation Extraction with Selective Attention over Instances • ACL2017 • • • • • • • Neural Relation Extraction with Multi-lingual Attention Learning withNoise:Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix Improved Neural Relation Detection for Knowledge Base Question Answering Going out on alimb:Joint Extraction of Entity Mentions and Relations without Dependency Trees Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme Jointly Extracting Relations with Class Ties via Effective Deep Ranking Self-Crowdsourcing Training for Relation Extraction Entity Mention and Relation Joint Extraction 1. Joint Model 2. End2End 3.Distant Supervision
  • 81.目录 •Part1:• 实体关系获取 • 从非结构化文本中获取知识 • 基于深度学习的实体关系抽取 • 基于弱监督(远距离监督)学习的实体关系抽取 • 从已有知识图谱中获取知识 • 基于表示学习的知识推理 •Part2:• 事件知识获取 • 基于深度学习的事件识别及事件属性抽取 • 面向开放域的事件知识获取
  • 82.从已有知识图谱中推理出知识(知识图谱补全) ) ( (
  • 83.逻辑推理规则学习: 符号的方法 • 通过统计关系路径的共现情况学习霍恩子句表示的推理规则 [Schoenmackers et al, EMNLP 2010] • 识别出代表性的类别和这些类别的实例(实体实例抽取) • 发现类别间关系(关系发现) • 发现推理规则,计算每条推理规则的置信度 (穷举搜索所有满足条件的组合关系) Contains(food, chemical) :- IsMadeFrom(food, ingredient) ∧ Contains(ingredient, chemical); • Markov Logic Network (MLN)
  • 84.基于表示学习的知识图谱补全 = + 姚明 出生地 上海
  • 85.知识图谱表示学习方法分类 张量分解 基于翻译的模型 神经网络模型
  • 86.用张量表示知识图谱 • 知识图谱中三元组的结构是(头部实体ℎ,关系𝑟,尾部实体𝑡),其中𝑟连接头尾实 体。以𝐸O, 𝐸L, ⋯ 𝐸Z 表示知识图谱中的实体,以𝑅O , 𝑅L, ⋯ 𝑅Z表示知识图谱中的关系, 则可以使用一个三维矩阵(张量)表示知识图谱 Nickel et al. (2011). A three-way model for collective learning on multi-relational data. In Proceedings of the 28th international conference on machine learning (ICML-11).
  • 87.张量分解得到实体、关系表示
  • 88.分解的目标函数 • 表示知识图谱的张量记为𝑌« ,其第𝑘个矩阵记为𝑌I ,则有 Y® = AR® A± 𝑘 = 1,2, ⋯ 𝑚 • 其中𝐴 ∈ 𝑅 Zט,𝑌I ∈ 𝑅 Z×Z,𝑅I ∈ 𝑅 ˜×˜. • 这是一个低秩分解,𝑟表示矩阵𝐴的秩。 𝐴的每一行表示一个实体的向量,转置后其每一列表示一个 实体的向量,矩阵𝑌I 是第𝑘种关系的矩阵,表示该种关系在向量空间中与头尾部实体相互作用。
  • 89.分解的目标函数 • 由上述内容可知,A 和 R k 均是待求解的变量。因此目标函数是: min f ( A, R k ) + g ( A, R k ) A ,R k 其中 f ( A, R k ) 是目标函数 g ( A, R k ) 是正则化项: 1⎛ f ( A, R k ) = ⎜ ∑ Yk − AR k AT 2⎝ k 1 ⎛ g ( A, R k ) = λ ⎜ A 2 ⎝ 2 F + ∑ Rk k ⎞ F ⎟ ⎠ 2 ⎞ F ⎟ ⎠ 2
  • 90.分解的目标函数 • 将目标函数写成分量形式 1⎛ f ( A, R k ) = ⎜ ∑ Yk − AR k AT 2⎝ k 2 1 ⎞ T ⇒ f A , R = y − a R a ( ( ∑ k) ijk i k j) F ⎟ 2 i , j ,k ⎠ 2 其中 yijk 是张量中的一个元素,ai 表示 A 的第 i 行,即: [a 1 ,a 2 ,......,a n ] = A
  • 91.模型的解释 aTA1R partya partyX ≈ aTLyndon R partya partyX ⇒ aTA1 ≈ aTLyndon aTA1R vicePresidentOf a Bill ≈ aTLyndon R vicePresidentOf a John ⇒ a Bill ≈ a John
  • 92.分解的计算方法 • 更新 A ⎡ ⎤⎡ ⎤ T T A ← ⎢ ∑ Yk AR k + Yk AR k ⎥ ⎢ ∑ B k + Ck + λ I ⎥ ⎣ k =1 ⎦ ⎣ k =1 ⎦ B k = R k AT AR Tk , Ck = R Tk AT AR k m • 更新 R k m -1 R k ← ( Z Z + λ I ) Z vec ( Yk ) T −1 Z =A ⊗ A ˆ • 迭代直到 f ( A, R k ) / Y 2 F ≤ ε 或者超过最大迭代次数。 ε 是设定的一个很小的数。
  • 93.基于翻译的模型:TransE • 用向量表示实体和关系。关系事实 = (head, relation, tail) 简写为(ℎ, 𝑟, 𝑡),其对应 的向量表示为(𝐡, 𝐫, 𝐭) 。 中国+首都=北京 法国+首都=巴黎 俄罗斯+首都=莫斯科 Bordes, et al. Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems, 2013 (pp. 2787-2795).
  • 94.翻译模型的学习 • 势能函数 • 对于真实事实的三元组(ℎ, 𝑟, 𝑡) ,要求ℎ + 𝑟 = 𝑡;而对于错误的三元组则不满足该条件 f ( h, r , t ) = h + r − t 𝑓 姚明 出生于 北京 > 2 𝑓 姚明 出生于 上海
  • 95.翻译模型的学习 • 目标函数: ∑ ∑ (h,r ,t )∈Δ ( h′ ,r ,t ′ )∈Δ ′ [γ + f (h,r ,t )− f (h′ ,r ,t ′ )]+ 其中 [x]+ = max(0,x) ,Δ 表示知识库中三元组的集合, Δ ′表示三元组的负样本集合。 ( h, r, t ) 约束条件: h ≤ 1, r ≤ 1, t ≤ 1
  • 96.生成负样本的方法 • 负样本生成策略 1. 在实体集合中随机选择实体 h′ ( t ′ ) ,替换 ( h, r , t )中的 h ( t ) ,生成负样本 ( h′, r , t ) 或者 ( h, r , t ′ )。 2. 在选择替换实体的时候,不是完全随机在实体集合中选择,而是在适合关系 r 关系的实体集合 中随机选取。例如: 对进行尾部实体替换时,只是用其他的地名替换“上海”,如“成都”,而不会使用人名进行 替换。 姚明 出生于 上海
  • 97.知识图谱数据问题 • 知识图谱中关系有“1-1” 、“1-N” 、“N-1”、“N-N”多种类型
  • 98.解决方案: TransR • TranH、TransR、TransD TransH TransR TransD Wang, et al. Knowledge Graph Embedding by Translating on Hyperplanes. In Proceedings of AAAI 2014 Lin, et al. Learning Entity and Relation Embeddings for Knowledge Graph Completion. In Proceedings of AAAI 2015 Ji, et al. Knowledge graph embedding via dynamic mapping matrix. In Proceedings of ACL 2015
  • 99.知识图谱数据问题 • 实体和关系通常会出现在多个不同的三元组中,类似于一词多义,实体和关系在不同的三元组中常 呈现出不同的含义。
  • 100.利用协方差描述关系的不确定性 • 多维高斯分布表示符号 • 均值向量表示该符号的位置(含义) • 协方差矩阵表示该符号的多样性(不确定性) • 包含事实越多,该实体语义越明确 • 关系越复杂,该关系确定性越弱 He, et al. Learning to represent knowledge graphs with gaussian embedding. In Proceedings of CIKM 2015
  • 101.KG2E Pe = H − T ~ N (uh − ut , ∑h + ∑t ) 势函数 目标函数 Pr = R ~ N (ur , ∑r )
  • 102.神经网络方法 • 神经网络模型 • Neural Tensor Network • Semantic Matching Energy Network 神经网络模型的核心思想:使用神经网络为三元组定义势能函数,在训练目标中,要求正确的三元 组具有较高的能量,错误的三元组具有较低的能量。通过惩罚错误的三元组完成学习过程,使得正 确的三元组和错误三元组的能量有一个明显的分界线。
  • 103.Neural Tensor Network • 关系表示 归一化参数 张量 矩阵 偏置 g(h,r,t) Socher, et al. Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems 2013
  • 104.Neural Tensor Network • 势能函数表示 ⎛ T [1:k ] ⎞ ⎡h ⎤ g (h, r , t ) = u f ⎜ h Wr t + Vr ⎢ ⎥ + b r ⎟ ⎣t ⎦ ⎝ ⎠ T r
  • 105.Neural Tensor Network • 实体表示 BankOfChina = (Bank + Of + China)/ 3
  • 106.Neural Tensor Network • 训练目标和方法 N ( C ( ) + g (T ) ) + λ Ω J ( Ω ) = ∑∑ max 0,1 − g T i =1 c =1 • 训练集中正样本: T ( (i ) ( = h(i ) , r (i ) , t (i ) () () () • 负样本: Tc = h , r , tc i i i ) (i ) (i ) c ) ,随机选择实体替换头部或者尾部实体 • 参数:Ω 表示所有待学习的参数,包括实体向量,关系的张量,矩阵等。 • 优化方法:L-BFGS 2 2
  • 107.Semantic Matching Energy Network Bordes, et al. A semantic matching energy function for learning with multi-relational data. Machine Learning, 94(2), 233-259, 2014.
  • 108.Semantic Matching Energy Network Linear Form Bi-linear Form
  • 109.评测任务与数据集 • 链接预测 • 任务描述 挖去三元组中的实体或者关系,然后在实体(关系)集中选择实体(关系)将其补全: (姚明 出生于 上海) (姚明 出生于 ?)成都 北京 上海 ………. (姚明 出生于 上海) (姚明 ?上海)飞往 居住地 出生于 ………. • 评测标准 计算正确实体的排名,排名越靠前,模型越优。计算测试集所有三元组头尾部实体的平均排名 mean rank和排名在 前10的比例 @Hits10。 • 数据集 常用的数据集有 WN18, FB15k。 • WN18: 训练集141,442三元组,验证集5,000三元组,测试集5,000三元组,包含实体 40,943个,关系18种。 • FB15k:训练集483,142三元组,验证集50,000三元组,测试集50,000三元组。包含实体 14,951个,关系1,345种。
  • 110.链接预测(知识库补全)
  • 111.小结 • 当前知识图谱表示学习的三大类方法: • 基于重构的张量分解方法:通过矩阵分解获得关系、实体的表示 采用不同的方法计算真实三元组之 • 基于翻译模型的方法 间的语义匹配得分,训练目标使得 真实三元组的得分高,错误的三元 • 基于神经网络的方法 组得分低
  • 112.目录 •Part1:• 实体关系获取 • 从非结构化文本中获取知识 • 基于深度学习的实体关系抽取 • 基于弱监督(远距离监督)学习的实体关系抽取 • 从已有知识图谱中获取知识 • 基于表示学习的知识推理 •Part2:• 事件知识获取 • 基于深度学习的事件识别及事件属性抽取 • 面向开放域的事件知识获取
  • 113.StatisticKnowledge:Entity-Centric Knowledge Graph (Barack Obama, Spouse, Michelle Obama) Head Entity Relation Tail Entity
  • 114.DynamicKnowledge:Event-Centric Knowledge Graph 出生事件 • • • 出生日期 出生地点 姓名 结婚事件 • • • • 地震事件 • • • • • 震中 震级 震源 伤亡人数 财产损失 结婚日期 结婚地点 男方 女方 暴恐事件 • • • • • 地点 时间 伤亡人数 被攻击方 实施方 事件框架(脚本) 离职事件 • • • 离职日期 公司 职位 收购事件 • • • • 收购金额 收购方 被收购方 时间
  • 115.事件相关应用 • Deep Question Answering
  • 116.事件相关应用 • Event Storyline Generation
  • 117.事件相关应用 • Stock Price Prediction
  • 118.从纯文本中抽取事件信息 Barry Diller on Wednesday quit as chief of Vivendi Universal Entertainment. Trigger Arguments Quit (a “Personnel/End-Position” event) Role = Person Barry Diller Role = Organization Vivendi Universal Entertainment Role = Position Chief Role = Time-within Wednesday (2003-03-04)
  • 119.从纯文本中抽取事件信息 Organization Barry Diller on Wednesday quit as chief of Vivendi Universal Entertainment. Trigger Words Trigger Arguments Arguments Words Quit (a “Personnel/End-Position” event) Role = Person Barry Diller Role = Organization Vivendi Universal Entertainment Role = Position Chief Role = Time-within Wednesday (2003-03-04)
  • 120.从纯文本中抽取事件信息 Person Organization Time Position Barry Diller on Wednesday quit as chief of Vivendi Universal Entertainment. Trigger Words Trigger Arguments Arguments Words Quit (a “Personnel/End-Position” event) Role = Person Barry Diller Role = Organization Vivendi Universal Entertainment Role = Position Chief Role = Time-within Wednesday (2003-03-04)
  • 121.事件抽取任务定义 • Definition (ACE) • 一个事件可以看成是多个关系的语义组合 • Event trigger, Event Type, Event argument, Argument role Barry Diller on Wednesday quit as chief of Vivendi Universal Entertainment. Trigger Arguments Quit (a “Personnel/End-Position” event) Role = Person Barry Diller Role = Organization Vivendi Universal Entertainment 3/ 27 Role = Position Chief Role = Time-within Wednesday (2003-03-04) 1. 2. 3. 4. Event Identification (Trigger Words) Event Type Identification Argument Identification Argument Role Identification
  • 122.Event Extraction vs. Relation Extraction •Relation Extraction • Identify the relation between two given entities /business/company/founder Steve Jobs was the co-funder of Apple Inc. entity1 entity2 •Event Extraction • Identify the relation between an event and an entity Person Organization Time Position Barry Diller on Wednesday quit as chief of Vivendi Universal Entertainment. Trigger Words Arguments Words
  • 123.Previous Event Extraction Task MUC Message Understanding Conference TDT ACE(KBP) Topic Detection and Tracking Automatic Content Extraction 组织单位 DARPA DAPRA NIST 时间 1987-1997 1998-2004ACE:2000-2008KBP:2014-2017评测内容 抽取指定的事件,包括参与这些 将文本切割为不同的新闻报道 事件的各个实体、属性和关系。 ,监控其中新事件的报道,并 例如:MUC-2是从海军军事情报 且将同一话题下的分散的报道 中抽取事件填入预定义模板中, 按照某种结构有效组织起来。 共10个槽TDT-3:240个topic 指定的源语言数据中发现特定类型 的事件,并且识别出与事件相关的 信息填入预设的事件模板中。 ACE中共计8大类33个小类的事件
  • 124.ACE事件类型示例 Be-born Marry Divorce Die life transport Transferownership Transfermoney Start-org Merge-org Declare-bankruptcy End-org movement transaction business Event Type conflict … contact personal justice … … …
  • 125.Problems in Event Extraction • 已有方法将其看做是一个分类任务 Feature Representation Training Data
  • 126.传统基于统计学习的方法 • 基于传统特征的方法:将事件抽取看成一个多分类问题,利用传统的 方法提取特征 • 利用句子级信息 • 从句子中提取特征,利用最大熵、朴素贝叶斯和支持向量机等模型去完成事件抽取( Ralph Grishman 2005, Ahn 2006等) • 利用句子信息+背景信息 • 在句子级信息基础上更多地考虑篇章级信息和丰富的背景知识(跨文档信息、跨语言信息、跨文本事件 信息、跨实体信息)(Ji 2008, Ji 2009, Liao 2010, Hong 2011, Liu 2016等) 例如:实体类型信息 1)He left the bathroom 2)He left the Microsoft
  • 127.传统基于统计学习的方法 • 基于结构的方法:将事件抽取看成一个最优结构预测 • 看做依存树结构预测问题:生物事件 (McClosky et al. 2011) • 自定义联合结构的预测问题:触发词和事件元素联合预测(Li et al.2013,Li et al. 2014) 1) In Baghdad, a cameraman died when an American tank fired on the Palestine Hotel. 2) He has fired his air defense chief. Americantank:Instrument (Attack) Air defensechief:Position (End-Position) • 缺点:需要人工设计特征、事件抽取是个pipeline的过程、依赖传统的 NLP工具会造成误差的累积
  • 128.利用CNN进行事件抽取 • 利用CNN网络学习事件特征 Chen, et al. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks, In Proceedings of ACL 2015
  • 129.Lexical-level Features • 类似于关系抽取,在事件抽取(argument identification),argument和 trigger word可以看做是两个给定的item Features Remark L1 Candidate trigger word L2 Candidate argument word L3 Left and right tokens of predicated trigger word L4 Left and right tokens of candidate argument word In Baghdad, a cameraman died when an American tank fired on the Palestine Hotel. 0.1 , 0.3, -.01, 0.4
  • 130.Lexical-level Features • 目标词上下文的词的词向量进行拼接 Features Remark L1 Candidate trigger word L2 Candidate argument word L3 Left and right tokens of predicated trigger word L4 Left and right tokens of candidate argument word In Baghdad, a cameraman died when an American tank fired on the Palestine Hotel. 0.5 , 0.2, -0.1, 0.4 0.1 , -0.3, 0.1, 0.4
  • 131.Lexical-level Features • 所有特征拼接在一起构成Lexical Level Features Features Remark L1 Candidate trigger word L2 Candidate argument word L3 Left and right tokens of predicated trigger word L4 Left and right tokens of candidate argument word In Baghdad, a cameraman died when an American tank fired on the Palestine Hotel. 0.5 , 0.2, -0.1, 0.4 0.1 , -0.3, 0.1, 0.4 [L1,L2,L3,L4]=>Lexical Features
  • 132.Sentence Level Features • 利用dynamic multi-pooling convolutional neural network进行句子级特征 表示
  • 133.Sentence Level Features • 上下文词特征(Context-word features, CWF) • 通过查表得到的词的词向量(Word Embeddings)特征 • 位置特征(Position features, PF) PF => [5; -1]T => {[0.3 0.8 -0.4], [0.1 -0.3 0.7]} T • 实体类型特征(Event-type features, EF) • 对于所有特征进行拼接
  • 134.Convolution Layer • 对于每个featuremap:• 多个滤波器组:
  • 135.Dynamic Multi-Pooling Layer • Dynamic Multi-Pooling Barry Diller on Wednesday quit as chief of Vivendi Universal Entertainment.
  • 136.分类 • 对于lexical features (L) 和sentence level features (P) 进行拼接 • Softmax分类器
  • 137.Experiments • Dataset:ACE 2005 •Testing:40 newswire articles •Development:30 documents •Training:The rest (529) documents 与State-of-the-arts的比较
  • 138.Effectiveness of DMCNN 1/1 means that one sentence only has one trigger or one argument plays a role in one sentence; otherwise, 1/N is used
  • 139.Lexical Features vs. Sentence Features
  • 140.基于深度学习的方法(RNN) • 同时建模trigger分类和argument分类 • 考虑一个句子中多个trigger和argument的情况(利用Matrices) • 利用双向LSTM去完成词表示,每个词表示的基本信息有词向量,实体类别向量和依存关系向量 Nguyen, et al. Joint Event Extraction via Recurrent Neural Networks, In Proceedings of NAACL 2016
  • 141.实验结果 与State-of-the-arts的比较
  • 142.基于深度学习的方法(RNN+CNN) • RNN与CNN进行相结合 CNN Part The whole architecture Feng, et al. A Language-Independent Neural Network for Event Detection, In Proceedings of ACL 2016 142
  • 143.实验结果 与State-of-the-arts的比较 143
  • 144.考虑Attention • Event arguments 对于 Event Detection 任务非常重要 Mohanmad fired Anwar, his former protege, in 1998. Attack or End-Position? • 如果我们已经知道“former protege” 是一个事件属性(Role=Position),那么在事件识 别过程中将会赋予其更高的权重,这样我们就更加确信当前文本表达的是一个 End-Position 事件.
  • 145.传统联合模型在事件识别中难以考虑Argument信息 • 传统联合学习模型(事件识别和事件属性抽取)仍然不可以解决这一问题 • Reason 1: 训练数据的不平衡,使得联合模型更加偏向于argument的抽取任务 • 9800 arguments vs. 5300 triggers • Reason 2: 即使是联合模型,也是先预测出一些trigger words,然后结合arguments取 得联合最优,但是在trigger words预测过程中也没有考虑argument的信息
  • 146.Attentions on Argument Words • The contextual words • The contextual entities Cw 和 Ce 分别是上下文的词或者实体 α 是attention向量 Liu, et al. Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms, in Proceedings of ACL 2017.
  • 147.Pay more Attentions on Argument Words • Event Detector • A three-layer MLP model • Features • the rp of trigger candidate • the rp of contextual words • the rp of contextual entities • Negative log-likelihood loss
  • 148.Attention Supervision • Gold Attention Vectors • 策略1: 只关注argument words • 策略2: 同时关注argument words和它们周围的一些词 • Step 1: 按照策略1得到supervised attention vector • Step 2: creating a new vector α’ with all points initialized with zero • Step 3: for each , we update the newvector:• • Step 4: calculating the final attention vector α* by normalizing α’
  • 149.Regularization in Learning Model • Loss function of attentions • Joint loss function
  • 150.实验 • ACE2005 与State-of-the-arts的比较
  • 151.开放域环境下的训练数据问题 33 event types 599 documents 6,000 labeled sentences English data in ACE 2005
  • 152.利用外部语言学资源扩充训练数据 • FrameNet • 标注了词的Semantic Frame • • • • • • Frame LU (Lexical Unit) FE (Frame Element) Exemplar Relations between Frames 1000 Frame, 10,000 LUs, 150,000 Exemplars Liu, et al, A Probabilistic Soft Logic Based Approach to Exploiting Latent and Global Information in Event Classification, in Proceedings of AAAI 2016
  • 153.ACE vs. FrameNet •ACE:trigger words, arguments (599doc and 6,000 sentences) •FrameNet:LU, FE (150,000 sentences) Terrorists attack Syria yesterday. Terrorists Yesterday Attack Syria Attacker Time Trigger of Attack Place
  • 154.将FrameNet中的例句作为训练数据
  • 155.Basic Model Training on ACE data • Step1:初始分类 • 构建一个3层Artificial Neural Network (ANN) 网络对于FrameNet中的句 子进行分类 • Step2:利用逻辑规则对于结果进行后处理 • Probabilistic Soft Logic (PSL) • Three rules •H1:Same Frame Same Event:在同一个Frame下的句子应该表达了同一 类型的事件 •H2:Related Frame Same Event, 相关Frame下的句子应该表征相同的事件 类型,相关事件:Inheritance, See also and Perspective on •H3:Same LU Same Event, 在同一LU下的句子,应该表征同一事件类型
  • 156.PSL
  • 157.实验 •Data:•ACE2005:529 Training, 33 Development, 40 Testing •FrameNet1.5:15,484 Sentence • • • • ANN: Basic model training on ACE SF (SameFrame): ANN+H1 RF(RelatedFrame): ANN+H2 SL (SameLU): ANN+H3 人工评价
  • 158.扩充训练数据后的结果(在ACE2005上评测) Event Detection on expanded training data Compared with State-of-the-arts
  • 159.利用已有事件知识库自动回标训练数据 • Distant (Weak) Supervision in Relation Extraction Sentence Knowledge base Entity 2 Steve Jobs was the co-founder and CEO of Apple and formerly Pixar. Relation Entity 1 Founder Steve Jobs Apple Steve Jobs passed away the day before Apple unveiled iPhone 4S. … … … … Chen, et al, Automatically Labeled Data Generation for Large Scale Event Extraction, in Proceedings of ACL 2017
  • 160.利用已有事件知识库无法自动回标训练数据 • 在已有事件知识库中,针对某个事件,并没有给出相对应的的triggers 关系抽取RE:( entity1, relation, entity2) We can use Michelle Obama and Barack Obama to label back 事件抽取EE:(eventinstance, event type; role1, argument1 ;...; rolen, argumennt) We can not usem:02nqglvand Barack Obama to label back
  • 161.对于事件抽取自动回标训练数据 •Step1:识别Trigger wordsAssumption:The sentences mention arguments denote such events Barry Diller on Wednesday quit as chief of Vivendi Universal Entertainment. •Step2:关系回标 • 回标Tigger words和Arguments之间的关系
  • 162.利用Key Arguments识别表示事件的句子 • 在一般文本中,一个事件的多个Arguments会在多个句子中提及 Statistics of events in Freebase. Only 0.02% of instances can find all argument mentions in one sentence
  • 163.事件回标基本过程
  • 164.Trigger Words Identification • Key Argument筛选 • Role Saliency: • Event Relevance: • KeyRate:• Trigger Words检测 • Trigger Candidate Frequency: • Trigger Event Type Frequency: • Trigger Rate: 对于每个事件类型,选择具有高TR的trigger words
  • 165.Trigger Words 过滤与扩展 • 利用FrameNet 对于动词trigger words的噪声进行过滤 • 利用FrameNet中的标注信息扩展名词trigger words
  • 166.自动回标产生训练数据 • Automatically labeled data generation
  • 167.Neural Network for Event Extraction • DMCNN in ACL-2015
  • 168.实验 • Generated Labeled Data • 自动产生训练数据的质量(人工评测)
  • 169.实验
  • 170.小结 • 深度神经网络对于事件抽取任务仍然是一种文本表示的有效手段 • Dynamic Multiple Pooling CNN • Attention • 开放域环境下,训练数据的自动获取仍然面临巨大的挑战 • 借助于已有的人工标注资源(自动映射与关联) • 采用自动回标的方法生成训练数据(与关系抽取不同,需要自动获取trigger words)
  • 171.总结 • 两种知识的获取方法 • 实体知识 • 事件知识 • 两个主要问题 • 文本语义如何表示(CNN、RNN等) • 训练数据如何获取(自动回标)
  • 172.未来 • 基于深度学习的知识抽取 • • • • 加入Structure信息 有噪数据下的学习 小样本学习 强化学习 • 开放域下的知识抽取 • 训练数据获取 • 知识体系自动生成 • 知识不仅仅是实体关系三元组… • • • • 常识知识 语言学知识 情感知识 事件知识 • 知识推理与应用 • 知识库问答 • 阅读理解 • 推理规则学习
  • 173.Reference • Socher, et al. Semantic Compositionality through Recursive Matrix-Vector Spaces, In Proceedings of EMNLP 2012 • Zeng, et al. Relation Classification via Convolutional Deep Neural Network, In Proceedings of COLING 2014 (best paper) • Nguyen, et al. RelationClassification:Perspective from Convolutional Neural Networks, In Proceedings of NAACL-HLT 2015 • Santos, et al. Classifying Relations by Ranking with Convolutional Neural Networks, In Proceedings of ACL 2015 • Xu, et al. Semantic Relation Classification via Convolutional Neural Networks with Simple Negative Sampling, In Proceedings of EMNLP 2015 • Gormley, et al. Improved Relation Extraction with Feature-Rich Compositional Embedding Models, In Proceedings of EMNLP 2015 • Zhou, et al. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification, In Proceedings of ACL 2016 • Yan, et al. Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths, In Proceedings of EMNLP 2015 • Liu, et al. A Dependency-Based Neural Network for Relation Classification, In Proceedings of ACL 2015 • Zheng, et al. Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme, In Proceedings of ACL 2015 (outstanding paper) • Zeng, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks, In Proceedings of EMNLP 2015 • Lin, et al. Neural Relation Extraction with Selective Attention over Instances, In Proceedings of ACL 2016 • Ji, et al. Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Descriptions, In Proceedings of AAAI 2016 • Luo, et al., Learning withNoise:Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix, In Proceedings of ACL 2017 • Nickel et al. (2011). A three-way model for collective learning on multi-relational data. In Proceedings of the 28th international conference on machine learning (ICML-11). • Bordes, et al. Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems, 2013 (pp. 2787-2795). • Wang, et al. Knowledge Graph Embedding by Translating on Hyperplanes. In Proceedings of AAAI 2014 • Lin, et al. Learning Entity and Relation Embeddings for Knowledge Graph Completion. In Proceedings of AAAI 2015 • Ji, et al. Knowledge graph embedding via dynamic mapping matrix. In Proceedings of ACL 2015 • He, et al. Learning to represent knowledge graphs with gaussian embedding. In Proceedings of CIKM 2015 • Socher, et al. Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems 2013 • Bordes, et al. A semantic matching energy function for learning with multi-relational data. Machine Learning, 94(2), 233-259, 2014. • Chen, et al. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks, In Proceedings of ACL 2015 • Nguyen, et al. Joint Event Extraction via Recurrent Neural Networks, In Proceedings of NAACL 2016 • Feng, et al. A Language-Independent Neural Network for Event Detection, In Proceedings of ACL 2016 • Liu, et al. Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms, in Proceedings of ACL 2017. • Liu, et al, A Probabilistic Soft Logic Based Approach to Exploiting Latent and Global Information in Event Classification, in Proceedings of AAAI 2016 • Chen, et al, Automatically Labeled Data Generation for Large Scale Event Extraction, in Proceedings of ACL 2017
  • 174.Questions?