12 基于知识图谱的搜索与推荐

2020-03-01 236浏览

  • 1.《知识图谱: 概念与技术》 第 12 讲 基于知识图谱的搜索与推荐 阳德青 复旦大学大数据学院 yangdeqing@fudan.edu.cnhttp://kw.fudan.edu.cn/people/yangdeqing
  • 2.内容提纲 • 基于知识图谱的搜索 • 搜索意图理解 • 实体探索 • 基于知识图谱的推荐 • • • • 2018/8/30 基于传统知识的推荐 基于知识图谱的物品画像 基于知识图谱的用户画像 基于知识图谱的跨领域推荐 基于知识图谱的搜索与推荐 2
  • 3.内容提纲 • 基于知识图谱的搜索 • 搜索意图理解 • 实体探索 • 基于知识图谱的推荐 • • • • 2018/8/30 基于传统知识的推荐 基于知识图谱的物品画像 基于知识图谱的用户画像 基于知识图谱的跨领域推荐 基于知识图谱的搜索与推荐 3
  • 4.基于知识图谱的搜索 • Web搜索的进化 传统的搜索引擎会返回什么内容? 搜索用户到底想搜什么内容? 除了返回姚明的信息还能提供其他内容么?
  • 5.基于知识图谱的搜索 • Web搜索的进化
  • 6.基于知识图谱的搜索 • Web搜索的进化 keyword/string thing/entity 相关实体、概念 related things 有关的属性 潜在关系
  • 7.基于知识图谱的搜索 • Web搜索的工作流程 确定搜索目标 搜索意图理解: • 分词 • 规则解析 • 实体识别 • 实体链接 • …… 发现匹配结果 • • 目标实体、属 性的查找 关联计算 匹配结果排序 • 排序学习 相关结果推荐 • • • • 目标实体的属 性展示 相关实体、概 念的推荐 展现目标实体 与相关实体间 的关系 …… 知识图谱 2018/8/30 基于知识图谱的搜索与推荐 7
  • 8.内容提纲 • 基于知识图谱的搜索 • 搜索意图理解 • 实体探索 • 基于知识图谱的推荐 • • • • 2018/8/30 基于传统知识的推荐 基于知识图谱的物品画像 基于知识图谱的用户画像 基于知识图谱的跨领域推荐 基于知识图谱的搜索与推荐 8
  • 9.搜索意图理解 • 因为搜索/查询语句一般都是短文本,因此搜索意图的理解最主要 的挑战是短文本的实体链接 • 实体链接的基本任务 • 将指代实体的文本mention链接到知识库中特定实体的过程 • 实体链接的相关问题与挑战 • • • • 2018/8/30 实体解析/命名实体识别entity resolution/name entity recognition 共指消解co-reference resolution 词义消岐word sense disambiguation …… 基于知识图谱的搜索与推荐 9
  • 10.短文本实体链接 • 实体链接为什么是一个挑战? • 同一个实体在广泛的文本中可能有多个mention(指代词) • • • • • Barack Obama Barack H. Obama President Obama Senator Obama President of the United States 都是指美国前任总统奥巴马 • 同一个指代词可能指代多个不同实体 • Michael Jordan 到底是指篮球巨星还是机器学习大牛? • “苹果”是指能吃的水果还是时尚的公司/手机? 2018/8/30 基于知识图谱的搜索与推荐 10
  • 11.短文本实体链接 • 算法目标 • 利用实体指代词𝑚与候选实体𝑒的上下文等相关特征计算两者的匹配度分数𝜑 𝑒, 𝑚 ,按 分数进行排序,并选择分数最大的实体𝑒𝑏𝑒𝑠𝑡 作为𝑚的链接结果,即 𝑒𝑏𝑒𝑠𝑡 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜑 𝑒, 𝑚 𝑒 • 局部模型 • 为短文本中的每个指代词及其链接的实体单独计算𝜑 𝑒, 𝑚 ,每个链接实体都是独立产生 • 全局模型 • 考虑文本中多个指代词所链接的实体间联系,对上下文内所有歧义的实体指代一同消歧 • 令𝛤 = { 𝑚1, 𝑒1 , 𝑚2, 𝑒2 … }为一个全局实体链接方案,则目标函数为: 𝑁 𝛤𝑏𝑒𝑠𝑡 = 𝑎𝑟𝑔𝑚𝑎𝑥𝛤 O 𝛤 = 𝑎𝑟𝑔𝑚𝑎𝑥𝛤 ෍ 𝜑 𝑚𝑖 , 𝑒𝑖 + ෍ 𝜓 𝑒𝑖 , 𝑒𝑗 𝑖=1 𝜓 𝑒𝑖 , 𝑒𝑗 是实体𝑒𝑖 , 𝑒𝑗 之间的相关度分数 2018/8/30 基于知识图谱的搜索与推荐 𝑡𝑗 ∈𝛤 不光考虑实体和指代词 之间的相关度,还考虑 不同实体间的相关度 11
  • 12.短文本实体链接 • 上下文特征 • 示例: ...when did Steve leave apple... {Steve Jobs, Steve Wozniak, Steve Ballmer, ...} 句中提的到底是哪个Steve? 2018/8/30 基于知识图谱的搜索与推荐 12
  • 13.短文本实体链接 • 上下文特征 • 文本相似度 • 计算候选实体上下文文本(如百科页面)与指代词上下文的相似度 • 候选实体上下文:实体的百科页面(或摘要文字)、实体锚文本 • 指代词上下文:指代词所在的段落/文档、紧挨指代词前后的n个词 • 相似度模型:词袋向量、概念(主题)向量 2018/8/30 基于知识图谱的搜索与推荐 13
  • 14.短文本实体链接 • 上下文特征 • 实体间的相似度 • 计算候选实体e1与上下文中的实体e2的相似度分数,通常利用两个实体的邻 居集合𝑈1 和𝑈2 进行比较 • 相似度/相关度计算指标: • 𝐽𝑎𝑐𝑐𝑎𝑟𝑑 𝑒1 , 𝑒2 = • 𝑃𝑀𝐼 𝑒1 , 𝑒2 = 𝑈1 ∩𝑈2 𝑈1 ∪𝑈2 𝑈1 ∩𝑈2 / 𝑊 𝑈1 / W ∗ 𝑈2 / 𝑊 • 𝑁𝐺𝐷 𝑒1 , 𝑒2 = 1 − log max 𝑈1 , 𝑈2 −log 𝑈1 ∩𝑈2 log 𝑊 −log min 𝑈1 , 𝑈2 • 𝐴𝑑𝑎𝑚𝑖𝑐𝐴𝑑𝑎𝑟 𝑒1 , 𝑒2 = σ𝑛∈𝑈1∩𝑈2 𝑙𝑜𝑔 2018/8/30 1 𝑑𝑒𝑔𝑟𝑒𝑒 𝑛 基于知识图谱的搜索与推荐 14
  • 15.短文本实体链接 • 短文本实体链接的挑战 • 训练数据缺乏 • 难以训练出符合应用环境的监督模型 • 上下文中的其他实体少 • 局部模型起主导作用 • 上下文中的词语少 • 通常只提供了模糊的主题信息 • “红楼梦是谁写的” • “写”->“文学作品”->红楼梦(四大名著之一) 2018/8/30 基于知识图谱的搜索与推荐 15
  • 16.短文本实体链接 • 主题的作用 • 因为短文本上下文的信息量少,利用主题是比较流行的做法 • 现有主题方法的不足 • 潜在的主题(LDA) • 难以捕捉到实体的细粒度特征 • 难以解释 • 手工构造的主题 • 难以扩展 • 利用实体的概念作为主题 • 可以捕捉实体细粒度特征 • 大量的信息 (实体的文章和属性) • 大覆盖度 (甚至囊括新实体或者长尾实体) 2018/8/30 基于知识图谱的搜索与推荐 16
  • 17.短文本实体链接 • 计算主题凝聚度[1] • 首先实体与指代词之间的主题/概念相似度 𝑠𝑖𝑚𝑐 𝑚, 𝑒 = cos 𝒗𝑐 𝑚 , 𝒗𝑐 𝑒 𝒗𝑐 𝑒 是实体的概念向量,𝒗𝑐 𝑚 是指代词上下文的概念向量,计算如下: 𝒗𝑐 𝑤 𝒗𝑐 𝑚 = ෍ 𝐷(𝑤, 𝑚) 𝑤∈𝐶𝑇(𝑚) 𝐶𝑇(𝑚)是上下文词集合 • 词的概念向量𝒗𝑐 𝑤 的每一维如下计算 𝑟 𝑤, 𝑐 = ෍ 𝑒∈𝐸 2018/8/30 𝑛 𝑤, 𝑒 · 𝑟(𝑒, 𝑐) σ 𝑟(𝑒, 𝑐′) 基于知识图谱的搜索与推荐 17
  • 18.短文本实体链接 • 再计算实体与指代词之间的文本相似度 𝑠𝑖𝑚𝑡 𝑚, 𝑒 = 𝑚𝑎𝑥𝑤𝑐 ∈𝐶𝑇 𝑚 ,𝑤𝑑 ∈𝐾𝑃(𝑒) cos 𝒗𝑤 𝑤𝑐 , 𝒗𝑤 𝑤𝑑 𝐾𝑃(𝑒)是关键词组集合,从实体相关文档与属性中抽取 • 另外再考虑与上下文无关的特征相似度 • 实体流行度 • 实体名与指代词的相似度 • 综合几类相似度分数得到实体与指代词间的最终相似度𝜑 𝑒, 𝑚 2018/8/30 基于知识图谱的搜索与推荐 18
  • 19.短文本实体链接 • 全局目标函数 𝑁 ′ 𝛤 = 𝑎𝑟𝑔 𝑚𝑎𝑥 ෍ 𝜑 𝑒, 𝑚 + 𝜓 𝛤 𝑖 ′ 𝛤 𝑖=1 • 其中实体凝聚度(实体间的相关度)为 𝜓 𝛤 = ෍ 𝑐𝑜ℎ 𝑒𝑖 , 𝑒𝑗 𝑒𝑖 ∈𝛤,𝑒𝑗 ∈𝛤 • 短文本上下文中的实体少,因此 • NP难的全局算法复杂度可以接受 • 不需要近似算法 2018/8/30 基于知识图谱的搜索与推荐 19
  • 20.短文本实体链接 • 计算实体凝聚度 • 结合实体相似度和相关度 𝑐𝑜ℎ 𝑒1 , 𝑒2 = 𝛾 · 𝑠𝑖𝑚𝑒 𝑒1 , 𝑒2 + 1 − 𝛾 · 𝑟𝑒𝑙 𝑒1 , 𝑒2 • 𝑠𝑖𝑚𝑒 𝑒1 , 𝑒2 相似度:可考虑NGD距离 • 𝑟𝑒𝑙 𝑒1 , 𝑒2 相关度首先计算 𝑟𝑒𝑙′ 𝑒1 , 𝑒2 = ෍ 𝑟∈𝑅(𝑒1 ,𝑒2 ) 2 𝑇 𝑒1 , 𝑟 + 𝐻(𝑟, 𝑒2 ) 𝑅(𝑒1 , 𝑒2 ) 是 𝑒1 , 𝑒2 之间的关系集合,𝑇 𝑒1 , 𝑟 ={𝑒 ′ 𝑒1 , 𝑟, 𝑒 ′ ∈ KG}, 𝐻(𝑟, 𝑒2 )={𝑒 ′ 𝑒 ′ , 𝑟, 𝑒2 ∈ KG} • 像 “配偶” 和 “父母”这样对应少的关系会有大权值 • 像 “国家” 和 “出生地”这样对应多的关系会有小权值 • 由于逆关系通常对应的是同一个关系,因此两个方向取最大值得到 𝑟𝑒𝑙 𝑒1 , 𝑒2 = max(𝑟𝑒𝑙 ′ 𝑒1 , 𝑒2 , 𝑟𝑒𝑙′ 𝑒2 , 𝑒1 ) 2018/8/30 基于知识图谱的搜索与推荐 20
  • 21.内容提纲 • 基于知识图谱的搜索 • 搜索意图理解 • 实体探索 • 基于知识图谱的推荐 • • • • 2018/8/30 基于传统知识的推荐 基于知识图谱的物品画像 基于知识图谱的用户画像 基于知识图谱的跨领域推荐 基于知识图谱的搜索与推荐 21
  • 22.实体探索 • 探索目标实体本身以外更多的内容 • 展现实体的属性信息 • 发现(推荐)更多相关实体 • KG中的邻居实体(包括直接邻居和高阶邻居) • 对目标实体进行概念化的说明/解释 • 展现目标实体与相关实体间的关系 • …… 2018/8/30 基于知识图谱的搜索与推荐 22
  • 23.相关实体发现/推荐 • More than one entity 相关实体 相关实体
  • 24.相关实体发现/推荐 • 问题定义[2] • 对于给定的一个实体es,并针对目标实体e所属的类型T 及其与给定实体的 关系描述R,为目标实体计算如下的概率,最后按照此概率对所有相关的 目标实体进行排序并输出
  • 25.相关实体发现/推荐 • 实体共现相关度 前述的计算两个实体相似度的方法都可适用 • 实体类型过滤 • 利用百科实体页面中的分类信息 • 利用命名实体识别工具 • 上下文建模 t是关系描述R中的一个词, 的共现文档集合中,则 是实体e与es的共现语言模型,t 越多地出现在e与es 越大
  • 26.实体解释 • 问题定义[3] • 给定由一组实体代表的查询q,产生一个(组)概念能完美解释给定实体间的潜在联系 • q中包括搜索实体与推荐的相关实体,因此产生的概念是发现相关实体的基础 Growing Market Emerging economy BRIC Country 应该推荐什么相关实体? Company Chinese company Chinese internet giant 2018/8/30 基于知识图谱的搜索与推荐 26
  • 27.实体解释 • 算法描述 • 寻找的概念ci 应满足下述目标 利用Probase发现概 念与实体间的关系 1. Probabilistic Relevance Model 找到的概念既要有代表性又 要能很好地在最优的粒度层 级上解释所推荐的相关实体 argmax 𝑟𝑒𝑙 𝑞, 𝑒 = ෍ 𝑃 𝑒 𝑐𝑖 𝑃 𝑐𝑖 𝑞 𝛿(𝑐𝑖 ) 𝑒∈𝐸−𝑞 2. Relative Entropy Model argmin 𝐾𝐿 𝑃 𝐶 𝑞 , 𝑃 𝐶 𝑞, 𝑒 𝑒∈𝐸−𝑞 𝑖 𝑛 𝑃(𝑐𝑖 𝑞) = ෍ 𝛿(𝑐𝑖 )𝑃 𝑐𝑖 𝑞 log( ) 𝑃(𝑐𝑖 𝑞, 𝑒) 𝑖=1
  • 28.实体解释 • 计算𝑃(𝑐𝑖 𝑞) 1. Naïve Bayes Model 𝑃(𝑞 𝑐𝑖 )𝑃(𝑐𝑖 ) 𝑃 𝑐𝑖 𝑞 = ∝ ෑ 𝑃(𝑒𝑗 𝑐𝑖 )𝑃(𝑐𝑖 ) 𝑃(𝑞) 𝑒𝑗 ∈𝑞 ∝ 𝑃(𝑐𝑖 ) ෑ 𝜆𝑃(𝑒𝑗 𝑐𝑖 ) 𝑒𝑗 ∈𝑞,𝑛 𝑒𝑗 ,𝑐𝑖 >0 ෑ (1 − 𝜆)𝑃(𝑒𝑗 ) 𝑒𝑗 ∈𝑞,𝑛 𝑒𝑗 ,𝑐𝑖 =0 2. Noisy-or Model 𝑃 𝑐𝑖 𝑞 = 1 − ෑ (1 − 𝑃(𝑐𝑖 𝑒𝑗 )) 𝑒𝑗 ∈𝑞
  • 29.实体解释 • 计算𝛿(𝑐𝑖 ) • 用于度量目标概念的粒度,好的概念既不能太一般化也不能太具体化 Country Developing Country Concept Number of Entities Country 2648 Developing country 149 Growing market 18 Entity-based Approach 距离q中实体更近 的概念更值得考虑 China India Brazil Hierarchy-based Approach
  • 30.实体解释 • 计算𝛿(𝑐𝑖 ) 1. Entity-based Approach • Penalize popular concepts • 𝛿 𝑐𝑖 = 1 𝑃(𝑐𝑖 ) 2. Hierarchy-based Approach(Average first passage time) • argmax σ𝑐∈𝐶 𝑘 σ𝑞𝑖 ∈𝑞 ℎ(𝑞𝑖 𝑐) 𝐶𝑞𝑘 𝑞 ℎ 𝑞𝑖 𝑐 = 0, 𝑖𝑓 𝑞𝑖 = 𝑐 •൝ ℎ 𝑞𝑖 𝑐 = 1 + σ𝑐′∈𝑐(𝑐′) 𝑃 𝑐 ′ 𝑞𝑖 ℎ(𝑐 ′ 𝑐) 𝑖𝑓 𝑞𝑖 ≠ 𝑐
  • 31.实体关系发现 • 发现实体间的潜在关联具有重要应用价值 • KG为实体间的关系提供了数据支撑 • 挑战:两个实体间的关联路径可能有多条 哪种关系才是最该展现的? ISIS头目与一位伊朗少将之间的关联路径[4] 2018/8/30 基于知识图谱的搜索与推荐 31
  • 32.实体关系发现 • 问题转化为对实体间的各条路径进行排序,主要考虑三个要素[4] • Specificity:流行的实体得分要低(类似IDF基本思想) 𝑠𝑐𝑜𝑟𝑒1 𝑝 = σ𝑒∈𝑝 𝑠𝑝𝑒𝑐 𝑒 , 𝑠𝑝𝑒 𝑝 = 𝑙𝑜𝑔(1 + 1/𝑑𝑜𝑐𝐶𝑜𝑢𝑛𝑡(𝑒)) •Connectivity:路径中一条边 𝑒1, 𝑒2 的权重与e1和e2的相似度成正比 𝑠𝑐𝑜𝑟𝑒2 𝑝 = σ(𝑒1,𝑒2)∈𝑝 𝑠𝑖𝑚 𝑒1, 𝑒2 , 𝑠𝑖𝑚 𝑒1, 𝑒2 = 𝑐𝑜𝑠(𝑒1, 𝑒2) •Cohesiveness:要考虑紧挨着的两条边(三个实体)之间的凝聚度 𝑠𝑐𝑜𝑟𝑒3 𝑝 = ෍ 𝑠𝑖𝑚 𝑒1 + 𝑒2, 𝑒3 (𝑒1,𝑒2,𝑒3)∈𝑝 𝑒1是DSM模型[5]产 生的实体向量,也可 以用前述的方法计算 两个实体的相似度 • 最终, 𝑠𝑐𝑜𝑟𝑒 𝑝 = 𝑠𝑐𝑜𝑟𝑒1 𝑝 × 𝑠𝑐𝑜𝑟𝑒2 𝑝 × 𝑠𝑐𝑜𝑟𝑒3 𝑝 2018/8/30 基于知识图谱的搜索与推荐 32
  • 33.实体关系发现 • 展现实体关系图谱 • 基于实体间发现的重要关系,可将目标实体与所有挖掘出的相关实体一同展现到一个 关系图谱中,为搜索用户提供更加丰富的信息 2018/8/30 基于知识图谱的搜索与推荐 33
  • 34.参考文献 [1] L. Chen, J. Liang, C. Xie and Yanghua Xiao. “Short Text Entity Linking with Fine-grained Topics”. CIKM (2018). [2] Bron, Marc, K. Balog, and M. D. Rijke. “Ranking relatedentities:components and analyses.” ACM International Conference on Information and Knowledge Management ACM, 2010:1079-1088. [3] Y. Zhang, Yanghua Xiao et al. “Entity Suggestion with Conceptual Expanation”. IJCAI (2017). [4] Aggarwal, Nitish, S. Bhatia, and V. Misra. “Connecting theDots:Explaining Relationships Between Unconnected Entities in a Knowledge Graph.” (2016). [5] N. Aggarwal and P. Buitelaar. Wikipedia-based distributional semantics for entity relatedness. In AAAI Fall Symposium Series, 2014. 2018/8/30 基于知识图谱的搜索与推荐 34
  • 35.内容提纲 • 基于知识图谱的搜索 • 搜索意图理解 • 实体探索 • 基于知识图谱的推荐 • • • • 2018/8/30 基于传统知识的推荐 基于知识图谱的物品画像 基于知识图谱的用户画像 基于知识图谱的跨领域推荐 基于知识图谱的搜索与推荐 35
  • 36.基于知识图谱的推荐 推荐系统应用挂广泛 电影(豆瓣) 餐馆(大众点评) 图书(亚马逊) 音乐(网易云音乐) 新闻(今日头条)
  • 37.基于知识图谱的推荐 • 推荐算法的目标 argmax 𝑝(𝑖 𝑢) 或者f:U×IR 𝑖∈𝐼 • 推荐算法分类 • 基于协同过滤: p(i u, behavior(u)) • 基于记忆 • 基于模型 • 基于内容: p(i u, content(u, i)) • 混合方法 • 基于知识: p(i u, knowledge) 2018/8/30 基于知识图谱的搜索与推荐 37
  • 38.基于知识图谱的推荐 • 推荐算法的基本框架 精准的用户/物品画像是关键 2018/8/30 基于知识图谱的搜索与推荐 38
  • 39.基于知识图谱的推荐 • 传统推荐算法的挑战 • 基于协同过滤 • • • • 冷启动 数据稀疏 可扩展性 …… • 基于内容 • • • • 2018/8/30 特征描述 同义/多义词 结果同质性 …… 基于知识图谱的搜索与推荐 39
  • 40.基于知识图谱的推荐 推荐系统中引入知识图谱的优势:  提高精准度(precision)  知识图谱为物品引入了更多的语义关系  知识图谱可以深层次地发现用户兴趣 喜欢 可能喜欢 盗梦空间 主演 主演 泰坦尼克号 小李子
  • 41.基于知识图谱的推荐 推荐系统中引入知识图谱的优势:  增加多样性(diversity)  知识图谱提供了不同的关系连接种类  有利于推荐结果的发散,避免推荐结果越来越局限于单一类型 主演 小李子 主演 喜欢 盗梦空间 题材 导演 科幻 泰坦尼克号 题材 黑客帝国 导演 克里斯托弗·若兰 敦刻尔克 41
  • 42.基于知识图谱的推荐 推荐系统中引入知识图谱的优势:  可解释性(interpretability)  知识图谱可以连接用户的兴趣历史和推荐结果  提高用户对推荐结果的满意度和接受度,增强用户对推荐系统的信任 喜欢 盗梦空间 你可能也喜欢: 泰坦尼克号,因为它们有相同的主演; 黑客帝国,因为它们有相同的题材; 敦刻尔克,因为它们有相同的导演; …… 42
  • 43.内容提纲 • 基于知识图谱的搜索 • 搜索意图理解 • 实体探索 • 基于知识图谱的推荐 • • • • 2018/8/30 基于传统知识的推荐 基于知识图谱的物品画像 基于知识图谱的用户画像 基于知识图谱的跨领域推荐 基于知识图谱的搜索与推荐 43
  • 44.基于知识的传统推荐 • 基于约束的知识化推荐 • 什么是约束知识? • 通过用户的输入限定物品属性值形 成规则集合,形成候选物品的范围 约束——关于用户的知识 • 例如:电影的演员、歌曲的演唱者、 餐馆的菜系、手机的价位等 类似基于输入条件的查询 大众点评餐馆查询/推荐的属性选择页面 2018/8/30 基于知识图谱的搜索与推荐 44
  • 45.基于知识的传统推荐 • 基于个案的知识化推荐 • 什么是个案知识? • 先通过某种算法产生一组候选物品给用户选择, 将用户的选择作为参照物,再通过物品间的相 似性计算找出其他与参照物品高度相似的候选 物品,再让用户进一步选择,多次与用户的迭 代交互,直至最终产生用户最想要的物品 类似问答式的搜索 2018/8/30 基于知识图谱的搜索与推荐 特色餐馆选择页面[1] 45
  • 46.基于知识的传统推荐 • 传统的推荐系统对知识的理解不同于KG的知识 • 用户的标签、社交网络、商品的目录等信息,只要是有助于发现用户个 性偏好和物品特征的数据都曾被看作是知识 传统用户/物品知识 vs 知识图谱知识 2018/8/30 基于知识图谱的搜索与推荐 46
  • 47.基于知识的传统推荐 • 传统知识化推荐的挑战 • 物品知识的获取 • 系统需要人工构建知识,对长尾实体的覆盖有限 • 用户知识的获取 • 系统需要用户输入信息,甚至要反复交互,体验感差 知识图谱的出现为解决这些问题带来契机! 2018/8/30 基于知识图谱的搜索与推荐 47
  • 48.内容提纲 • 基于知识图谱的搜索 • 搜索意图理解 • 实体探索 • 基于知识图谱的推荐 • • • • 2018/8/30 基于传统知识的推荐 基于知识图谱的物品画像 基于知识图谱的用户画像 基于知识图谱的跨领域推荐 基于知识图谱的搜索与推荐 48
  • 49.基于知识图谱的物品画像 • 基本算法目标 argmax 𝑝(𝑖 𝑢, 𝑘𝑛𝑜𝑤𝑙𝑒𝑑𝑔𝑒(𝑖)) 𝑖∈𝐼 • 基于向量空间模型[2] • 为每种属性生成一个表示向量,每一维对应该属性的某个值的权重 • 例如,电影的演员属性可以表示成一个向量,第一维的值可以是第1号演员对该电影 的TF-IDF权重值 TF-IDF值如何计算? • 两部电影在某种属性上的相似度可以计算为该属性的两个向量的距离 • 两部电影的相似度则是所有属性相似度的综合,例如加权和或加权平均 每种属性的权重如何考虑? 2018/8/30 基于知识图谱的搜索与推荐 49
  • 50.基于知识图谱的物品画像 • 基于向量空间模型[2] 用户u对电影mi的喜好评分 按照以下公式计算: 电影I 和j 在属 属性p的权重 性p上的相似度 2018/8/30 基于知识图谱的搜索与推荐 电影《Heat》与《Rightrous Kill》的属性关系图[2] 50
  • 51.基于知识图谱的物品画像 • 基于异构信息网络(Heterogeneous Information Network)[3] • 将物品和其每种属性值对应的实体都表示成异构信息网络的一类结点,它 们之间构成各种类型的边 • 例如,每部电影和其每个演员都由一条表示“参演”的边相连 • 因为不同物品间会共享某些属性对应的实体,所以会有一条经过该共享实 体的元路径meta-path将两个物品相连 • 例如,成龙主演的不同电影之间都通过一条“电影-演员(成龙)-电影”的元路径相连 • 由不同类型的元路径相连的两个物品都具有一定的相似度
  • 52.基于知识图谱的物品画像 • 基于异构信息网络[3] 包含多种类型结点和多种类型边 的图称之为异构信息网络 𝑆𝑝 𝑣 是电影v在属性p上 所关联的实体集合 𝑠𝑖𝑚𝑝 𝑣, 𝑣 ′ = 4部电影的异构信息网络图[3] 2 × 𝑆𝑝 𝑣 ∩ 𝑆𝑝 𝑣′ 𝑆𝑝 (𝑣) + 𝑆𝑝 (𝑣′)
  • 53.基于知识图谱的物品画像 • 基于随机游走的graph embedding模型 • 在异构信息网络图中应用基于随机游 走的相关图嵌入算法即可获得电影结 点的向量表示(即画像) • DeepWalk 一般基于 • Node2Vec Skip-gram • Metapath2Vec[4] 模型 • HIN2Vec • …
  • 54.基于知识图谱的物品画像 • 基于KG embedding模型 • 因为KG包含了物品对应的实体,直 接在KG上应用相关embedding算法 可以获得相关实体的向量 • TransE • TransD • TransH • TransR • …
  • 55.基于知识图谱的物品画像 • 基于KG embedding模型 • 应用实例 Deep Knowledge-aware Network (DKN)[5]  新闻标题和正文中存在大量的实体  实体间的语义关系可以有效地扩展用户兴趣  实体间的语义关系难以被传统方法(话题模型、词向量方法)发掘
  • 56.基于知识图谱的物品画像 • 基于KG embedding模型 • 应用实例 Deep Knowledge-aware Network (DKN)  实体连接(entity linking)  知识图谱构建(knowledge graph construction)  知识图谱特征学习(knowledge graph embedding)  得到实体特征(entity embedding)
  • 57.基于知识图谱的物品画像 • 基于KG embedding模型 • 应用实例 Deep Knowledge-aware Network (DKN) 第一步:提取知识图谱特征  额外使用一个实体的上下文实体特征 (contextual entity embeddings)对 该实体进行更准确地刻画  上下文实体为该实体的一度邻居节点 实验证明TranD效果最好 一度邻居实体向量的均值作为上下文实体的表示
  • 58.基于知识图谱的物品画像 • 基于KG embedding模型 • 应用实例 Deep Knowledge-aware Network (DKN) 第二步:构建推荐模型 KG embedding
  • 59.基于知识图谱的物品画像 • 基于深度学习的知识融合模型 • 应用实例 Collaborative Knowledge base Embedding (CKE)[6] • 通过不同的embedding/编码器模型将物品 的各种知识都表示成一个向量,在综合成 物品的表示向量 • 基于用户-物品交互记录生成用户表示向量 • 用户向量和物品向量都灌入神经网络,依 据网络的输出值来判断物品是否值得推荐 给用户(物品匹配用户)
  • 60.基于知识图谱的物品画像 • 基于深度学习的知识融合模型 • 应用实例 Collaborative Knowledge base Embedding (CKE) 物品的不同类型知识 用不同的模型表示
  • 61.内容提纲 • 基于知识图谱的搜索 • 搜索意图理解 • 实体探索 • 基于知识图谱的推荐 • • • • 2018/8/30 基于传统知识的推荐 基于知识图谱的物品画像 基于知识图谱的用户画像 基于知识图谱的跨领域推荐 基于知识图谱的搜索与推荐 61
  • 62.基于知识图谱的用户画像 • 基本算法目标 argmax 𝑝(𝑖 𝑢, 𝑘𝑛𝑜𝑤𝑙𝑒𝑑𝑔𝑒(𝑢)) 𝑖∈𝐼 • 基于概念标签的用户画像 • 标签是用户画像的最常见手段 • 一般来说,描述用户的标签越多、越具体,对用户个性化推荐的帮助越大 画像标签一定是越多、越精确就越好么? 2018/8/30 基于知识图谱的搜索与推荐 62
  • 63.基于知识图谱的用户画像 • 基于概念标签的用户画像 • 示例 C9高校 手机 • 用户A标签:男、学生、 复旦大学、 学生智能 红米6 • 用户B标签:女、90后、上海交通大学、荣耀9青春版 从具体标签的表面语义来看这两人没有共性, 但是我们知道他俩存在相似性(潜在关联) 2018/8/30 基于知识图谱的搜索与推荐 63
  • 64.基于知识图谱的用户画像 • 基于概念标签的用户画像[7] • 算法目标:根据输入一组标签(词袋),生成的概念标签数尽量少,同 时在语义上尽量全地覆盖所有原始标签的语义 • 过程描述 • 利用知识图谱的分类数据(如is_a关系)找出输入标签实体所属的概念,例如“复旦 大学”找出“C9高校”;或利用属性数据找出一些标签对应的实体或概念,例如“北京、 社会主义、东亚”找出“中国” • 新找出的概念或实体作为扩展标签的候选集 • 应用经典的机器学习算法,如MDL(最小描述长度)从扩展标签候选集中精选出满 足目标的标签,且概念所属的分类层级又不至于太抽象 • 扩展出的概念化标签可与原始标签一起作为用户的画像,用于后续的推荐任务
  • 65.基于知识图谱的用户画像 • 基于概念标签的用户画像 • MDL算法 • 假设X是输入的一组标签(对应了知识图谱中的实体),c是要寻找的概念,则c对X 的编码长度为 P(c)是概念c的先验概率,P(xi c)是c 能代表xi 的分数,分别计算如下: n(c,e)是在知识图谱中能发现的某个实体 e属于概念c(即两者构成isA关系)的数量, P(xi c)则度量了对于一个概念c 我们能想到属于它的一个实体e的程度
  • 66.基于知识图谱的用户画像 • 算法举例 • 输入:中国、日本、韩国 • 输出:国家 or 亚洲国家 or 东亚国家 ? 为什么? • 推荐应用举例: • 假设有 用户A:女,80后,日本 用户B:女,上海,中国 用户C:女,孟买,印度 • 用户B与C,谁与A更相似?如何找出这种相似? • 如果有一个化妆品用户A买过,那么还值得推荐给用户B还是用户C?
  • 67.基于知识图谱的用户画像 • 基于深度学习模型的用户画像[8] • 利用记忆网络存储刻画用户对物品属性的偏好特征,比纯基于用户历史 上的偏好物品刻画用户特征要更加准确、丰富 • 算法过程 • 利用门控循环神经网络(GRU)生成用户的序列偏好向量htu 作为用户u在t时刻的基 础画像表示 • 用TransE算法先学出知识图谱中三元组的表示向量,以电影实体为例,即能获得电 影的向量和其各种属性关系及属性实体(如导演、演员)的向量 • 键值对记忆网络中,键即物品属性,其向量用ka表示,a表示某种属性,属性a的值 向量用vau表示,其中蕴含了用户u在电影属性a上的偏好 • 记忆网络的读取
  • 68.基于知识图谱的用户画像 • 基于深度学习模型的用户画像 • 算法过程 • 记忆网络的更新:每当记录到用户一条新交互记录(获取用户新看的一部电影)eai 时,就对 vau进行更新
  • 69.内容提纲 • 基于知识图谱的搜索 • 搜索意图理解 • 实体探索 • 基于知识图谱的推荐 • • • • 2018/8/30 基于传统知识的推荐 基于知识图谱的物品画像 基于知识图谱的用户画像 基于知识图谱的跨领域推荐 基于知识图谱的搜索与推荐 69
  • 70.基于知识图谱的跨领域推荐 • 跨领域推荐的主要任务 • 缓解冷启动问题 • 提高推荐精准度 • 增加推荐多样性 • 跨领域推荐面临的挑战 • • • • • 数据海量性 数据异构性 数据稀疏性 数据相依性 数据低质性
  • 71.基于知识图谱的跨领域推荐 • 跨领域推荐的几种场景 • 用户/物品完全重叠 • 能比较容易地将两个领域合并成一 个领域 • 用户/物品部分重叠 • 重叠的用户/物品成为新兴共享和 迁移学习的桥梁 • 用户/物品完全不重叠 • 需要挖掘领域间隐含的共同用户/ 物品或其他关系进行迁移学习 几类跨领域推荐场景[10]
  • 72.基于知识图谱的跨领域推荐 • 主流的跨领域推荐算法 • 基于协同过滤 • 基于语义关系 • 基于深度学习 • 实现跨领域推荐的关键假设 • 用户的兴趣偏好或项目特征在领域之间存在一致性或相关性 通过知识图谱发现
  • 73.基于知识图谱的跨领域推荐 • 跨领域的实体关联[9] • 利用知识图谱发现不同类实体间的关联路径,并计算相关度 基于迭代的权重传播(类似 PageRank)可算出头尾实体结点的 相关程度 维也纳歌剧院到音乐家Mahler的关联图谱[9]
  • 74.基于知识图谱的跨领域推荐 • 跨领域的特征语义关联[10,11] • 针对用户和物品完全不重叠的特殊跨领域场景 ?recommend domain A domain B (a) domain A domain B (b)
  • 75.基于知识图谱的跨领域推荐 • 跨领域的特征语义关联 • 首先构建一个多部图G(multi-partite graph)[10] • 基于Manifold算法找出领域1的用户与领域2的物品之间的潜在关联
  • 76.基于知识图谱的跨领域推荐 • 跨领域的特征语义关联 • 挑战在于如何找出两个领域特征(标签)之间的语义关联?即构建X0矩阵 微博用户标签 豆瓣电影标签 不同领域的特征标签用词有很大不同
  • 77.基于知识图谱的跨领域推荐 • 跨领域的特征语义关联 • 利用CN-DBpedia语料结合ESA模型找出不同标签间的语义关联 • 原理: CN-DBpedia的实体(标签对应的)摘要文本中,出现的参考实体与本实体 都有一定的语义关联 • 若两个实体在很多实体的摘要文本中被共同作为参考实体引用,则该两个实体在语 义上非常相近 旅游的参考实体 概念向量间的距离可作为两个标签的语义距 离,而和概念向量之间的距离(如NGD[11]) 则可直接度量两个标签组(即两个用户)间的 相似度
  • 78.参考文献 [1] Burke, Robin. “Knowledge-Based Recommender Systems.” (2000). [2] Tommaso Di Noia, RobertoMirizzi:Linked Open Data to support Content-based Recommender Systems, in ICSS 2012. [3] Xiao Yu, Xiang Ren, Yizhou Sun, QuanquanGu:Personalized EntityRecommendation:A Heterogeneous Information Network Approach, in WSDM 2014. [4] Deqing Yang, Zikai Guo, Ziyi Wang, Junyang Jiang, Yanghua Xiao, WeiWang:'>Wang: