百度 吴华 互联网上NLP技术及其应用

2020-02-27 211浏览

  • 1.互联网NLP技术及应用 吴华 2013/8/17
  • 2.搜索引擎的用户需求 令人心旷神怡的图片 听起来快乐的歌曲 从中关村到香山饭店怎么走 附近好吃的餐馆 王菲老公代言的汽车品牌 北京哪里能买到漂亮衣服
  • 3.互联网应用趋势 • 基于知识网络的全面需求满足 – 知识、语义搜索 • 精准需求理解 • 直接答案满足 – 对话式搜索 • 智能交互 • 主动推荐,不搜即得 • 精准的个性化服务
  • 4.搜索给NLP带来的挑战 • • 输入复杂 需求多样 A B 需求识别 知识挖掘 • 来源:暗网、隐含 形式:结构化、半结构 化、非结构化 结构:各种层次的知识 • • • • • • 直接答案 聚类 文摘 关系图 推送 多媒体 • • 框计算 • • • 建议 扩展 交互 C D 用户引导 结果组织与展现
  • 5.整合词典、例句、翻译
  • 6.移动APP -- 旅游
  • 7.百度翻译免费API -- 电子商务
  • 8.提纲 • 文本理解 – Query理解 – 知识语义计算 • 用户理解 – 用户建模
  • 9.基础技术与应用的关系示例 词法分析 知识图谱 句法分析 语义分析 语用分析 Query分析 智能交互 翻译模型 ML模型 用户模型 辅助决策
  • 10.词法和关系分析应用 实体挖掘 Ontology建设 知识图谱
  • 11.实体挖掘 相关上下文: • 从Query Log挖掘 • URL pattern 挖掘 • 从title中挖掘 步步惊心 电影 在线观看 百度影 新词/专名需求词挖掘 下载 / 观看 / 在线 小说 完整版 经典 音 /下载 大结局 / 刘诗诗 / 片尾曲 台词 影评 插曲 …… 新词/专名的需求标签 步步惊心 【电视剧】 莫言 【人名】 北京大学 【机构】 山楂树之恋 【电影】 …… 步步惊心 下载 莫言作品集 北京大学录取线 山楂树之恋在线观看 …… 原始数据 Query log 新词/专名分类 可面向自定义类别进行灵活分类 新词/专名挖掘 基于多类资源挖掘新词/专名知识,可做到天级别更新 海量网页库 垂直站点资源
  • 12.Ontology建设 上下位知识挖掘 三元组知识挖掘 步步惊心 上位词:小说 / 电视剧 / 穿越剧…… 导演:李国立 编剧:王莉芝 主演:刘诗诗 / 吴奇隆 / 郑嘉颖 类型:历史 / 魔幻 / 情感 / 青春 / 剧情 年份:2011 集数:35 制片地区:中国大陆 …… 相关实体挖掘 相关实体:01 宫 / 02 宫锁珠帘 / 03 新 白发魔女传 / 04 轩辕剑之天之痕…… 语义标签挖掘 语义标签:穿越 / 清宫 / 好看 / 清穿 / 刘诗诗 / 养眼 / 雍正 / 虐心……
  • 13.
  • 14.语义计算 三元组知识融合 • • • • • 于谦 属性名归一化 属性值去噪 属性值规范化 同义实体识别 多源数据合并 三元组分类 • 判定实体在给 定三元组中的 分类 娱乐人物 三元组相似度计算 • 计算任意两组 三元组之间的 相似度 章子怡 于谦 0.1 郭德纲 0.9 主需求识别 • 识别用户对给 定实体的主需 求所对应的三 元组 于谦 实体消歧 于谦 • 对于多义实体, 判定其在特定 语境下对应的 三元组 相关人物 郭德纲 于谦 知识推理 于谦 • 基于已有三元 组推理出未知 三元组 主需求 80% 历史人物 20% 出生日期 性别(男)+配偶 年龄 妻子
  • 15.主需求识别 三元组分类 实体消歧 相关人物
  • 16.Query 理解 Query改写- --机器翻译模型 意图归一 --- 机器学习模型 复杂Query 理解 --- Parser
  • 17.Query意图理解 框计算 – 理解用户的意图并给 出精确答案
  • 18.Query理解  纠错、同义、省略 Query改写 天龙八步 —> 天龙八部 成都的哥罢工 —> 成都出租车罢工 康柏笔记本vista系统一键恢复—>康柏vista一键恢复 • 一个问题用多种方式表达 姚明身高;姚明几米; 上地在哪里;上地在什么地方 意图归一 • 相对复杂的query不能理解 句法分析 身高180以上的自由泳运动员 王菲老公代言的汽车品牌是什么
  • 19.机器翻译模型用于 Query改写
  • 20.Query改写模型 Query改写模型 成都的哥罢工 —> 成都出租车罢工 给定query f,求其最佳的改写query e* e*  arg max p(e f )  arg max p( f e) p(e) M eˆ1I  arg max { e1I exp[  m hm (e1I , f1J )] m 1 } eI exp[  m hm (e1 I , f1J )] M 1 m 1 M  arg max {exp[  m hm (e1I , f1J )]} e1I m 1 特征 • 同义改写概率 • 纠错改写概率 • 上下文改写概率 • 语言模型
  • 21.Query改写 词对齐示例 北京 出租 同类对齐 上海 车 罢工 相同对齐 的哥 罢工 是 为了 纠错对齐 字面对齐 事 为 涨 工资 相同对齐 近义对齐 涨 待遇
  • 22.Query变换算法示例 四川 是 我国 第几大 省 中国 省份排名 四川 0 1 2 3 4 5 第几 大 省 我国 第几 大 是 省 开始 四川 中国 结束 省份 排名 省份 排名 省份 排名 1 2 3 4 5
  • 23.示例
  • 24.机器学习模型用于 Query意图归一
  • 25.一个Query有多种表达
  • 26.Query Pair文本语义匹配计算 • Query Pair – – 确率为90%,比baseline绝对值高10% 姚明有多高 姚明的身高 谁写的《平凡的世界》 《平凡的世界》作者是谁 • 方法 – DNN算法 • 产出 – 词表示 – Query Pair 相似度 Query term vector 1 Query Term Vector 2
  • 27.为什么DNN有效 简单表示 聚类 Embedding
  • 28.Parser技术用于复杂 query解析
  • 29.复杂query解析 • 谢霆锋是谁的儿子? • 谢霆锋的儿子是谁? • 王菲老公代言的汽车品牌是哪个?
  • 30.复杂query解析 • • 谢霆锋是谁的儿子? 谢霆锋的儿子是谁? 是 是 刘德华 儿子 谁 谢霆锋是谁的儿子 (?,儿子,谢霆锋) 谁 儿子 谢霆锋 谁是谢霆锋的儿子 (谢霆锋,儿子,?)
  • 31.复杂query解析 • 知识库查询引擎 – 基于知识库的在线逻辑推理 – 复杂Query的结构解析 依存分析结果 查询逻辑表达式 知识库推理 是 SBJ 品牌 ATT VOB 代言 汽车 ATT 的 DE 开迪 汽车品牌 哪个 老公 代言 SBJ 王菲 老公 ATT 王菲
  • 32.语用分析用于智能交互
  • 33.语音助手
  • 34.对话管理 语义理解 (semantic Analysis)
  • 35.以订航班为例 我想飞伦敦 状态集合:S 动作结合:A 状态转移:S×A->S’R:回报函数R(i) or R(i,a) π 系统在如下行为中选择: • 确认:“您想飞伦敦?” • 问其他问题:“您从哪飞?” • 查数据库:“去伦敦的飞机” • …… : 对话策略 S -> A
  • 36.一些对话管理的任务 • 处理来自于ASR和SLU结果的不确定性 – 确认置信度低的信息 – 根据置信度、信息重要性、对话历史信息等采用不同 确认方法 – 维护不同可能状态空间 • 确定下一步行动 – 要用户提供新的信息 – 放松query的限制条件 • 选择系统信息用语
  • 37.对话管理模块 • 对话控制 – 选择下一步系统行为,比如 • 要用户提供更多的信息 • 确认或交互用户之前的输入 • 给用户提供信息 • 对话环境建模 – 维护与对话相关的信息,比如 • 已经说过的信息 • 这个信息是否已经交互过?
  • 38.对话控制策略 • 基于框架的控制策略 – 框架定义完成指定任务需要的信息 – 根据已知信息,确定之后要问的问题
  • 39.Siri 中的示例 • 发EmailU:'>U: