专场讲师0505 05 怀宝兴 NLP在面向企业景中的算法优化与落地【QCon2019】 v1,4

2020-03-01 190浏览

  • 1.怀宝兴 华为云 EI 语音语义团队算法总监
  • 2.
  • 3.NLP在面向企业场景中的 算法优化与落地 怀宝兴 华为云语音语义域算法总监
  • 4.自我介绍 怀宝兴 毕业于中国科学技术大学 研究方向为文本挖掘、机器学习、数据挖掘 2014~至今:华为,机器学习、文本挖掘等算法工作
  • 5.自然语言是什么 智能对话系统中的NLP能力 搭建一个智能对话系统 对话系统在企业智能中如何发挥作用
  • 6.自然语言是什么?  最不“自然”的自然语言 • 离散的符号系统 • 社会性  语言 VS 图像、语音 • 语音、图像——自然界存在的连续信号 • 意义都是人赋予的
  • 7.几个栗子 人要是行,干一行行一行,一行行行行行; 要是不行,干一行不行一行,一行不行行行不行  歧义 • 乒乓球拍卖完了 (分词歧义) • [咬死猎人]的狗 VS. 咬死[猎人的狗] (短语 歧义)  病构 • 不合乎语法的句子 • 例子:他非常男人。(名词不能受程度副词 修饰) • 你真讨厌!(语用歧义) • 冬天能穿多少穿多少,夏天能穿多少穿多少 (世界知识) • 不合乎语义约束的搭配 • 例子:My car drinks gasoline like water
  • 8.NLP-应用场景
  • 9.NLP-对话系统
  • 10.NLP算法-分词 中文分词的难点 歧义:严守一/把/手机/关了 世界知识:夏天能穿多少穿多少,冬天能穿多少穿多少 企业应用的难点 适配多种应用的分词粒度 检索:细粒度=> 高召回率 意图识别:粗粒度=>实体 领域适配 封闭域=>开放域 通用域=>垂直领域 实战经验 多粒度分词 领域词典构建+模型融合词典 深度学习
  • 11.NLP算法-NER 企业场景的难点  不同领域都有不同类别的实体 娱乐=>歌名、电影、电视剧 医疗=>药名、疾病、症状  不同任务需要识别不同类别的实体 安防/舆情=>人名、证件号、手机号、Email 对话=>各种槽填充(餐馆、航司、地名)  标注数据少、迁移困难 实战经验 没有一招鲜吃遍天的万能药(即使是BERT) 多种方式的混合解决方案(正则、词典、深度学习)
  • 12.NLP算法-文本相似度 输出 任务 Texts类型 文本间关系 信息检索 A=query, B=document 相关 A=question, B=answer 答案对应问题 机器翻译 A=text,B=text 相关 聊天系统 A=text,B=text 回复和评论 相似文档检测 A=text,B=text 相似 在线广告 A=query,B=Ads 相关 自动问答 文本蕴含 A=text,B=text 输出最终 匹配层 蕴含 利用文本表示向量进行交互计算 表示层 (DNN/CNN/RNN) 表示层 (DNN/CNN/RNN) 输入层 输入层 将孤立的词语embedding表示 转换为具有全局信息的一个 或者多个低维稠密的语义向 量 将字或者词映射为向量 语义匹配的难点 实战经验  汉语的一词多义和同义词问题 基于表示的模型: Siamese Network • 苹果=>水果?iPhone ?Apple inc? 基于交互的模型: tensor、attention • 妻子=>老婆,媳妇儿 多粒度多层次模型:词汇级、短语级  语言的组合性问题 预训练模型:ELMo、BERT • 北京到上海的航班和上海到北京的航班词语虽然完全相同,但语义完全不同 • 广州恒大打败了上海上港和上海上港被广州恒大打败了语义完全相同
  • 13.NLP算法-意图识别 常见的方法: 1、关键词、规则 2、ML:svm、lr等 3、DL:如cnn、rnn、transformer、bert等。 企业场景的难点 • 数据少、质量差、冷启动 • 场景不同类别不同,类别数量决定难度 实战经验  根据不同阶段,设定不同模型。比如:前期冷启动中使用一些 正则来匹配,以及无监督模型,比如利用预训练的词向量。  在数据量充足的情况下,采用深度学习模型以及利用知识图谱 对词汇进行泛化抽象。 RCNN
  • 14.NLP-对话系统-算法-Entity linking  实体链接可以同时解决歧义和多样性问题 • 对话系统:意图理解、槽填充 • 搜索系统:查询分析、改写、扩展  实体链接的难点 • 如何识别实体边界 • 如何链接实体与知识库 • 如何克服训练样本稀疏  企业场景的实战  通用域=>实体标注问题,百科图谱作为知识库  垂直域=>实体识别+对齐,依赖领域知识库 苹果就“降速门”致歉:iphone换电池降价390元 苹果 苹果公司 iPhone iPhone 红富士苹果 红富士 红富士 苹果 苹果(蔷薇科苹果属果实) 《李白》是李荣浩作词作曲并演唱的歌曲 李白 李白(李荣浩演唱歌曲) 李荣浩 李荣浩(中国流行男歌手、音乐人、演员) 唐朝诗仙李白 唐朝 唐朝(中国历史朝代) 诗仙 李白(唐代著名浪漫主义诗人) 李白 李白(唐代著名浪漫主义诗人)
  • 15.NLP算法-多轮对话管理  难点: • 语音识别/语言理解错误, • 不确定性大, • 真实场景状态空间大  常用方法: 状态机 概率规则 槽填充框架 • 有限状态机 • 槽填充 • Pomdp、prob-rule-based • 深度学习端到端 深度端到端 POMDP
  • 16.智能客服
  • 17.快速搭建一个智能客服机器人  开通机器人  新建或导入语料  领域知识  模型管理、训练
  • 18.快速搭建一个qabot:问题闭环  未解决问题学习  问答日志  问题诊断
  • 19.快速搭建一个qabot:运营统计  运营统计
  • 20.快速搭建一个qabot:接口调用  搜索提示接口  Token认证
  • 21.快速搭建一个qabot:接口调用  问答请求接口
  • 22.应用案例-售后智能客服
  • 23.应用案例-智能家居
  • 24.应用案例-智能呼叫中心
  • 25.应用案例-话务机器人
  • 26.EI体验空间 扫描小程序 为讲师及分享内容评分
  • 27.
  • 28.AI与云原生实践 2019.5.6 北京国际会议中心