Language model

2020-03-01 156浏览

  • 1.语言模型 陈远哲 51174500076 蒋程 51174500098 汤路民 51174500126 杨康 51174500143 殷佳玲 51174500145
  • 2.Outline  N 元 - 语言模型 平滑技术 神经语言模型 语言模型的应用
  • 3.N 元 - 语言模型 51174500126 汤路民
  • 4.语言模型  合乎语法,词义清晰  e.g. 美联储主席本 · 伯南克昨天告诉媒体 7000 亿美元的救助资金 将借给 上百家 给给给给 给 行、保 给给给给 公司和汽 给 给给给给 公司。 给给  语法不通,词义还算清晰  e.g. 本 · 伯南克美联储主席昨天 7000 亿美元的救助资金告诉媒 体将借给银行、保险公司和汽车公司上百家。  语法不通,词义不清晰  e.g. 美主车公席本 · 伯联汽司储南克救昨诉媒体 70 的助天告资 00 亿美将借给上元险公百金行、保家银司和。
  • 5.语言模型  合乎语法,词义清晰  e.g. 美联储主席本 · 伯南克昨天告诉媒体 7000 亿美元的救助资 金将借给上百家银行、保险公司和汽车公司。  语法不通,词义还算清晰  e.g. 本 · 伯南克美联储主席昨天 7000 亿美元的救助资金告诉媒 体将借给银行、保险公司和汽车公司上百家。  语法不通,词义不清晰  e.g. 美主车公席本 · 伯联汽司储南克救昨诉媒体 70 的助天告资 00 亿美将借给上元险公百金行、保家银司和。
  • 6.规则  统计  1970s ,科学家们试图通过判断文字序列是否符合文法、 含义是否正确等来定义语言模型。  文法规则太多,文法规则冲突,为解决冲突又定义规则  即使定义了完备的语法规则,也很难用计算机来解析  国足的状态一直很稳定。  1970 年以后,贾里尼克领导的 IBM 华生实验室通过基于 统计的方法将语音识别率从 70% 提升到 90% 。
  • 7.语言模型  判断像不像人话 • sentence = list[, word 1, word 2, …, word n,]  sentence 给 s , word 给 w  e.g.: p( 我爱你中国 ) = p( 我,爱,你,中国)  p(I love you Chinese) = p(I, love, you, Chinese) sentence 中国是发展中国家 tokenizer words 中国 是 发展中 国家
  • 8.依赖关系 • 中国是 ?  中国是 给展 中国家。  中国是 发达国家。  后面的词与前面的词之间存在依赖关系
  • 9.语言模型 • �1 �2 �3 �4 �5 ··· ��  计算复杂度    …  � =5000,�=3 自由参数个数 1250 亿 … 可能性太多,无法估算
  • 10.等价类 • = )  自由参数数目大大减少  结果支撑
  • 11.Markov Chain  N-Gram • Markov Chain :当前时刻状态只取决前一时刻状态  任意一个给给给 前一个 给 给 给给给 : 有给 �1 �2 �3 �4 �5 �� ···  N-Gram  任意一个单词和它前 n-1 个给给给 有:给 N=3 �1 N=2 �2 �3 �4 �5 ··· ��
  • 12.N 元 - 语言模型 之 n=1 •  p( 我爱你中国) = p( 我 ) * p( 爱 ) * p( 你 ) * p( 中国 )  实现: 统计 = 训练  搜集语料 模型参数 = 概率  遍历语料,统计“单词 - 频次” : (w , #w)  求出单词的概率,建立“词汇 - 概率”表 : (w, p(w))   查表得 p(w1),p(w2)… 给 p(s) eg:略
  • 13.N-Gram 之 n=2  Bi-Gram •  实现:  搜集语料  遍历语料  统计 2 元频次 :  统计单词 - 频次 : ()
  • 14.N-Gram 之 n=2  Bi-Gram •  建立“词对 - 概率表”()   给 表 ,求出  e.g.
  • 15.Bi-Gram 实例 • 语料   给 计 、建表  给 表 求概率 
  • 16.Bi-Gram 实例  统计建表 ¿ �� , � � > ¿ ¿ ¿ ¿ <� � , � � > ¿ � � ¿ � ( � � � � )= ¿ ¿ <� , ���� > ¿ ¿� � ( ���� � ) = ¿ �
  • 17.Bi-Gram 实例
  • 18.Bi-Gram 实例  查表
  • 19.n-gram 的 n 对性能影响的大小 n↑  对下一个词出现的约束信息更多,更具有辨别力  n-gram 统计的概率越多  更稀疏 n↓  约束信息更少 .  统计结果更可靠  更稠密(有序词组共现次数更多)
  • 20.语言模型评价 – perplexity( 困惑度 ) • 值越大,说明语言模型对语料库拟合越好  长句一般概率都比断句低  m 个位置单词得到的概率的倒数的几何平均  测试时: avg() ↓ 给 语言模型 ↑
  • 21.语言模型评价 – perplexity( 困惑度 ) • perplexity 实际上计算的是每一个单词得到的概率的倒数 的几何平均,因此可以理解成模型预测下个单词的可选数 量。  E.g. 一个由 0-9 随机组成的长度为 m 的序列( n=1)  随机 给 每个位置每个数字的概率都是(真实分布) 
  • 22.log perplexity vs 交叉熵 •  加速计算  避免累乘导致浮点数向下溢出 x:词  u(x): 每个位置上单词的真实分布  自然语言的真实分布是未知的,用测试语料中的取样代替   v(x): 模型的预测分布
  • 23.log perplexity vs 交叉熵 • = ↓ 预测分布越逼近于 真实分布 搜集到的语料代替
  • 24.语料的选取 • 与应用场景密切结合  e.g. 腾讯搜索部门 - 网页搜索 训练时,用的是《人民日报》的预料,干净、无噪声,实际应用效果差  训练时,用的是网页数据,搜索质量反而好。  语料越大越好   置信度越高  噪声处理  网页数据
  • 25.语料的问题  通过搜集的样本分布来拟合语料真实分布  经验损失(样本) 给 期望损失(真实)  p(s) (样本)给 p(s) (真实)  语料的真实分布甚至是不知道  越大越好,多大是好?  大 = 全?
  • 26.训练一个三元模型 •     汉语词汇量: 200,000 三元模型自由参数: 爬取了 100 亿个网页,每个网页平均 1000 字, 直接比值来计算条件概率,大部分概率为 0
  • 27.语料的问题  通过搜集的样本分布来拟合语料真实分布  经验损失(样本) 给 期望损失(真实)  p(s) (样本)给 p(s) (真实)  语料的真实分布甚至是不知道  越大越好,多大是好?  大 = 全?
  • 28.零概率问题 •    并且   置信度太低了,不符合大数定理
  • 29.平滑技术的提出 • 应用中,零概率问题是无法回避的,平滑技术很好地解决 了样本不足时的概率估计问题。
  • 30.语言模型的更新 p(1080N 卡) =0.000000005 p( 理给给 )=0.05 高三 p(1080N 卡) =0.0005 p( 理综) =0.00005 现在
  • 31.语言模型的更新  搜狗输入法
  • 32.参考资料  数学之美 ( 第二版 ). 吴军  统计自然语言处理 ( 第二版 ). 宗成庆  Tensorflow 实战 Google 深度学习框架 ( 第二版 ). 郑泽宇  微信公众号 机器学习与自然语言处理
  • 33.小结      语言模型:从规则到统计 从朴素给 言模型到 给 给 给 给 N-Gram N-Gram 的评价方法:困惑度 语料问题 N-Gram 的缺点
  • 34.数据平滑技术 蒋程 51174500098 杨康 51174500143
  • 35.• 数据平滑技术 • • • • • • • • • 问题的引入 拉普拉斯平滑 古德 - 图灵估计法 Katz 平滑方法 Jelinek-Mercer 平滑方法 Witten-Bell 平滑方法 绝对减值法 Kneser-Ney 平滑方法 Modified Kneser-Ney 平滑方法
  • 36.背景 : 为什么要做平滑处理 ? • 举例: – bigram model : 给料给给:JOHN READ MOBY DICK MARY READ A DIFFERENT BOOK SHE READ A BOOK BY CHER
  • 37.JOHN READ MOBY DICK MARY READ A DIFFERENT BOOK SHE READ A BOOK BY CHER • p(JOHN READ A BOOK) = p(JOHN •) p(READ JOHN) p(A READ) p(BOOK A) BOOK) = = ≈ 0.06 p(•
  • 38.JOHN READ MOBY DICK MARY READ A DIFFERENT BOOK SHE READ A BOOK BY CHER • p(CHER READ A BOOK) = p(CHER •) p(READ CHER) p(A READ) p(BOOK A) p(• BOOK) = = = 0
  • 39.数据稀疏问题 • MLE 给训练样本中未观察到的事件赋以 0 概率。 • 若某 n-gram 在训练语料中没有出现 , 则该 n-gram 的概率 必定是 0 。 • 解决的办法是扩大训练语料的规模。但是无论怎样扩大训练语料,都 不可能保给 所有的 给给给给给 在给 给 给 给 料中均出 给给给给给 。 • 在 NLP 领域中,数据稀疏问题永远存在,不太可能有一个足够 大的训练语料,因为语言中的大部分词都属于低频词。
  • 40.数据平滑的基本思想 • 减值法 \ 折扣法( discounting ) 给整 最大似然估计的概率 给, 使零概率增给给 ,使非零概率下 给给给给给给 调,“劫富济贫”,消除零概率,改进模型的整体正确率。 • 基本约束:
  • 41.拉普拉斯平滑 • 为了解决零概率的问题,法国数学家拉普拉斯最早提出用 加 1 的方法估计没有出现过的现象的概率,所以加法平滑 也叫做拉普拉斯平滑。 • 基本思想 : 每一种情况出给给 的次数加 给 给 给1
  • 42.拉普拉斯平滑 • 对于 2-gram 有: – MLEestimate:'>estimate: