Language model

2020-03-01 156浏览

1.语言模型陈远哲 51174500076 蒋程 51174500098 汤路民 51174500126 杨康 51174500143 殷佳玲 51174500145
2.Outline  N 元 - 语言模型 平滑技术 神经语言模型 语言模型的应用
3.N 元 - 语言模型 51174500126 汤路民
4.语言模型  合乎语法，词义清晰  e.g. 美联储主席本 · 伯南克昨天告诉媒体 7000 亿美元的救助资金将借给上百家给给给给给行、保给给给给公司和汽给给给给给公司。给给  语法不通，词义还算清晰  e.g. 本 · 伯南克美联储主席昨天 7000 亿美元的救助资金告诉媒体将借给银行、保险公司和汽车公司上百家。  语法不通，词义不清晰  e.g. 美主车公席本 · 伯联汽司储南克救昨诉媒体 70 的助天告资 00 亿美将借给上元险公百金行、保家银司和。
5.语言模型  合乎语法，词义清晰  e.g. 美联储主席本 · 伯南克昨天告诉媒体 7000 亿美元的救助资金将借给上百家银行、保险公司和汽车公司。  语法不通，词义还算清晰  e.g. 本 · 伯南克美联储主席昨天 7000 亿美元的救助资金告诉媒体将借给银行、保险公司和汽车公司上百家。  语法不通，词义不清晰  e.g. 美主车公席本 · 伯联汽司储南克救昨诉媒体 70 的助天告资 00 亿美将借给上元险公百金行、保家银司和。
6.规则  统计  1970s ，科学家们试图通过判断文字序列是否符合文法、含义是否正确等来定义语言模型。  文法规则太多，文法规则冲突，为解决冲突又定义规则  即使定义了完备的语法规则，也很难用计算机来解析  国足的状态一直很稳定。  1970 年以后，贾里尼克领导的 IBM 华生实验室通过基于统计的方法将语音识别率从 70% 提升到 90% 。
7.语言模型  判断像不像人话 • sentence = list[, word 1, word 2, …, word n,]  sentence 给 s , word 给 w  e.g.: p( 我爱你中国 ) = p( 我，爱，你，中国）  p(I love you Chinese) = p(I, love, you, Chinese) sentence 中国是发展中国家 tokenizer words 中国是发展中国家
8.依赖关系 • 中国是？  中国是给展中国家。  中国是发达国家。  后面的词与前面的词之间存在依赖关系
9.语言模型 • �1 �2 �3 �4 �5 ··· ��  计算复杂度    …  � =5000,�=3 自由参数个数 1250 亿 … 可能性太多，无法估算
10.等价类 • = ）  自由参数数目大大减少  结果支撑
11.Markov Chain  N-Gram • Markov Chain ：当前时刻状态只取决前一时刻状态  任意一个给给给前一个给给给给给 : 有给 �1 �2 �3 �4 �5 �� ···  N-Gram  任意一个单词和它前 n-1 个给给给有:给 N=3 �1 N=2 �2 �3 �4 �5 ··· ��
12.N 元 - 语言模型之 n=1 •  p( 我爱你中国) = p( 我 ) * p( 爱 ) * p( 你 ) * p( 中国 )  实现：统计 = 训练  搜集语料模型参数 = 概率  遍历语料，统计“单词 - 频次” : (w ， #w)  求出单词的概率，建立“词汇 - 概率”表 : (w, p(w))   查表得 p(w1),p(w2)… 给 p(s) eg:略
13.N-Gram 之 n=2  Bi-Gram •  实现：  搜集语料  遍历语料  统计 2 元频次 :  统计单词 - 频次 : ()
14.N-Gram 之 n=2  Bi-Gram •  建立“词对 - 概率表”（）   给表，求出  e.g.
15.Bi-Gram 实例 • 语料   给计、建表  给表求概率 
16.Bi-Gram 实例  统计建表 ¿ �� , � � > ¿ ¿ ¿ ¿ <� � , � � > ¿ � � ¿ � ( � � � � )= ¿ ¿ <� , �� > ¿ ¿� � ( �� ) = ¿ �
17.Bi-Gram 实例
18.Bi-Gram 实例  查表
19.n-gram 的 n 对性能影响的大小 n↑  对下一个词出现的约束信息更多，更具有辨别力  n-gram 统计的概率越多  更稀疏 n↓  约束信息更少 .  统计结果更可靠  更稠密（有序词组共现次数更多）
20.语言模型评价 – perplexity( 困惑度 ) • 值越大，说明语言模型对语料库拟合越好  长句一般概率都比断句低  m 个位置单词得到的概率的倒数的几何平均  测试时： avg() ↓ 给语言模型 ↑
21.语言模型评价 – perplexity( 困惑度 ) • perplexity 实际上计算的是每一个单词得到的概率的倒数的几何平均，因此可以理解成模型预测下个单词的可选数量。  E.g. 一个由 0-9 随机组成的长度为 m 的序列（ n=1)  随机给每个位置每个数字的概率都是（真实分布） 
22.log perplexity vs 交叉熵 •  加速计算  避免累乘导致浮点数向下溢出 x:词  u(x): 每个位置上单词的真实分布  自然语言的真实分布是未知的，用测试语料中的取样代替   v(x): 模型的预测分布
23.log perplexity vs 交叉熵 • = ↓ 预测分布越逼近于真实分布搜集到的语料代替
24.语料的选取 • 与应用场景密切结合  e.g. 腾讯搜索部门 - 网页搜索训练时，用的是《人民日报》的预料，干净、无噪声，实际应用效果差  训练时，用的是网页数据，搜索质量反而好。  语料越大越好   置信度越高  噪声处理  网页数据
25.语料的问题  通过搜集的样本分布来拟合语料真实分布  经验损失（样本）给期望损失（真实）  p(s) （样本）给 p(s) （真实）  语料的真实分布甚至是不知道  越大越好，多大是好？  大 = 全？
26.训练一个三元模型 •     汉语词汇量： 200,000 三元模型自由参数：爬取了 100 亿个网页，每个网页平均 1000 字，直接比值来计算条件概率，大部分概率为 0
27.语料的问题  通过搜集的样本分布来拟合语料真实分布  经验损失（样本）给期望损失（真实）  p(s) （样本）给 p(s) （真实）  语料的真实分布甚至是不知道  越大越好，多大是好？  大 = 全？
28.零概率问题 •    并且   置信度太低了，不符合大数定理
29.平滑技术的提出 • 应用中，零概率问题是无法回避的，平滑技术很好地解决了样本不足时的概率估计问题。
30.语言模型的更新 p(1080N 卡） =0.000000005 p( 理给给）=0.05 高三 p(1080N 卡） =0.0005 p( 理综） =0.00005 现在
31.语言模型的更新  搜狗输入法
32.参考资料  数学之美 ( 第二版 ). 吴军  统计自然语言处理 ( 第二版 ). 宗成庆  Tensorflow 实战 Google 深度学习框架 ( 第二版 ). 郑泽宇  微信公众号机器学习与自然语言处理
33.小结      语言模型：从规则到统计从朴素给言模型到给给给给 N-Gram N-Gram 的评价方法：困惑度语料问题 N-Gram 的缺点
34.数据平滑技术蒋程 51174500098 杨康 51174500143
35.• 数据平滑技术 • • • • • • • • • 问题的引入拉普拉斯平滑古德 - 图灵估计法 Katz 平滑方法 Jelinek-Mercer 平滑方法 Witten-Bell 平滑方法绝对减值法 Kneser-Ney 平滑方法 Modified Kneser-Ney 平滑方法
36.背景 : 为什么要做平滑处理 ? • 举例： – bigram model ：给料给给：JOHN READ MOBY DICK MARY READ A DIFFERENT BOOK SHE READ A BOOK BY CHER
37.JOHN READ MOBY DICK MARY READ A DIFFERENT BOOK SHE READ A BOOK BY CHER • p(JOHN READ A BOOK) = p(JOHN •) p(READ JOHN) p(A READ) p(BOOK A) BOOK) = = ≈ 0.06 p(•
38.JOHN READ MOBY DICK MARY READ A DIFFERENT BOOK SHE READ A BOOK BY CHER • p(CHER READ A BOOK) = p(CHER •) p(READ CHER) p(A READ) p(BOOK A) p(• BOOK) = = = 0
39.数据稀疏问题 • MLE 给训练样本中未观察到的事件赋以 0 概率。 • 若某 n-gram 在训练语料中没有出现 , 则该 n-gram 的概率必定是 0 。 • 解决的办法是扩大训练语料的规模。但是无论怎样扩大训练语料，都不可能保给所有的给给给给给在给给给给料中均出给给给给给。 • 在 NLP 领域中，数据稀疏问题永远存在，不太可能有一个足够大的训练语料，因为语言中的大部分词都属于低频词。
40.数据平滑的基本思想 • 减值法 \ 折扣法（ discounting ）给整最大似然估计的概率给, 使零概率增给给，使非零概率下给给给给给给调，“劫富济贫”，消除零概率，改进模型的整体正确率。 • 基本约束：
41.拉普拉斯平滑 • 为了解决零概率的问题，法国数学家拉普拉斯最早提出用加 1 的方法估计没有出现过的现象的概率，所以加法平滑也叫做拉普拉斯平滑。 • 基本思想 : 每一种情况出给给的次数加给给给1
42.拉普拉斯平滑 • 对于 2-gram 有： – MLEestimate:'>estimate: