Language model
2020-03-01 156浏览
- 1.语言模型 陈远哲 51174500076 蒋程 51174500098 汤路民 51174500126 杨康 51174500143 殷佳玲 51174500145
- 2.Outline N 元 - 语言模型 平滑技术 神经语言模型 语言模型的应用
- 3.N 元 - 语言模型 51174500126 汤路民
- 4.语言模型 合乎语法,词义清晰 e.g. 美联储主席本 · 伯南克昨天告诉媒体 7000 亿美元的救助资金 将借给 上百家 给给给给 给 行、保 给给给给 公司和汽 给 给给给给 公司。 给给 语法不通,词义还算清晰 e.g. 本 · 伯南克美联储主席昨天 7000 亿美元的救助资金告诉媒 体将借给银行、保险公司和汽车公司上百家。 语法不通,词义不清晰 e.g. 美主车公席本 · 伯联汽司储南克救昨诉媒体 70 的助天告资 00 亿美将借给上元险公百金行、保家银司和。
- 5.语言模型 合乎语法,词义清晰 e.g. 美联储主席本 · 伯南克昨天告诉媒体 7000 亿美元的救助资 金将借给上百家银行、保险公司和汽车公司。 语法不通,词义还算清晰 e.g. 本 · 伯南克美联储主席昨天 7000 亿美元的救助资金告诉媒 体将借给银行、保险公司和汽车公司上百家。 语法不通,词义不清晰 e.g. 美主车公席本 · 伯联汽司储南克救昨诉媒体 70 的助天告资 00 亿美将借给上元险公百金行、保家银司和。
- 6.规则 统计 1970s ,科学家们试图通过判断文字序列是否符合文法、 含义是否正确等来定义语言模型。 文法规则太多,文法规则冲突,为解决冲突又定义规则 即使定义了完备的语法规则,也很难用计算机来解析 国足的状态一直很稳定。 1970 年以后,贾里尼克领导的 IBM 华生实验室通过基于 统计的方法将语音识别率从 70% 提升到 90% 。
- 7.语言模型 判断像不像人话 • sentence = list[, word 1, word 2, …, word n,] sentence 给 s , word 给 w e.g.: p( 我爱你中国 ) = p( 我,爱,你,中国) p(I love you Chinese) = p(I, love, you, Chinese) sentence 中国是发展中国家 tokenizer words 中国 是 发展中 国家
- 8.依赖关系 • 中国是 ? 中国是 给展 中国家。 中国是 发达国家。 后面的词与前面的词之间存在依赖关系
- 9.语言模型 • �1 �2 �3 �4 �5 ··· �� 计算复杂度 … � =5000,�=3 自由参数个数 1250 亿 … 可能性太多,无法估算
- 10.等价类 • = ) 自由参数数目大大减少 结果支撑
- 11.Markov Chain N-Gram • Markov Chain :当前时刻状态只取决前一时刻状态 任意一个给给给 前一个 给 给 给给给 : 有给 �1 �2 �3 �4 �5 �� ··· N-Gram 任意一个单词和它前 n-1 个给给给 有:给 N=3 �1 N=2 �2 �3 �4 �5 ··· ��
- 12.N 元 - 语言模型 之 n=1 • p( 我爱你中国) = p( 我 ) * p( 爱 ) * p( 你 ) * p( 中国 ) 实现: 统计 = 训练 搜集语料 模型参数 = 概率 遍历语料,统计“单词 - 频次” : (w , #w) 求出单词的概率,建立“词汇 - 概率”表 : (w, p(w)) 查表得 p(w1),p(w2)… 给 p(s) eg:略
- 13.N-Gram 之 n=2 Bi-Gram • 实现: 搜集语料 遍历语料 统计 2 元频次 : 统计单词 - 频次 : ()
- 14.N-Gram 之 n=2 Bi-Gram • 建立“词对 - 概率表”() 给 表 ,求出 e.g.
- 15.Bi-Gram 实例 • 语料 给 计 、建表 给 表 求概率
- 16.Bi-Gram 实例 统计建表 ¿ �� , � � > ¿ ¿ ¿ ¿ <� � , � � > ¿ � � ¿ � ( � � � � )= ¿ ¿ <� , ���� > ¿ ¿� � ( ���� � ) = ¿ �
- 17.Bi-Gram 实例
- 18.Bi-Gram 实例 查表
- 19.n-gram 的 n 对性能影响的大小 n↑ 对下一个词出现的约束信息更多,更具有辨别力 n-gram 统计的概率越多 更稀疏 n↓ 约束信息更少 . 统计结果更可靠 更稠密(有序词组共现次数更多)
- 20.语言模型评价 – perplexity( 困惑度 ) • 值越大,说明语言模型对语料库拟合越好 长句一般概率都比断句低 m 个位置单词得到的概率的倒数的几何平均 测试时: avg() ↓ 给 语言模型 ↑
- 21.语言模型评价 – perplexity( 困惑度 ) • perplexity 实际上计算的是每一个单词得到的概率的倒数 的几何平均,因此可以理解成模型预测下个单词的可选数 量。 E.g. 一个由 0-9 随机组成的长度为 m 的序列( n=1) 随机 给 每个位置每个数字的概率都是(真实分布)
- 22.log perplexity vs 交叉熵 • 加速计算 避免累乘导致浮点数向下溢出 x:词 u(x): 每个位置上单词的真实分布 自然语言的真实分布是未知的,用测试语料中的取样代替 v(x): 模型的预测分布
- 23.log perplexity vs 交叉熵 • = ↓ 预测分布越逼近于 真实分布 搜集到的语料代替
- 24.语料的选取 • 与应用场景密切结合 e.g. 腾讯搜索部门 - 网页搜索 训练时,用的是《人民日报》的预料,干净、无噪声,实际应用效果差 训练时,用的是网页数据,搜索质量反而好。 语料越大越好 置信度越高 噪声处理 网页数据
- 25.语料的问题 通过搜集的样本分布来拟合语料真实分布 经验损失(样本) 给 期望损失(真实) p(s) (样本)给 p(s) (真实) 语料的真实分布甚至是不知道 越大越好,多大是好? 大 = 全?
- 26.训练一个三元模型 • 汉语词汇量: 200,000 三元模型自由参数: 爬取了 100 亿个网页,每个网页平均 1000 字, 直接比值来计算条件概率,大部分概率为 0
- 27.语料的问题 通过搜集的样本分布来拟合语料真实分布 经验损失(样本) 给 期望损失(真实) p(s) (样本)给 p(s) (真实) 语料的真实分布甚至是不知道 越大越好,多大是好? 大 = 全?
- 28.零概率问题 • 并且 置信度太低了,不符合大数定理
- 29.平滑技术的提出 • 应用中,零概率问题是无法回避的,平滑技术很好地解决 了样本不足时的概率估计问题。
- 30.语言模型的更新 p(1080N 卡) =0.000000005 p( 理给给 )=0.05 高三 p(1080N 卡) =0.0005 p( 理综) =0.00005 现在
- 31.语言模型的更新 搜狗输入法
- 32.参考资料 数学之美 ( 第二版 ). 吴军 统计自然语言处理 ( 第二版 ). 宗成庆 Tensorflow 实战 Google 深度学习框架 ( 第二版 ). 郑泽宇 微信公众号 机器学习与自然语言处理
- 33.小结 语言模型:从规则到统计 从朴素给 言模型到 给 给 给 给 N-Gram N-Gram 的评价方法:困惑度 语料问题 N-Gram 的缺点
- 34.数据平滑技术 蒋程 51174500098 杨康 51174500143
- 35.• 数据平滑技术 • • • • • • • • • 问题的引入 拉普拉斯平滑 古德 - 图灵估计法 Katz 平滑方法 Jelinek-Mercer 平滑方法 Witten-Bell 平滑方法 绝对减值法 Kneser-Ney 平滑方法 Modified Kneser-Ney 平滑方法
- 36.背景 : 为什么要做平滑处理 ? • 举例: – bigram model : 给料给给:JOHN READ MOBY DICK MARY READ A DIFFERENT BOOK SHE READ A BOOK BY CHER
- 37.JOHN READ MOBY DICK MARY READ A DIFFERENT BOOK SHE READ A BOOK BY CHER • p(JOHN READ A BOOK) = p(JOHN •) p(READ JOHN) p(A READ) p(BOOK A) BOOK) = = ≈ 0.06 p(•
- 38.JOHN READ MOBY DICK MARY READ A DIFFERENT BOOK SHE READ A BOOK BY CHER • p(CHER READ A BOOK) = p(CHER •) p(READ CHER) p(A READ) p(BOOK A) p(• BOOK) = = = 0
- 39.数据稀疏问题 • MLE 给训练样本中未观察到的事件赋以 0 概率。 • 若某 n-gram 在训练语料中没有出现 , 则该 n-gram 的概率 必定是 0 。 • 解决的办法是扩大训练语料的规模。但是无论怎样扩大训练语料,都 不可能保给 所有的 给给给给给 在给 给 给 给 料中均出 给给给给给 。 • 在 NLP 领域中,数据稀疏问题永远存在,不太可能有一个足够 大的训练语料,因为语言中的大部分词都属于低频词。
- 40.数据平滑的基本思想 • 减值法 \ 折扣法( discounting ) 给整 最大似然估计的概率 给, 使零概率增给给 ,使非零概率下 给给给给给给 调,“劫富济贫”,消除零概率,改进模型的整体正确率。 • 基本约束:
- 41.拉普拉斯平滑 • 为了解决零概率的问题,法国数学家拉普拉斯最早提出用 加 1 的方法估计没有出现过的现象的概率,所以加法平滑 也叫做拉普拉斯平滑。 • 基本思想 : 每一种情况出给给 的次数加 给 给 给1
- 42.拉普拉斯平滑 • 对于 2-gram 有: – MLEestimate:'>estimate: