黄国平,人机交互式机器翻译研究与应用

2020-02-27 2610浏览

  • 1.人机交互式机器翻译研究与应用 黄国平 腾讯AI Lab 高级研究员
  • 2.
  • 3.黄国平 @翻译驴 • 博士:中国科学院自动化研究所 • 模式识别国家重点实验室 • 机器翻译方向硕博连读 • 学位论文《人机交互式机器翻译研究与实现》 • 现在:腾讯AI Lab • 高级研究员 • 人机交互式机器翻译研究方向 • 总体负责独立产品“腾讯XX”(将上线)
  • 4.• 机器翻译现状简介 • 翻译需求与人工翻译行业 • 人机交互式机器翻译技术 • 人机交互式机器翻译应用 • 人工智能落地的一些思考
  • 5.机器翻译现状简介 藕 叶 花 上 深 初 处 生 田 并 田 蒂 叶 莲
  • 6.机器翻译现状简介
  • 7.机器翻译通行框架 编码器 这 是 成功 的 秘诀 解码器This is the secret of success机器翻译“编码器-解码器”结构
  • 8.机器翻译通行框架 这 是 成功 的 秘诀 注意力 模型This is the ? 采用注意力机制的机器翻译
  • 9.机器翻译通行框架 这 是 成功 的 秘诀 注意力 模型This is the ? 采用注意力机制的机器翻译
  • 10.State-of-the-art: 基于Transformer的机器翻译 编码器 N╳ Add & Norm Feed Forward Add & Norm Multi-Head Attention Linear & Softmax Add & Norm Feed Forward secret ? ? 解码器 Add & Norm Multi-Head Attention N╳ Masked Multi-Head Attention 位置编码 这 是 成功 的 秘诀This is the 参考文献: Attention is all you need 位置编码
  • 11.State-of-the-art: 基于Transformer的机器翻译
  • 12.机器翻译的训练 初始参数 模型 应用 解码 逐词解码Batch 新参数 如果有变化 计算损失 如果收敛 最终参数 最终优化目标:自动译文与参考译文的相似度
  • 13.机器翻译的困难 • 自然语言中普遍存在的歧义和未知现象 • 南京市长江大桥/休假式治疗/维修性拆除/节操碎了一地/屌丝/囧 • 青梅竹马/贱人就是矫情/驾……驾……/我去年买了个表 • 翻译不仅仅是字符串的转换 • 青梅竹马/高山流水/江湖/印堂发黑/欲练神功,必先自宫/一饮一啄饱蘸苦辣酸甜/面子/ 阳春白雪/下里巴人/你妈叫你回家吃饭了 • 翻译的解不唯一,而且始终存在人为的标准 • 这也是翻译专业的同学需要面对的问题 • 有的翻译穷其一生 • 最是那一低头的温柔,像一朵水莲花不胜凉风的娇羞
  • 14.• 机器翻译现状简介 • 翻译需求与人工翻译行业 • 人机交互式机器翻译技术 • 人机交互式机器翻译应用 • 人工智能落地的一些思考
  • 15.翻译需求与人工翻译行业 主战场在欧洲和北美洲 最大增速在非洲 国内主要语种是中译英 利润主要在于大量外单
  • 16.翻译需求与人工翻译行业 独角兽不独 充分多样性
  • 17.翻译需求与人工翻译行业 US$ M 490 471 300 100
  • 18.翻译需求与人工翻译行业 笔译为主 技术介入口译较少 机译份额较小,但快速增长
  • 19.翻译需求与人工翻译行业 10人以内团队为绝大多数 需要工具却无力支付正版
  • 20.• 机器翻译现状简介 • 翻译需求与人工翻译行业 • 人机交互式机器翻译技术 • 人机交互式机器翻译应用 • 人工智能落地的一些思考
  • 21.人机交互式机器翻译技术 全自动输出翻译结果 无法保证译文质量 人机交互输出翻译结果 接受用户提供译文干预 及时学习用户修改反馈 实时提供翻译辅助信息
  • 22.人机交互式机器翻译技术 人 工 翻 翻译输入法 译 参 交互式机器翻译 与 译后编辑 程 度 翻译质量自动评估 自动翻译质量
  • 23.人机交互式机器翻译技术 • 整句更新 • 片断提示 • 翻译输入法 • 在线学习 • 语义理解 • 快速解码 机器翻译在翻译中的角色
  • 24.人机交互式机器翻译技术 ——译后编辑 源文句子: At the meeting on UN Operational Activities for Development, Wang also stressed that developed countries should bear the primary responsibility for financing for development. 机器翻译: 联合国发展业务活动的一次会议上,王汉斌还强调,发达国家应发展筹资问题负有主要责 任。 Quality Estimation 稍加编辑 最终译文: 在联合国发展业务活动的会议上,王还强调,发达国家在发展筹资问题上应负主要责任。
  • 25.人机交互式机器翻译技术 ——交互式机器翻译 源文句子: At the meeting on UN Operational Activities for Development, Wang also stressed that developed countries should bear the primary responsibility for financing for development. 人工输入部分: 在联合国发展业务活动的 交互式机器翻译: 在联合国发展业务活动的一次会议上,王汉斌还强调,发达国家应发展筹 资问题负有主要责任。 反复交互 最终译文: 在联合国发展业务活动的会议上,王还强调,发达国家在发展筹资问题上应负主要责任。
  • 26.人机交互式机器翻译研究 ——约束解码方法 约束自动译文的生成
  • 27.人机交互式机器翻译研究 ——约束解码方法 硬约束: Grid Beam Search 翻译质量对比(BLEU) 改进后的软约束 翻译速度对比
  • 28.人机交互式机器翻译技术 ——翻译输入法 源文句子: China mulls change to officials’ welfare system 最终译文: 中国考虑改革公务员福利制度 谷歌输入法 微软输入法
  • 29.拼音输入法 拼音 汉字
  • 30.拼音输入法 音字转换概率 字音转换概率 语言模型概率 输入历史
  • 31.人机交互式机器翻译技术 ——翻译输入法 音字转换概率 字音转换概率 语言模型概率 输入历史 翻译概率 翻译规则 翻译假设
  • 32.人机交互式机器翻译技术 ——翻译输入法 源文句子: China mulls change to officials’ welfare system 最终译文: 中国考虑改革公务员福利制度
  • 33.人机交互式机器翻译研究 ——在线学习方法 及时学习用户修改反馈
  • 34.人机交互式机器翻译研究 ——在线学习方法 基于随机森林的在线翻译模型
  • 35.人机交互式机器翻译研究 ——在线学习方法 基于随机森林的在线翻译模型
  • 36.人机交互式机器翻译研究 ——在线学习方法 基于随机森林的在线翻译模型
  • 37.人机交互式机器翻译研究 ——翻译记忆 复用人工翻译结果
  • 38.人机交互式机器翻译研究 ——翻译记忆 融合翻译记忆的NMT(Transformer) 翻译质量对比(BLEU)
  • 39.• 机器翻译现状简介 • 翻译需求与人工翻译行业 • 人机交互式机器翻译技术 • 人机交互式机器翻译应用 • 人工智能落地的一些思考
  • 40.人机交互式机器翻译在腾讯 开放AI能力,赋能合作伙伴 公司内产品落地 同声传译 +语音识别 拍照翻译 +OCR 辅助翻译 +人机交互 机器翻译技术
  • 41.人机交互式机器翻译应用
  • 42.人机交互式机器翻译应用 Demo
  • 43.人机交互式机器翻译应用 Demo
  • 44.如何构建人机交互翻译系统? • 明确的需求 • 语种、领域、用途、业务系统接口 • 最相关的语料 • 200万句对以上 • 集成可用的state-of-the-art技术 • 输入法、术语抽取、翻译片段挖掘等 • 调试GPU集群、并行加速训练 • 部署上线并迭代
  • 45.难点在哪里? • 对自动译文质量过高的期望 • 开源系统的坑远比计划的多 • 如何甄别并且集成最新技术 • 如何拉通目标场景技术链条
  • 46.• 机器翻译现状简介 • 翻译需求与人工翻译行业 • 人机交互式机器翻译技术 • 人机交互式机器翻译应用 • 人工智能落地的一些思考
  • 47.人工智能落地的一些思考 • “调参大师”、“论文机器”与“代码工匠” • “数据鸿沟”与“工程壁垒” • “人工智能产品”与“用人工智能的产品”
  • 48.
  • 49.
  • 50.