AICon 科大讯飞陈志刚

2020-02-27 789浏览

  • 1.语音和语言技术 在AIUI语音交互中的应用 陈志刚 科大讯飞AI研究院副院长
  • 2.讲者介绍 陈志刚博士,现任科大讯飞AI研究院副院长,负 责认知智能研究及产品化落地工作。长期从事智 能语言及语音处理方向的科研工作,在语音合成、 语音识别、信息抽取、语音交互等方向有着多年 的研究和产品开发经验,目前担任科大讯飞语音 交互战略方向——AIUI的总工程师。
  • 3.• 语音交互的发展历程 • 语音交互的技术难点 • 语音交互中的语音和语言技术 • 语音交互的未来发展趋势
  • 4.人机交互的发展历程 PC时代 移动互联时代 键盘+鼠标 触摸、手写、手势、语音 智能生活时代 语音+视觉 从以机器为中心的人机交互,走向以人为中心的自然交互
  • 5.语音交互的智能发展路径 多模态 实体语音按键 具备语音能力 的APP 远场 情感 无需按键 全双工 机器人 语音唤醒 无需重复唤醒
  • 6.• 语音交互的发展历程 • 语音交互的技术难点 • 语音交互中的语音和语言技术 • 语音交互的未来发展趋势
  • 7.传统人机语音交互的链路环节 我要看 西游记 语音识别 语义理解 语音合成
  • 8.语音人机交互痛点 语音识别不准 语义理解不对 上下文关联、场景相关 环境嘈杂、离的远、方言口音 实体取名复杂 垂直领域术语、个性化词汇 人类发音口语化现象 即时场景下特有用语 信息内容不足 即时性 可用性 授权 垂直领域实体歧义 痛点 KEYPOINT 口语化、常识背景、省略说法 系统响应单一 机器反馈方式缺少变化 缺少通用对话管理策略
  • 9.• 语音交互的发展历程 • 语音交互的技术难点 • 语音交互中的语音和语言技术 • 语音交互的未来发展趋势
  • 10.自然人机交互的链路 回声消除 语音唤醒 端点检测 定向拾音 语音识别 无效拒识 离线识别 远场降噪 云端听写 语义理解 情感 纠错 对话管理 语音合成 内容管理 上下文信息 情境
  • 11.面向交互的语音技术
  • 12.语音技术细分 智能语音技术 语音合成 让机器会说 语音识别 语音评测 语音唤醒 让机器能判断 说得准不准 让机器能听 麦克风阵列 让机器听得清 声纹识别 让机器听出来 是谁 语种识别 让机器听出来 是哪种语言
  • 13.远场精准语音识别的声学影响因素 混响:Reverberation 人声干扰:Interference Other People 背景噪声:Background Noise Noise 回声:Echo
  • 14.麦克风阵列及声学信号处理技术 分布式网络 阵列系统 线性阵列 平面阵列 立体阵列 声源定位 确定说话人方位 波束形成 抑制环境噪声 远场去混响 消除环境混响 回声消除 随时可打断
  • 15.端点检测技术 时域+频域的特征 结合语义层面特征 能量 平均过零率 能量的门限 基频 … 基于语义的智能断句 我 想 周杰 伦 听 1.0s P(