AICon 科大讯飞陈志刚

2020-02-27 796浏览

1.语音和语言技术在AIUI语音交互中的应用陈志刚科大讯飞AI研究院副院长
2.讲者介绍陈志刚博士，现任科大讯飞AI研究院副院长，负责认知智能研究及产品化落地工作。长期从事智能语言及语音处理方向的科研工作，在语音合成、语音识别、信息抽取、语音交互等方向有着多年的研究和产品开发经验，目前担任科大讯飞语音交互战略方向——AIUI的总工程师。
3.• 语音交互的发展历程 • 语音交互的技术难点 • 语音交互中的语音和语言技术 • 语音交互的未来发展趋势
4.人机交互的发展历程 PC时代移动互联时代键盘+鼠标触摸、手写、手势、语音智能生活时代语音+视觉从以机器为中心的人机交互，走向以人为中心的自然交互
5.语音交互的智能发展路径多模态实体语音按键具备语音能力的APP 远场情感无需按键全双工机器人语音唤醒无需重复唤醒
6.• 语音交互的发展历程 • 语音交互的技术难点 • 语音交互中的语音和语言技术 • 语音交互的未来发展趋势
7.传统人机语音交互的链路环节我要看西游记语音识别语义理解语音合成
8.语音人机交互痛点语音识别不准语义理解不对上下文关联、场景相关环境嘈杂、离的远、方言口音实体取名复杂垂直领域术语、个性化词汇人类发音口语化现象即时场景下特有用语信息内容不足即时性可用性授权垂直领域实体歧义痛点 KEYPOINT 口语化、常识背景、省略说法系统响应单一机器反馈方式缺少变化缺少通用对话管理策略
9.• 语音交互的发展历程 • 语音交互的技术难点 • 语音交互中的语音和语言技术 • 语音交互的未来发展趋势
10.自然人机交互的链路回声消除语音唤醒端点检测定向拾音语音识别无效拒识离线识别远场降噪云端听写语义理解情感纠错对话管理语音合成内容管理上下文信息情境
11.面向交互的语音技术
12.语音技术细分智能语音技术语音合成让机器会说语音识别语音评测语音唤醒让机器能判断说得准不准让机器能听麦克风阵列让机器听得清声纹识别让机器听出来是谁语种识别让机器听出来是哪种语言
13.远场精准语音识别的声学影响因素混响：Reverberation 人声干扰：Interference Other People 背景噪声：Background Noise Noise 回声：Echo
14.麦克风阵列及声学信号处理技术分布式网络阵列系统线性阵列平面阵列立体阵列声源定位确定说话人方位波束形成抑制环境噪声远场去混响消除环境混响回声消除随时可打断
15.端点检测技术时域+频域的特征结合语义层面特征能量平均过零率能量的门限基频 … 基于语义的智能断句我想周杰伦听 1.0s P(