小米智能云技术总监相非——从通信到交互-AI时代语音技术的机遇和挑战

2020-02-27 1277浏览

1.从通信到交互 - AI时代语音技术的挑战小米大脑相非 2017.09
2.远场语音前端面临的挑战 • 产品场景变化 • 通信 VS 识别 • 近场 VS 远场 • 声学环境复杂 • 工程化挑战 • 测试标准缺失 • 技术成熟度低
3.场景变化 • 通信 • 场景：近场为主 • 目标：语音清晰度、可懂度 • 技术指标：SNR、MOS分 • 测试标准：3GPP、ITU • 识别 • 场景：近场 + 远场 • 目标：语音特征分布？ • 技术指标：SNR？频域失真？ • 测试标准：？
4.声学环境扬声器麦克风阵列音乐回声扬声器干扰声源目标声源背景噪声
5.声学环境的挑战 • 目标移动 • 声学回波 • 背景噪声 • 房间混响 • 干扰声源 • 电视/音箱干扰 • 多干扰源并存（鸡尾酒会） • 干扰声源与目标声源的切换
6.房间混响
7.Initial Level Reflection Level Reverb Level Energy 房间混响模型 Direct Reflection <20ms 30~50ms Reverb Tail 100~1000ms Time
8.工程化挑战 • 硬件一致性要求 • 算法性能严重依赖麦克风阵列的一致性 • 扬声器频响特性对回波抑制影响 • 嵌入式平台的运算性能瓶颈 • 多通道处理带来运算量的成倍增加 • 家居产品的成本限制 • 声学调试 • 不同产品场景对声学指标要求的差异 • 算法对硬件声学设计的依赖性 • 模块间依赖和耦合关系
9.解决方案技术架构工程优化测试评估针对回波、噪声、混响的高鲁棒性算法设计单声源向多声源的算法迭代单点拾音向分布式拾音的技术演进硬件一致性自动检测及补偿功能基于CPU和GPU的性能深度优化灵活可配置的工程架构和算法模块设计确定识别率与前端指标的大致对应关系，实现指标量化结合智能家居场景设立测试标准，进行横向和纵向对比建立技术运营体系，不断发现和解决BadCase
10.智能语音能力建设核心技术体系物理声学、麦克风阵列设计多通道/单通道语音增强语音识别、命令识别、语音唤醒语音合成测试评估体系声学测试、麦克风测试增强算法测试唤醒率、识别率测试合成主客观测试技术运营体系业务指标、技术指标监控线上服务质量评估云端控制系统数据迭代体系数据采集与清洗数据标注模型迭代
11.用户体验改进模型测试测试技术用户改进体验线上监控技术迭代数据采集模型训练线上监控数据迭代
12.音视频内核核心技术体系-语音通信声学回声抵消混音技术视频码率/帧率/ 智能配置网络适应层 Jitter处理智能分包 RSFEC 时域FEC 乱序处理网络传输层接入层均匀发送基接本入垂选域择智能重传拥塞处理优先路由私网穿透通道选择
13.核心技术体系-语音交互物理层物理声学声腔结构麦克风阵列设计操作系统 Android iOS Linux 信号层回波抵消声源定位波束形成降噪去混响自动增益硬件平台 ARM DSP GPU X86 平台支持数据层人声检测唤醒词识别声纹识别属性识别语音识别语音合成网络部署接入调度负载均衡集群部署
14.技术架构-语音交互回波抵消声源定位客户端波束形成去混响降噪人声检测语音唤醒自动增益频域均衡本地识别编码频域均衡多通道增强模块音量控制自动增益语音合成音乐播放单通道增强模块识别及合成模块云端服务语音识别自然语言处理业务逻辑
15.技术架构-语音交互输入增益噪声抑制基带音频算法人声均衡自动增益回声抵消输出增益外放均衡自动增益人声均衡噪声抑制声码器 MODEM RF 已有模块待改进模块待开发模块
16.语音识别技术架构声学模型训练语音数据转写记录词典语言模型训练文本语料词典 Kaldi声学模型工具 Kaldi语言模型工具模型训练实时解码 PCM 特征提取声学模型解码词典语言模型声学解码音素词典搜索字词整句语言解码
17.小米人工智能电视 …
18.小米AI音箱 …
19.语音助手
20.谢谢大家，欢迎交流！