小米智能云技术总监相非——从通信到交互-AI时代语音技术的机遇和挑战
2020-02-27 1237浏览
- 1.从通信到交互 - AI时代语音技术的挑战 小米大脑 相非 2017.09
- 2.远场语音前端面临的挑战 • 产品场景变化 • 通信 VS 识别 • 近场 VS 远场 • 声学环境复杂 • 工程化挑战 • 测试标准缺失 • 技术成熟度低
- 3.场景变化 • 通信 • 场景:近场为主 • 目标:语音清晰度、可懂度 • 技术指标:SNR、MOS分 • 测试标准:3GPP、ITU • 识别 • 场景:近场 + 远场 • 目标:语音特征分布? • 技术指标:SNR?频域失真? • 测试标准:?
- 4.声学环境 扬声器 麦克风阵列 音乐回声 扬声器 干扰声源 目标声源 背景噪声
- 5.声学环境的挑战 • 目标移动 • 声学回波 • 背景噪声 • 房间混响 • 干扰声源 • 电视/音箱干扰 • 多干扰源并存(鸡尾酒会) • 干扰声源与目标声源的切换
- 6.房间混响
- 7.Initial Level Reflection Level Reverb Level Energy 房间混响模型 Direct Reflection <20ms 30~50ms Reverb Tail 100~1000ms Time
- 8.工程化挑战 • 硬件一致性要求 • 算法性能严重依赖麦克风阵列的一致性 • 扬声器频响特性对回波抑制影响 • 嵌入式平台的运算性能瓶颈 • 多通道处理带来运算量的成倍增加 • 家居产品的成本限制 • 声学调试 • 不同产品场景对声学指标要求的差异 • 算法对硬件声学设计的依赖性 • 模块间依赖和耦合关系
- 9.解决方案 技术架构 工程优化 测试评估 针对回波、噪声、混响的高鲁棒性算法设计 单声源向多声源的算法迭代 单点拾音向分布式拾音的技术演进 硬件一致性自动检测及补偿功能 基于CPU和GPU的性能深度优化 灵活可配置的工程架构和算法模块设计 确定识别率与前端指标的大致对应关系,实现指标量化 结合智能家居场景设立测试标准,进行横向和纵向对比 建立技术运营体系,不断发现和解决BadCase
- 10.智能语音能力建设 核心技术体系 物理声学、麦克风阵列设计 多通道/单通道语音增强 语音识别、命令识别、语音唤醒 语音合成 测试评估体系 声学测试、麦克风测试 增强算法测试 唤醒率、识别率测试 合成主客观测试 技术运营体系 业务指标、技术指标监控 线上服务质量评估 云端控制系统 数据迭代体系 数据采集与清洗 数据标注 模型迭代
- 11.用户体验改进模型 测试 测试 技术 用户 改进 体验 线上 监控 技术迭代 数据 采集 模型 训练 线上 监控 数据迭代
- 12.音视频 内核 核心技术体系-语音通信 声学回声抵消 混音技术 视频码率/帧率/ 智能配置 网络 适应层 Jitter处理 智能分包 RSFEC 时域FEC 乱序处理 网络 传输层 接入层 均匀发送 基接本入垂选域择 智能重传 拥塞处理 优先路由 私网穿透 通道选择
- 13.核心技术体系-语音交互 物理层 物理声学 声腔结构 麦克风阵列设计 操作系统 Android iOS Linux 信号层 回波抵消 声源定位 波束形成 降噪 去混响 自动增益 硬件平台 ARM DSP GPU X86 平台支持 数据层 人声检测 唤醒词识别 声纹识别 属性识别 语音识别 语音合成 网络部署 接入调度 负载均衡 集群部署
- 14.技术架构-语音交互 回波抵消 声源定位 客户端 波束形成 去混响 降噪 人声检测 语音唤醒 自动增益 频域均衡 本地识别 编码 频域均衡 多通道增强模块 音量控制 自动增益 语音合成 音乐播放 单通道增强模块 识别及合成模块 云端服务 语音识别 自然语言处理 业务逻辑
- 15.技术架构-语音交互 输入 增益 噪声抑制 基带音频算法 人声均衡 自动增益 回声抵消 输出 增益 外放均衡 自动增益 人声均衡 噪声抑制 声 码 器 MODEM RF 已有模块 待改进模块 待开发模块
- 16.语音识别技术架构 声学模型训练 语音数据 转写记录 词典 语言模型训练 文本语料 词典 Kaldi声学模型工具 Kaldi语言模型工具 模型训练 实时解码 PCM 特征提取 声学模型 解码词典 语言模型 声学解码 音素 词典搜索 字词 整句 语言解码
- 17.小米人工智能电视 …
- 18.小米AI音箱 …
- 19.语音助手
- 20.谢谢大家,欢迎交流!