GMTC2018 《AI在叮咚智能音箱中的演进和应用》 施国强

2020-02-27 168浏览

  • 1.AI在叮咚智能音箱中的演进和应用 施国强 灵隆科技研发中心架构师
  • 2.
  • 3.
  • 4.• 智能音箱市场分析 • 智能音箱中的AI技术 • 智能音箱的发展趋势 • 讨论环节
  • 5.智能音箱市场分析
  • 6.
  • 7.智能音箱中的AI技术 • TTS语音合成 • VAD语音激活检测 • 语音唤醒 • 声纹 • 翻译和评测 •…
  • 8.TTS语音合成 • 将文本转换成声音可播放,使用的场景非常多 • TTS在近几年的发展状况: Ø 能提供TTS合成技术的厂家越来越多 Ø 制作一个TTS发音人的成本越来越低,包括研发成本和时间成本 Ø TTS合成技术本身,在自然度和流畅度上,也有不断的进步
  • 9.• 关于TTS大家关注的焦点 自然 甜美 关注 点 音质 多选 择
  • 10.• TTS合成在未来的发展 Ø 用自己的声音来作为TTS发音人 目前已能做到读一篇2000字的文章,即可生成这个人的音库。 技术已经成熟,很快就会应用到智能音箱中。 存在的问题: • 用户得有点耐心,将这2000字读完 • 是亮点、卖点,但不少用户可能更喜欢预置的甜美的声音 • 用户提供的语料非常少,提取的特征有限,相对于深度定制,人声的相似度要略差一些。
  • 11.Ø 带情感的TTS合成 • 文本是有场景的,例如新闻、笑话、恐怖小说、武侠小说等。在指定使用场 景的情况下,用特定的节奏、韵律和语气来合成是没问题的 • 需要解决的问题是,能否自动甄别出使用场景,不然可能就出笑话 • 基于大数据的情感分析技术
  • 12.VAD语音激活检测 • 语音激活检测,又称端点检测,分为前端点和后端点 • 前端点:检测语音什么时候开始不再是静音。可用于判断人开始说话。 • 后端点:检测语音什么时候开始从有声音变成是静音。可用于判断说话结束。 • 端点检测的意义:捕捉有效的音频,再进行后续的处理,减少不必要的数据处理。
  • 13.• VAD目前的现状和发展 基于声音能量 的VAD 叠加人声检测 和基于用户意 图的动态VAD 能量VAD改由 硬件实现 背景:目前很多芯片产品也冠了AI之名,将之前在软件层做的算法放到了硬件层,如 VAD、CNN,加速算法的执行,减小CPU的消耗
  • 14.• 基于人声检测和用户意图的动态VAD Ø 前端点和后端点超时时间的设置严重关乎用户体验 Ø 如何来解决有噪音环境下的端点检测问题 Ø 信息的及时反馈,不一定要等用户把话都说完了再输出识别结果
  • 15.语音唤醒 • 用户说指定的唤醒词,设备识别出之后才能进行后续的识别和操作。 • 为什么要有唤醒? 唤醒引擎必须要是本地引擎,而不能是云端的。智能音箱如果要支持唤醒,就意味着持续的 录音,如果在家中放个音箱,它在不断的进行录音和上传到别人的服务器上,这是件多么恐怖的 事情。 • 亚马逊智能音箱窃听风波
  • 16.• 语音唤醒技术的现状 • 支持语音唤醒的音箱,市面上多见的有2麦、3麦、4麦、6麦、7+1麦。在开放的环境 下,Mic的数量越多,可唤醒的距离越远、识别的效果越好。但考虑到结构等方面的 因素,不能完全看Mic的数量来评价唤醒效果的好坏。
  • 17.• 麦克风阵列的作用 • 声源定位 • 回声消除 • 噪声抑制 • 增益调节
  • 18.• 主流产品的唤醒效果对比
  • 19.• 我们的坚持 Ø 为了保证唤醒和识别效果,主流产品坚持使用6麦或7+1麦阵列 Ø 充分做好结构的验证,产品长什么样,不完全是ID说了算,确保结构设计不会影响到 唤醒和识别效果 Ø 做好硬件的验证,确保录音的品质(包括录音音质、各通道的同步性等) Ø 大量的数据分析,针对误唤醒和未唤醒 Ø 算法层面持续迭代,第三代基于CNN模型的唤醒和声学处理算法,通过对大量样本的 离线处理和效果分析,形成了很好的处理效果
  • 20.• 唤醒词的自定义 Ø 目前很多款智能音箱,都有固定的唤醒词,诸如天猫精灵、小爱同学、若琪 Ø 为了保证较好的唤醒效果,厂商也会在唤醒词的选择上下足功夫 • 从用户角度:好记、朗朗上口 • 从数据角度:容易唤醒、不容易误唤醒、日常生活中不太容易听到 • 从厂商角度:兼顾以上两点
  • 21.• 自定义唤醒词,用户可以给音箱设置自己喜欢的唤醒词,比方可以把 叮咚音箱的唤醒词设置成天猫精灵。我们有统计过,对于支持设置自 定义唤醒词的设备,有60%以上的用户修改了唤醒词。
  • 22.• 自定义唤醒词的技术难点 唤醒门限 唤醒词的 的设定 评估 训练模型 的数据 自定义 唤醒 设备运算 能力
  • 23.Ø 基于泛化技术形成数据模型 • 为了保证唤醒率,唤醒词往往需要百万级别的训练数据才能生成模型。 • 自定义唤醒词,没有现成的训练数据,要依托大数据的技术、直接泛化成相应 的数据模型,来保证训练数据的数量。
  • 24.Ø 自动的阈值调整 • 目前业界的唤醒方案基本上都涉及调节唤醒的阈值 • 阈值设置高了,唤醒率低,阈值设置低了,误唤醒又多,需要选取一个平衡点 • 常规做法:先选定唤醒词,然后在一个大的测试集上进行调节 • 常规方案不适合自定义唤醒的实时需求,为此我们研发了一套稳定的阈值设置方案, 针对不同唤醒词自动设置唤醒阈值。
  • 25.Ø 唤醒效果评价机制 • 并非所有的词语都适合做唤醒词,我们引入量化的客观标准,通过评星级的方式来告 诉用户唤醒词的级别,引导用户作出正确选择 • 有哪些标准: p4-6个字 p音节覆盖尽量多 p相邻音节要规避 p太经常说的词语尽量规避,误唤醒的概率偏高
  • 26.Ø 工程化过程中的算法优化 • Why p 自定义唤醒的算法由于引入了新的数据模型,导致运算量大幅上涨 p 优化算法本身,尤其是降噪和回声消除,8个Mic就涉及到8路的降噪和回声消除 • How p 算法定点化 p 加入前置的激活检测,提高语音数据的准入标准,减少数据的处理量,避免无用的数据计算。
  • 27.Ø 唤醒词模型的不断迭代 • 生成的自定义唤醒词模型,在用户使用的过程中有条件对其进一步优化 • 深度定制的唤醒词效果优于自定义,一个重要原因是使用大量真实的语料进行了训练 • 使用自定义唤醒词时的唤醒语料,可用于优化唤醒词模型 • 自定义唤醒词使用的次数越多,积累的语料越多,唤醒效果越好
  • 28.• 多唤醒词 Ø 市面上的智能音箱,活动的唤醒词往往只有1个,同一时刻只能对一个词做出响应 Ø 多唤醒词的实现绝不是机械的叠加 Ø 唤醒词的简单叠加,可能会降低主唤醒词的效果,同时大幅增加了处理的数据量 Ø 不唤醒而直接语音操控歌曲播放,每家的实现方式可能有所不同,叮咚是采用1个主唤 醒词+多个副唤醒词的形式 Ø 叮咚对于常用的几个唤醒词,使用了大量的样本进行优化和验证,确保对主唤醒词的 效果影响很小
  • 29.• 语音唤醒技术在未来的发展 更多基于24麦的产品 唤醒时定位 不再标配 自定义唤醒 成为标配 唤醒效果的 不断提升
  • 30.声纹 • 声纹,类似于指纹,可以代表一个人的特征,在较长的时间内是相对稳定的。 • 两大分类 p 文本相关 p 文本无关
  • 31.• 文本相关 根据特定的文本建立模型,用户必须说这个特定的文本才能进行匹配 特点: 开发门槛低,但用户必须说特定的词句
  • 32.• 文本无关 不强求说话的内容,用户说什么词句都可以进行模式匹配 特点: 模型建立困难,开发门槛高,但使用方便,应用的场景广泛
  • 33.• 目前主流技术路线的选择 Ø 基本都采用了文本相关的方案 Ø 注册时都采用固定的词句--唤醒词 Ø 唤醒时触发声纹相关的逻辑
  • 34.• 使用声纹时面临的问题 Ø 闭集和开集 闭集 • 假定使用音箱的人一定进行过声纹的注册 • 如果使用场景符合假定的前提,可以很准确的区分说话人,准确率能达到95%以上 • 可以把门限调的较低,以此来提高准确率 • 原则:宁错勿漏
  • 35.开集 • 没有前提假设,使用音箱的可能是陌生人,从未进行过声纹注册 • 当匹配门限较低时,可能会出现冒认。一个陌生人可能会被认为是已注册的人 • 为了避免冒认,人为的提高门限 • 门限提高,匹配率下降 • 原则:宁漏勿错
  • 36.距离设备1m,有85db的背景噪音和单曲循环播放歌曲场景下的召回率测试
  • 37.同等环境下,增加事先未注册过的人进行冒认率测试
  • 38.• 如何权衡开集、闭集的问题 Ø 提高注册时特征采集的门槛 能量达 标 能唤醒 语音识别 匹配程度 达标 交互上提示保 持环境安静
  • 39.Ø 提高注册时音频处理效果 • 增强的降噪,充分利用麦克风阵列的优势,提高信噪比 • 更精确的音频切分,前后误差控制在50ms内,精度远远超出常规的VAD 录音数据采集,对样本进行人工剪裁、标注 使用人工剪裁的音频进行模型训练 对原样本使用模型进行剪裁 相对于人工剪裁的前后误差均在50ms内的,认为符合要求 模型修正
  • 40.Ø 声纹特征的持续更新 • 注册时进行第一次特征采集,使得功能可用 • 使用时对于高匹配度、高品质的音频保留其特征,可用于下一次模式匹配 • 类似于自定义唤醒技术,都有持续学习的过程。
  • 41.Ø 评估合适的门限 通过采集大量的录音数据,和人工标注的方法,得出几种场景下的门限: • 高安全性:宁漏勿错,但不能漏的很离谱 • 高匹配率:宁错勿漏,但不能错的很夸张
  • 42.Ø 应用场景的划分 • 确定产品定位,非常严谨(军工级?)or 自娱自乐 • 不同场景的要求不同,例如用于支付验证的场景一定要求很高。不同的场景采用不同 的门限。
  • 43.• 声纹支付 Ø 目前的声纹技术如果用于支付验证,有点冒险。 Ø 当前采用的往往是基于固定语言模型的声纹方案。 Ø 固定语句有录音回放的风险。 Ø 追求匹配率,会丧失基本的安全性。
  • 44.• 基于声纹及特征的个性化推荐 Ø 基于声纹的个性化推荐。在唤醒时识别出发音人,并根据用户的使用记录,做特定的 个性化推荐。 Ø 基于性别、年龄特征的个性化推荐。在未进行声纹注册时,也能根据发音人的男女老 幼信息做相关的推荐。
  • 45.• 声纹技术在音箱上应用的趋势 Ø 过渡到文本无关的方案上来,或者是文本无关、文本相关都同时具备 Ø 由于技术本身的限制,可能会增加声纹注册的录音时长 Ø 声纹支付和语音购物在充分优化用户体验后,用户的热度会增加 Ø 厂商会基于声纹的识别,加强对不同的用户推个性化的服务
  • 46.• 中英文翻译 p 语音识别 p 翻译 • 中英文评测 • 外语学习 智能音箱与教育
  • 47.智能音箱的发展趋势 Ø 国内在相当长一段时间内,智能音箱的主要角色还是播放音乐的音箱 Ø 基于音箱开放平台的第三方应用越来越多 Ø 带屏幕和摄像头会成为新的趋势 Ø 人脸识别技术的引入 Ø AR的应用
  • 48.Ø 智能音箱主要是音箱 • Amazon Dot的成功短期内在国内难以复制 • 价格战下,售价拼到了百元以下,蓝牙音箱的市场受到冲击 • 版权在国内受到重视,内容问题成为了头等大事 • 用户最关注的需求,是资源点播能有更好的体验
  • 49.• 国内资源内容的现状: p 精品内容的版权掌握在少数人手里 p 每一家的版权都覆盖不全,只是量多量少的问题 p 即使让接入,你不一定能得到metadata p 接口受限,提高用户体验还需下苦功夫
  • 50.• 优化资源的点播体验,我们要做的 p 投入人力,给热门歌曲打上标签(一首歌可能有多个标签) p 云端记录用户的播放记录,通过歌名来匹配歌曲标签,分析用户喜好 p 做好歌曲的推荐,用户不用费脑筋来想我要听什么 • 基于性别年龄信息,做好歌曲的推荐 • 基于声纹做用户画像,即使一台设备有多个人用,也有针对性的做歌曲推荐 • 根据歌曲的标签,做好歌曲的关联推荐
  • 51.Ø 基于智能音箱的第三方开发 语音识 多轮交 别 互 TTS播 报资源 播放 声纹识 别 智能音箱提供的能力 云服务 NLP模 板 智能家 居专用 文法 DEMO 研发支 撑 智能音箱厂家提供的支持
  • 52.• 叮咚开放平台 目前各开放平台的显著特征: • 门槛低 开发过程模板化,开发者不用关心语 音的处理过程,更多的是关注输入的 条件和输出 • 成本低 提供云服务,不用关心运营成本
  • 53.Ø 带屏智能音箱的兴起 继2017年5月Echo Show发布后,近期国内也上市了几款带屏的智能音箱产品
  • 54.• 带屏音箱的优势 • 强交互 • 人脸识别,弥补声纹识别的短处 • 视频通话 • AR场景的融入
  • 55.• 带屏音箱面临的问题和挑战 • 人脸识别 p 比人脸打卡有更高的要求(更远的距离、更广的角度) p 无屏智能音箱宣传唤醒距离的指标,也绑架了人脸识别 p 为了人脸识别的准确性,要求有更高清晰度的拍摄效果 p 更高像素的摄像头,需要更好的处理器,更高的硬件成本投入
  • 56.• 麦克风阵列技术和声学处理算法 p 环形麦克风阵列不再适用 p 结构设计更复杂 p 高价标配高功率喇叭,对算法本身的挑战性 p 语音通话时要引入双麦通话降噪算法
  • 57.• 带屏音箱对AI技术的进一步要求 p 人脸识别,更远的距离,更快的响应,更少的运算量,减少硬件成本负担 p 消费级的线性麦克风阵列技术还需要进一步优化 p 其它传感器的引入(红外?),借助于红外检测和人脸识别一体的唤醒技术 p 带屏智能音箱是AR技术最好的载体,也承载着厂商对于提升自身购物体验的愿景
  • 58.AR技术结合线上购物
  • 59.
  • 60.
  • 61.
  • 62.