视音chp3 数字声音编码
2020-03-01 141浏览
- 1.多媒体技术基础 ( 第 3 版 ) 第 3 章 数字声音编码 数字媒体技术系
- 2.第 3 章 数字声音编码目录 3.1 基本概念 3.2 音频信号数字化 3.3 声音质量的 MOS 评分标准 3.4 音频信号压缩编码 3.5 语音压缩编码标准 3.6 常见多媒体应用的语音编码器的选择 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 3.3.1 基本概念 —声音 声音是什么 声音是听觉器官对声波的感知,而声波是通过空气或 其他媒体传播的连续振动 声波具有普通波所具有的特性,例如反射 (reflection) 、折射 (refraction) 和衍射 (diffraction) 等 声音的强弱体现在声波压力的大小(声波的幅度)上 ,音调的高低体现在声音的频率上 声音信号在时间和幅度上都是连续的模拟信号,如图 3-1 所示 图 3-1 声音是一种连续的波 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 4.3.1 基本概念 —声音的频率 声音的频率 高保真声音 (high-fidelity audio): 10 ~ 20 000 Hz 声音 (audio): 20~ 20 000Hz 话音 (speech): 300~3000/3400 Hz 话音 / 次音 (subsonic): < 20 Hz 超声 (ultrasonic): > 20 000 Hz Tuesday, May 14, 2019 第 3 章 数字声音编码
- 5.3.1 基本概念 —声音的听觉感知特性 对响度的感知 声音的响度就是声音的强弱 在物理上,用 dyn/cm2( 达因 / 平方厘米 )( 声压 ) 或 W/cm2( 瓦特 / 平方厘米 )( 声强 ) 度量 在心理上,主观感觉的声音强弱使用响度级“方 (phon)” 或“宋 (sone)” 来度量 这两种计量单位完全不同,但它们之间有一定的 联系 人耳的听觉范围 听话话 :当声音弱到人耳 话 话 话 话 话 话 话 话话话 可听 话 话话话 的声音 话 话 话话 度 痛话话 :声音 话 话 话话 到使人耳感到疼痛 话 话 话 话 话 话 话 话话 的声音 话 话 话话 度 听觉范围:位于听阈和痛域之间,见图 3-2 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 6.3.1 基本概念 —声音的听觉感知特性 图 3-2 “ 听阈—频率”曲线和“痛阈—频率”曲线 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 7.3.1 基本概念 —声音的听觉感知特性 对音高 ( 频率 ) 的感知 人耳对频率的感知范围,可以听到 最低频率约 20 Hz 最高频率约 20000 Hz Tuesday, May 14, 2019 第 3 章 数字声音编码
- 8.3.1 基本概念 —声音的听觉感知特性 掩蔽效应 一种频率的声音阻碍听觉系统感受另一种频 率的声音的现象 前者称话话 掩蔽声音 话 话 话 (masking tone) 后者称话话 被掩蔽声音 话 话 话 话 (masked tone) 掩蔽可分成频域掩蔽和时域掩蔽 频域掩蔽 一个强纯音掩蔽在其附近同时发声的弱纯音的特 性,也称同时掩蔽 (simultaneous masking), 如图 3-3 所示 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 9.3.1 基本概念 —声音的听觉感知特性 图 3-3 频域掩蔽 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 10.3.1 基本概念 —声音的听觉感知特性 图 3-4 中的一组曲线表示为 250 Hz , 1 kHz 和 4 kHz 纯音的掩蔽效应,它们的声强均为 60 dB 250 Hz , 1 kHz 和 4 kHz 附近,话话 其他 话 话话 音的掩蔽效果 话话 话话话 最明显 低频纯音可有效地掩蔽高频纯音,相反则不明显 图 3-4 不同纯音的掩蔽效应曲线 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 11.3.1 基本概念 —声音的听觉感知特性 临界频带 (critical band) 人耳刚可感知两种频率的声音有差别的频率范围 通常认为声音 (audio) 有 25 个临界频带,见表 31 临界频带的宽度随声音频率的变化而变化 在低频端,宽度小于 100 Hz ,可认为接近于常数 在高频端,宽度近似线性增加,宽度可大到 4 kHz 临界频带的单位为 Bark( 巴克 ) 1 Bark 等于一个临界频带的宽度 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 12.3.1 基本概念 —声音的听觉感知特性 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 13.3.1 基本概念 —声音的听觉感知特性 时域掩蔽 在时间上相邻的声音之间的掩蔽 一个强掩蔽音出现前、同时存在时或消失后的掩 蔽效果见图 3-5 同时掩蔽 (simultaneous masking) :信号和掩蔽音同时 产生的现象 滞后掩蔽 (post-masking) :信号出现在掩蔽音消失后出 现的现象,可以持续 50 ~ 200 ms 超前掩蔽 (pre-masking) :信号出现在掩蔽音出现之前 产生的现象。虽然对超前掩蔽有许多研究报告,但这 种现象依然令人费解。超前掩蔽很短,通常只有大约 2 ~ 20 ms , 产生时域掩蔽的主要原因 Tuesday, May 14, 2019 人的大脑处理信息需要花费一定的时间 第 3 章 数字声音编码
- 14.3.1 基本概念 —声音的听觉感知特性 Tuesday, May 14, 2019 图 11-5 时域掩蔽 第 3 章 数字声音编码
- 15.3.1 基本概念 —声道 声道 单声道 (Monophonic) 意味着单个声源, 而立体声并不 表示有两个声源, 立体声 (Stereophonic) 指的是三维 听觉效果。 为了确定声源位置, 大脑要将每个耳 朵所听到声音的三个属性进行比较, 这三个属性分 别是: 幅值 (Amplitude) : 如果左耳听到的声音比右耳的大, 那么我 话就 认 话 话 声音在左 话话话 话话 。 相位 (Phase) : 如果人的两耳听到的信号具有相同的相位, 那 么大脑就认为声音在中部; 如果两耳听到信号有 180° 的相位 差, 那么声音就不包含方向信息了。 时序 (Timing) : 声音的传播速度为 1 英尺每毫秒; 如果声音 到达右耳的时间比到达左耳的早, 我们就认为声源就在右边。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 16.3.1 基本概念 —声道 一般来说, 如果听众所处的位置刚好是两个声源( 例如两个扬声器)的中轴线上, 则听众就可以享受 三维立体声的效果; 否则听众就会失去完全的立体 声效果, 因为他距离其中一个声源的距离更短。 声源位置可以通过添加一个中央通道的方法来确定 。 为此, Dolby 公司在上个世纪 70 年代就实现 了由四个声道产生三维立体声的效果, 这四个声道 分别是: 左声道、 右声道、 中央声道、 环绕声 道。 为了使声音更加丰富, 现在的立体声剧院( 包括家庭剧院)都增加了一个超低音声道, 主要目 的是增强低音。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 17.3.2 声音信号数字化 数字化的概念 采样和量化 连续时间的离散化通过采样来实现,就是每隔相等的一段时 间采样一次,这种采样称为均匀采样 (uniform sampling) 连续幅度的离散化通过量化 (quantization) 来实现,就是把信 号的强度划分成一小段一小段,如果幅度的划分是等间隔的 ,就称为线性量化,否则就称为非线性量化。图 3-2 表示了 声音数字化的概念 图 3-2 声音的采样和量化 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 18.3.2 声音信号数字化 ( 续 1) 采样频率 采样频率由根据奈奎斯特理论 (Nyquist theory) 确定 奈奎斯特理论指出,采样频率不应低于声音信号最高频率 的两倍,这样就能把以数字表达的声音还原成原来的声音 ,这叫做无损数字化 (lossless digitization) 假设被采样信号的最高频率为 fmax ,话 采 话 话话 定律可 话 话 用公式表示为 f s �2 f max 可这样来理解奈奎斯特理论 声音信号可看成是由许多正弦波组成的,一个振幅为 A 、频率 为 f 的正弦波至少需要两个采样样本表示,因此,如果一个信 号中的最高频率为 fmax , 采样频率最低要选择 2 fmax 。例如, 话音信号的最高频率约为 3.4 kHz ,采样频率就选为 8 kHz Tuesday, May 14, 2019 第 3 章 数字声音编码
- 19.3.2 声音信号数字化 ( 续 2) 采样精度 度量声音波形幅度的精确程度,用每个声音样本的 位数 ( 即 bps) 表示 例如每个声音样本用 16 位表示,测得的声音样本值 是在 [0 ~ 65535] 范话 里的数,它的精度是 话 话 话 话 话 话 话 话 话 1/65536 精度是在模拟信号数字化过程中度量模拟信号的最小 单位,因此也称量化阶 (quantization step size) 0 ~ 1 V 的电压用 256 个数表示时,量化阶等于 1/256 V 样本位数的大小影响到声音的质量,位数越多,声 音质量越高,所需存储空间也越多;位数越少,声 音质量就越低,所需存储空间也越少 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 20.3.2 声音信号数字化 ( 续 3) 采样精度的另一种表示方法是信号噪声比, 简称为信噪比 (signal-to-noise ratio , SNR) ,并用下式计算 SNR 10 log10 � (Vsignal ) 2 � Vsignal � � 20 log10 � � � 2 � ( V ) V � noise � � noise � 其中, Vsignal 表示信号话话话 , Vnoise 表示量化噪声 电压 ( 模拟信号的采样值和与它最接近的数字 数值之间的差值 ) , SNR 的单位为分贝 (db) Tuesday, May 14, 2019 第 3 章 数字声音编码
- 21.3.2 声音信号数字化 ( 续 3) 假设采样精度的位数为 n 位,信噪比可写成: Vsignal � SNR 20 lg � �Vnoise � Vsignal � � n 20 lg 20 lg(2 ) �6.02n � � � n � � Vsignal (1/ 2 ) � � � 采样精度每增加 1 位,信噪比就增加 6dB 。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 22.3.2 声音信号数字化 ( 续 4) 声音质量和数据率 —— 质量度量 质量 采样频率 (kHz) 样本精度 (bit) 单道声 / 立体声 ( 未压缩的 ) 数据率 (kb/s) 频率范围 (Hz) 电话 * 8 8 单道声 64.0 200 ~ 3400 AM 11.025 8 单道声 88.2 50 ~ 7000 FM 22.050 16 立体声 705.6 20 ~ 15000 CD 44.1 16 立体声 1411.2 20 ~ 20000 DAT m 律编码,动态范围为 48 16 13 位,压缩后的样本精度为 1536.0 8 位 立体声 * 电话使用 Tuesday, May 14, 2019 第 3 章 数字声音编码 20 ~ 20000
- 23.3.3 声音质量的 MOS 评分标准 声音质量的衡量方法 声音带宽法 客观质量度量 用信噪比 (SNR) 表示 主观质量度量 等级由高到低依次是 DAT 、 CD 、 FM 、 AM 和数字电 话 度量方法类似于电视节目中的歌手比赛,由评委对每个歌手的 表现进行评分,然后求出平均值 有时同时采取两种方法评估,有时以主观质量度量为 主 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 24.3.3 声音质量的 MOS 评分标准 ( 续 ) 主观平均分 (mean opinion score , MOS) 对声音主观质量度量比较通用的标准是 5 分制 ,各档次的评分标准见表 3-2 表 3-2 声音质量 MOS 评分标准 分数 质量等级 失真级别 5 优 (Excellent) 无察觉 4 良 (Good) ( 刚 ) 察觉但不讨厌 3 中 (Fair) ( 察觉 ) 有点讨厌 2 差 (Poor) 讨厌但不反感 1 劣 (Bad) 极讨厌 ( 令人反感 ) Tuesday, May 14, 2019 第 3 章 数字声音编码
- 25.3.4 音频信号压缩编码 音频信号压缩编码分为三类: 波形编码 主要基于语音波形预测, 它力图使重建的语音波形保 持原信号的波形状话 。 它 的 点是 话话话话话 方法 话话话话 、话 易于实现、 适应能力强、 语音质量好等, 缺点是 压缩比相对来说较低, 需要较高的编码速率。 常用的波形法编码技术有增量调制 (DM) 、 自适话 差 话 分脉冲编码调制( ADPCM )、 子带编码 (SBC) 等 等。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 26.3.4 音频信号压缩编码 参数编码 这种方法主要基于参数的编码方法。 与波形编码不同 的是, 这类编码方法通过语音信号的数学模型对语音 信号特征参数进行提取及编码, 力图使重建的语音信 号尽可能保持原信号的语意, 而重建的语音信号波形 同原信号的波形可能会有较大的区别。 最常用的参数编码法为线性预测编码( LPC )。 混合编码 混合编码是指同时使用两种或两种以上的编码方法进 行编码的过程。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 27.3.4 音频信号压缩编码 3.4.1 脉冲编码调制( PCM ) 3.4.2 增量调制( DM )与自适应增量 调制( ADM ) 3.4.3 自适应差分脉冲编码调制 ( ADPCM ) 3.4.4 子带编码( SBC ) 3.4.5 线性预测编码( LPC ) 3.4.6 GSM 算法 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 28.3.4.1 脉冲编码调制 (PCM) 脉冲编码调制 (PCM) 的概念 PCM 是 pulse code modulation 的缩写 概念上最话 话 、理 话 话话 话 上最完善、最早研制成功、使 话话 话话 话话话 话话话 话话 用最为广泛、数据量最大的编码系统 图 3-3 PCM 编码原理框图 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 29.3.4.1 脉冲编码调制 (PCM) 在图 3-3 中 输入是模拟信号,输出是 PCM 样本。 防失真滤波器:低通滤波器,用来滤除声音频带以 外的信号 波形编码器:可理解为采样器 量化器:可理解为“量化阶大小 (step-size)” 生成器 或者称为“量化间隔”生成器 PCM 实际上是模拟信号数字化 模拟声音数字化的两个步骤: 第一步是采样,就是每隔一段时间间隔读一次声音 的幅度 第二步是量化,就是把采样得到的声音信号幅度转 话 成 数字 话 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 30.3.4.1 脉冲编码调制 (PCM) 量化的方法 主要有均匀量化和非 均匀量化 均匀量化 采用相等的量化间隔 / 等分尺度量采样得 到的信号幅度,也称 为线性量化。 图 3-4 Tuesday, May 14, 2019 第 3 章 数字声音编码 均匀量化
- 31.3.4.1 脉冲编码调制 (PCM) 非均匀量化 大的输入信号采用大的量化 间隔,小的输入信号采用小 的量化间隔 可在满足精度要求的情况下 用较少的位数来表示 声音数据还原时,采用相同 的规则 采样输入信号幅度和量化输 出数据之间定义了两种对应 关系 μ 律压扩算法 A 律压扩算法 注:压扩 (companding) Tuesday, May 14, 2019 图 3-5 非均匀量化 第 3 章 数字声音编码
- 32.3.4.1 脉冲编码调制 (PCM) μ 律压扩 ln(1 x ) y sgn( x ) ln(1 ) 式中: x 为输入信号幅度, 其取值范围为- 1 ~+ 1 ; sgn(x) 为 x 的极性; μ 为压扩参数 , 其取值范围为 100 ~ 500 , μ 越大, 话 话 越话 话 话 害。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 33.3.4.1 脉冲编码调制 (PCM) 在实际应用中,规定某个 μ 值,采用数段折线来 逼近压扩特性。 具体计算时, μ = 255 , 压扩特性用 8 段折线 来代替。 当用 8 位二进制表示一个采样时,可 以得到无压扩的 13 位二进制数码的音频质量。 这 8 位二进制数中, 最高位表示符号位, 其 后 3 位用来表示折线编号,最后 4 位用来表示 数据位。 μ 律压扩数据格式如下图所示。 在解码恢复数据时, 根据符号和折线即可通过 预先做好的表恢复原始数据。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 34.3.4.1 脉冲编码调制 (PCM) μ 律压扩数据格式 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 35.3.4.1 脉冲编码调制 (PCM) A 律压扩 另外一种常用的压扩特性为 A 律 13 折线,它实 际上是将 μ 律压扩特性曲线以 13 段直线代替而 成的。我国和欧洲采用的是 A 律 13 折线压扩法 ,美国和日本采用的是 μ 律。 对于 A 律 13 折线,一个信号样值的编码由两部 分构成:段落码(信号属于 13 折线哪一段)和 段内码。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 36.3.4.1 脉冲编码调制 (PCM) PCM 在通信中的应用 频分多路复用 频分多路复用是在同一条通信线路上使用不 同频段同时传送多个独立信号的通信方法 时分多路复用的核心思想是将传输信道的频 带分成几个窄带,每个窄带传送一路信号 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 37.3.4.1 脉冲编码调制 (PCM) 时分多路复用 时分多路复用是在同一条通信线路上使用不同时段 “同时”传送多个独立信号的通信方法 时分多路复用的核心思想是将时间分成等间隔的时 段,为每对用户指定一个时间间隔,每个间隔传输 信号的一部分 例如,话音信号的采样频率 f = 8000 Hz ,它的采 样周期= 125 s ,这个时间称为 1 帧 (frame) 。在 这个时间里可容纳的话路数有两种规格 24 路制 30 路制 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 38.3.4.1 脉冲编码调制 (PCM) 24 路制的重要参数如下: 图 3-6 24 路 PCM 的帧结构 Tuesday, May 14, 2019 每秒钟传送 8000 帧,每帧 125μs 12 帧组成 1 复帧 ( 用于同步 ) 。 每帧由 24 个时间片 ( 信道 ) 和 1 位同步位组成 每个信道每次传送 8 位代码, 1 帧有 24 × 8 + 1 = 193 位 ( 位 ) 数据传输率 R = 8000×193 = 1544 kb/s 每一个话路的数据传输率= 8000×8=64 kb/s 第 3 章 数字声音编码
- 39.3.4.1 脉冲编码调制 (PCM) 30 路制的重要参数如下: 每秒钟传送 8000 帧,每帧 125 s 16 帧组成 1 复帧 ( 用于同步 ) 每帧由 32 个时间片 ( 信道 ) 组成 每个信道每次传送 8 位代码 数据传输率: R = 8000×32×8 = 2048 kb/s 每一个话路的数据传输率= 8000×8=64 kb/s 线路利用率 使用时分多路复用技术时,由于当信道无数据传输 时仍给那个信道分配时间槽,因此线路利用率较低 话计话话分多路 话 话 话话用技 话 (statistical 话 time division multiplexing, STDM) 。 STDM 是按照每个传输信道的传输需要 来分配时间间隔的时分多路复用技术,可提高传输 线路的效率 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 40.3.4.2 增量调制与自适应增量调制 增量调制 也称△调制 (delta modulation , DM) ,是一种预测编码技术 对实际的采样信号与预测的采样信号之差的极性进行编码。 如果实际的采样信号与预测的采样信号之差的极性为“正” ,则用“ 1” 表示;相反则用“ 0” 表示,或者相反 由于 DM 编码只须用 1 位话 话 话 音信号 话 话话话 行话 话 话 ,所以 话 话 DM 编码系统又称为“ 1 位系统” Tuesday, May 14, 2019 图 3-8 DM 波形编码示意图 第 3 章 数字声音编码
- 41.3.4.2 增量调制与自适应增量调制 增量调制 斜率过载:在开始阶段增量调制器的输出不能保 持跟踪输入信号的快速变化 粒状噪声:在输入信号缓慢变化部分,即输入信 号与预测信号的差值接近零的区域,增量调制器 的输出出现随机交变的“ 0” 和“ 1” 。 Tuesday, May 14, 2019 图 3-8 DM 波形编码示意图 第 3 章 数字声音编码
- 42.3.4.2 增量调制与自适应增量调制 自适应增量调制 (ADM) 根据输入信号斜率的变化自动调整量化阶 Δ 的 大小,以使斜率过载和粒状噪声都减到最小。 在检测到斜率过载时开始增大量化阶 Δ ,而在 输入信号的斜率减小时降低量化阶 Δ 宋 (Song) 在 1971 描述的 ADM 技术中提出: 每当输出不变时量化阶增大 50% ;每当输出值 改变时,量化阶减小 50% 由格林弗基斯 (Greefkes) 在 1970 年提出的 连续可变斜率增量调制 (CVSD) 的基本方法是: 如果连续可变斜率增量调制器的输出连续出现三 个相同值时,量化阶加一个大的增量,反之,就 加一个小的增量。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 43.3.4.3 自适应差分脉冲编码调制 APCM 的概念 APCM 是什么 adaptive pulse code modulation 的缩写,自适应脉 冲编码调制 根据输入信号幅度大小来改变量化阶大小的一种 波形编码技术 自适应 Tuesday, May 14, 2019 瞬时自适应,即量化阶的大小每隔几个样本就改变 音节自适应,即量化阶的大小在较长时间周期里发生 变化 第 3 章 数字声音编码
- 44.3.4.3 自适应差分脉冲编码调制 (1) 边信息( 改变量化阶大小的方法 Side Information ):是指利用已有的信息 Y 辅助对信息 前向自适应 (forward adaptation) :根据未量化的样本值的 X 进行编码,可以使得信息 X 的编码长 度更短。 均方根值来估算输入信号的电平,以此来确定量化阶的大 假设到马场去赌马,根据每个马的赔率可以得到一个最佳的投资方 小,并对其电平进行编码作为边信息 (side information) 传 案。但是如果知道赌马的一些历史数据,例如上几场的胜负情况, 送到接收端 那么可以得出一个更优的投资方案。赌马中的历史数据就是边信息 。 前向自适应 APCM 的基本概念如图 3-9 (a) 所示 S(k) 信道 缓冲器 量化器 逆量 化器 量化阶 适配器 边信道 (a) 前向自适应 图 3-9 APCM 方块图 Tuesday, May 14, 2019 第 3 章 数字声音编码 Sr(k)
- 45.3.4.3 自适应差分脉冲编码调制 改变量化阶大小的方法 (2) 后向自适应 (backward adaptation) :从量化器刚输出的过 去话 本中提取量化 话话 话话 话话话 话 信息。由于后向自适 话 话话话 话话话 话话 话 能在 话话 话 收两端 话 话 自动生成量化阶,所以它不需要传送边信息。 后向自适应 APCM 的基本概念如图 3-9 (b) 所示 S(k) 量化器 信道 量化阶 适配器 量化阶 适配器 (b) 后向自适应 图 3-9 APCM 方块图 Tuesday, May 14, 2019 逆量 化器 第 3 章 数字声音编码 Sr(k)
- 46.3.4.3 自适应差分脉冲编码调制 DPCM 的概念 DPCM 是什么 DPCM 中文术语为差分脉冲编码调 制, differential pulse code modulation 的缩写 利用样本与样本之间存在的信息冗余来进行编码 的一种数据压缩技术 基本思想:根据过去的样本去估算下一个样本信 号的幅度大小,话 个 话话话 称话 话 话 话 话 ,然后 话话话话话 信号值与预测值之差进行量化编码,从而就减少 了表示每个样本信号的位数 可适应大范围变化的输入信号 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 47.3.4.3 自适应差分脉冲编码调制 DPCM 原理 差分信号 d(k) :离散输入信号 s(k) 和预测器输出的 估算值 se(k-1) 之差 (k ) 对 d(k) 进行量化编码,得到d% 图 3-10 DPCM 方块图 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 48.3.4.3 自适应差分脉冲编码调制 ADPCM 的概念 ADPCM 的中文术语为自适应差分脉冲编码调制, adaptive difference pulse code modulation 的缩写 综合了 APCM 的自适应特性和 DPCM 系话 的差分 话话话 特性,是一种性能比较好的波形编码技术 它的核心想法是: 利用自适应的思想改变量化阶的大小,即使用小的量 化阶 (step-size) 去编码小的差值,使用大的量化阶去 编码大的差值 使用过去的样本值估算下一个输入样本的预测值,使 实际样本值和预测值之间的差值总是最小 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 49.3.4.3 自适应差分脉冲编码调制 ADPCM 编码框图 如图 3-11 所示 接收端的译码器使用与发送端相同的算法,利用传 送来的信号来确定量化器和逆量化器中的量化阶大 小,并且用它来预测下一个接收信号的预测值 图 3-11 ADPCM 方块 图 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 50.3.4.4 子带编码 子带编码 (sub-band coding , SBC) 用一组带通滤波器 (band-pass filter , BPF) 把输 入声音信号的频带分成若干个连续的频段,每个 频段称为子带。对每个子带中的声音信号采用单 独的编码方案去编码 在信道上传送时,将每个子带的代码复合在一起 ;在接收端译码时,将每个子带的代码单独译码 ,然后把它们组合起来,还原成原来的声音信号 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 51.3.4.4 子带编码 SBC 的方块图如图 3-13 所示,图中的编码 / 译码器 可以采用 ADPCM , APCM 或 PCM 编码器 BPF 1 x(n) 复 编码器 BPF 2 编码 BPF 1 译码器 BPF 2 译码器 BPF N 分 合 解 器 器 编码器 BPF N 译码器 信道 图 3-13 子带编码方块图 Tuesday, May 14, 2019 第 3 章 数字声音编码 译码 x'(n)
- 52.3.4.4 子带编码 好处有两个 可对每个子带信号分别进行自适应控制,量化阶的 大小可按照每个子话 的能量 话话话 话话 平加以 话 话话话 话 。具有 话话 话 高能量话 平的子 话话 话话话 用大的量化 话话话 话话话 去量化。 话话话 可根据每个子带信号在感觉上的重要性,对每个子 带分配不同的位数,用来表示每个样本值。 例如,在低频子带中,为了保护音调就要求用较小的量 化阶、较多的量化级数,即分配较多的位数来表示样本 值。而话音中的摩擦音和类似噪声的声音,通常出现在 高频子带中,对它分配较少的位数 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 53.3.4.4 子带编码 声音频带的分割 可用树型结构的式样进行划分 首先把整个声音信号带宽分成两个相等带宽的子 带:高频子带和低频子带 然后对这两个子带用同样的方法划分,形成 4 个 子带 这个过程可按需要重复下去,以产生 2k 个子带, K 为分割的次数 用这种办法可以产生等带宽的子带,也可以生成 不等带宽的子带 例如,对带宽为 4000 Hz 的声音信号,当 K=3 时,可分为 8 个相等带宽的子带,每个子带的带宽为 500 Hz ;也可生 成 5 个不等带宽的子带,分别为[ 0,500), [ 500,1000) , [1000,2000), [ 2000,3000) 和[ 3000 , 4000 ] Tuesday, May 14, 2019 第 3 章 数字声音编码
- 54.3.4.5 线性预测编码 (LPC) 的概念 线性预测编码 (linear predictive coding , LPC) 话音压缩技术。将话音生成机理模型化为一个离散 的、时变的、线性的递归滤波器 编码时使用线性预测分析话音波形产生声道激励和 转移函数的参数,对声音波形的编码实际就转化为 对这些参数的编码,这就可减少声音的数据量 话话话使 话话话 用话 话 性话 话 话 分析得到的参数,通 话话话话话话话话话 音 成器重构话 音。 话话 时变线性滤波器 分析话音波形时,当作预测器使用 合成话音波形时,当作生成模型使用 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 55.3.4.5 线性预测编码 (LPC) 的概念 线性预测器 使用过去的 P 个样本值来预测现时刻的采样值 x(n) ,如图 3-18 所示 图 3-18 预测概念 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 56.3.4.5 线性预测编码 (LPC) 的概念 预测值用过去 P 个样本值的线性组合表示为 x pre (n) [a1 x(n 1) a2 x (n 2) L L a p x(n p )] p �ai x(n i ) i 1 为方便起见,式中采用了负号 残差误差即线性预测误差为一个线性差分方程, p e(n) x(n) x pre (n) �ai x(n i ) i 0 在给定的时间范围里,如 [n0, n1], 使 n e(n) 的平方和即 [e(n)]2 1 � n n0 为最小,这样可使预测得到的样本值更精确。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 57.3.4.5 线性预测编码 (LPC) 的概念 预测系数 通过求解偏微分方程,可找到系数 ai 的值 如果把发音器官等效成滤波器,这些系数 ai 可以 理解成滤波器的系数 在接收端重构的话音不再具体复现真实话音的波 形,而是合成的声音 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 58.3.4.6 GSM 编译码器简介 GSM 编译码器简介 除了 ADPCM 算法已经得到普遍应用之外, 还有一种使用较普遍的波形声音压缩算法叫 做 GSM 算法,使用这种算法的编码器称为 GSM 编码器 GSM 是 Global System for Mobile communications 的缩写,可译成全球数字移 动通信系统 GSM 算法是 1992 年柏林技术大学 (Technical University Of Berlin) 根据 GSM 协议开发的 ,这个协议是欧洲最流行的数字蜂窝电话通 信协议。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 59.3.4.6 GSM 编译码器简介 GSM 的性能 GSM 的输入:数据分成帧 (frame) ,一帧 (20 毫秒 ) 由带符号的 160 个样本组成,每个样本为 13 位或 16 位的线性 PCM(linear PCM) 码 GSM 的输出: 一帧 (160×16 位 ) 的数据压缩成 260 位的 GSM 帧,相当于 13 kb/s 。由于 260 位不是 8 位的整数倍,因此编码器输出的 GSM 帧为 264 位 的线性 PCM 码 使用的采样频率为 8 kHz 时,如果每个样本为 16 位,那 么未压缩的话音数据率为 128 kb/s 使用 GSM 压缩后的数据率为: (264 位 ×8000 样本 / 秒 )/160 样本 =13.2 千位 / 秒 GSM 的压缩比: 128:13.2 = 9.7 ,近似于 10:1 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 60.3.5 语音压缩编码标准 编码算法的性能 数字音话话话算法、 准 话 话话表 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 61.3.5 语音压缩编码标准 常见音频编码标准 G.711 标准 G.711 话准 是1972 年制定的电话质量的 PCM 语音压缩 标 准 ,采 样频 率 为 8 kHz , 每个样值采用 8 位二进 制编码, 因此其速率为 64 kb/s 。 推荐使用 A 律或 μ 律的非线性压扩技术, 将 13 位的 PCM 按 A 律, 14 位的 PCM 按 μ 律转换成 8 位编码, 其质量相当于 12 比特话 性量化。 话话话话 标准规定选用不同解码规则的国家之间, 数据通路传 送按 A 律解码的信号。 使用 μ 律的国家应进行转换, 标 准 给 出了 μA 编码的对应表。 标准还规定, 在物 理介 话 符 上 话话话话话 号 , 位在前, 最低有效位在后。 本话 准广泛用于数字 话话话话话话话话话 音话 话 话 。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 62.3.5 语音压缩编码标准 G.721 标准 G.721 话准 是ITU-T 于 1984 年制定的, 主要目的 是用于 64 kb/s 的 A 律和 μ 律 PCM 与 32 kb/s 的 ADPCM 之间的转换。 它基于 ADPCM 技术, 采样频率为 8 kHz , 每个样 话 与话 话 话 话 话 的差 话 话 用 4 位编码, 其编码速率为 32 kb/s , ADPCM 是一种对中等质量音频信号进行高 效编码的有效算法之一, 它不仅适用于语音压缩, 而且也适用于调幅广播质量的音频压缩和 CD-I 音频 压缩等应用。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 63.3.5 语音压缩编码标准 G.722 标准 G.722 标准 旨在提供比 G.711 或 G.721 标准压缩技 术更高的音质, G.722 编 码 采 用 了 子 带 ADPCM(SB-ADPCM) 编码方案。 高低子带的划分以 4 kHz 为界, 然后再对每个子带内采用类似 G.721 标准 的 ADPCM 编码。 它是 1988 年 ITU-T 为调幅广播质量的音频信号压 缩制定的标准。 G.722 能将 224 kb/s 的调幅广 播 质 量的音 频 信号 压缩为 64 kb/s , 主要用于视 听多媒体和会话 话 话 话 等。 话 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 64.3.5 语音压缩编码标准 G.728 标准 G.728 标准 是一个追求低比特率的准, 标 其速率为 16 kb/s , 其质量与 32 kb/s 的 G.721 话 准 相当。话 话 话 准考 话话话 了人耳的听 话话话话话话 特性。 话话 G.729 标准 G.729 话准 是ITU-T 为低码率应用设计而制定的语 音压缩标准, 其码率为 8 kb/s , 算法相对比较 话话。 G.723.1 标准 ITU-T 颁布的语音压缩标准中码率最低的 G.723.1 Tuesday, 14, 第 3 章境中的多媒体通信的。 数字声音编码 标 准 May 主要是用于各种网 络环 2019
- 65.3.5 语音压缩编码标准 — MPEG 声音 前言 MPEG 声音的数据压缩和编码不是依据波形本身 的相关性和模拟人的发音器官的特性,而是利用 人的听觉系统的特性来达到压缩声音数据的目的 ,这种压缩编码称为感知声音编码 进入 20 世纪 80 年代,人类在利用自身的听觉系 统的特性来压缩声音数据方面取得了很大的进展 ,先后制定了 MPEG-1 Audio, MPEG-2 Audio , MPEG-2 AAC 和 MPEG-4 Audio 等标准 ,并把它们统称为 MPEG 声音。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 66.3.5 语音压缩编码标准 — MPEG 声音 MPEG 声音的压缩依据 听觉系统存在听觉阈值电平 低于阈值电平的信号听不到,因此可把这部分信号去 掉 听觉阈值的大小随声音频率的改变而改变 大多数人的听觉系统对 2 ~ 5 kHz 之间的声音最敏感 听觉掩蔽特性 听觉阈值电平会随听到的不同频率的声音而发生变化 Tuesday, May 14, 2019 例如, 1000 Hz 和 1100 Hz 的声音同时存在,前者的强 度大于后者 18dB ,在这种情况下, 1100 Hz 的声音就 听不到 第 3 章 数字声音编码
- 67.3.5 语音压缩编码标准 — MPEG 声音 MPEG 声音主要采纳两种感知编码算法 感知子带编码 (perceptual sub-band coding) 杜比实验室 (Dolby Laboratories) 开发的杜比数字 (Dolby Digital) Tuesday, May 14, 2019 第 3 章 数字声音编码
- 68.3.5 语音压缩编码标准 — MPEG 声音 感知子带编码 简化算法框图见下图 输入信号通过“滤波器组 (filter bank)” 进行滤波 之后被分割成许多子带 每个子带信号对应一个“编码器”,然后根据心 理声学模型对每个子带信号进行量化和编码,输 出量化信息和经过编码的子带样本 通过“多路复合器”把每个子带的编码输出按照 传输或者存储格式的要求复合成数据位流 (bit stream) 解码过程与编码过程相反 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 69.3.5 语音压缩编码标准 — MPEG 声音 感知子带压缩算法框图 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 70.3.5 语音压缩编码标准 — MPEG 声音 杜比数字 (Dolby Digital) 前称为 Dolby AC-3 ,简称 AC-3 1992 年杜比实验室开发的数字声音编码系统,采用了感知 编码技术 多声道环绕声格式,现已作为国际标准 杜比数字可提供 6 个声音通道,称为 5.1 声道,即左、中 、右、后左、后右 5 个主声道和 1 个低音加强声道 声音数据的位速率通常为 64 ~ 448 kbps 立体声的位速率通常为 192 kbps 5.1 声道的位速率通常为 384 kbps ,但可高达 640 kbps 已用在 DVD 影话话话 、 DTV( 数字电视 ) 、 HDTV 和其 他娱乐产品中 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 71.3.5 语音压缩编码标准 — MPEG 声音 编码器框图见下图 输入是未被压缩的 PCM 样本,而 PCM 样本的采样频率必 须是 32, 44.1 或 48 kHz ,样本精度可多到 20 位 获得高压缩比的基本方法是对用频域表示的声音信号进行 量化 Dolby AC-3 压缩编码算法框图 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 72.3.5 语音压缩编码标准 — MPEG 声音 各部分的功能简述如下 分析滤波器组 (analysis filter bank) :把用 PCM 时间样本 表示的声音信号变换成用频率系数块 (frequencies coefficients block) 表示的声音信号。单个频率系数用二进 制的指数 (exponent) 和尾数 (mantissa) 表示 频谱包络编码 (spectral envelope encoding) :对“分析滤波 器组”输出的指数进行编码。指数代表粗糙的信号频谱, 因此称为 ( 频 )“ 谱包络编码” 位分配 (bit allocation) :使用“谱包络编码”输出的信息确 定尾数编码所需要的位数 尾数量化 (mantissa quantization) :按照“位分配”输出的位 分配信息对尾数进行量化 AC-3 帧格式 (AC-3 frame formatting) :把“尾数量化”输出 的量化尾数和“谱包络编码”输出的频谱包络组成 AC-3 帧 一帧由 6 个声音块 (1536 个声音样本 ) 组成。“ AC-3 帧格式 ”输出的是 AC-3 编码位流,它的位速率为 32 ~ 640 kbps Tuesday, May 14, 2019 第 3 章 数字声音编码
- 73.3.5 语音压缩编码标准 — MPEG 声音 MPEG-1 Audio 编码器 MPEG-1 Audio (ISO/IEC 11172-3) 是世界上 第一个高保真声音数据压缩标准,得到极其 广泛的应用 编码器的输入信号为线性 PCM 信号 采样率为 32, 44.1 或 48 kHz 编码器的输出信号为 32 ~ 384 kbps 32, 44.1, 48 kHz PCM MPEG 编码器 MPEG-1 Audio 编码器的输入 / 输出 Tuesday, May 14, 2019 第 3 章 数字声音编码 32 kbps~ 384 kbps
- 74.3.5 语音压缩编码标准 — MPEG 声音 MPEG-1 Audio 定义了三个独立压缩层次 第 1 层— MP1(MPEG Audio Layer 1) 第 2 层— MP2(MPEG Audio Layer 2) 仅利用频域掩蔽特性,典型的压缩比为 4:1 ,相应的数据 率为 384 kbps 算法复杂度最低 利用频域掩蔽特性和时间掩蔽特性,典型的压缩比为 6:1 ~ 8:1 ,数据率为 256 ~ 192 kbps 算法复杂度中等 第 3 层— MP3(MPEGAudio Layer 3) 利用频域掩蔽特性、时间掩蔽特性和临界频带特性,典型 的压缩比为 10:1 ~ 12:1 ,相应的数据率为 128 ~ 112 kbps ,声音质量接近 CD-DA 算法复杂度最高 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 75.3.5 语音压缩编码标准 — MPEG 声音 支持在数据流中添加附加信息 所有三话都分 也 话就 兼容, 是最话话话 的解 话 话话 器(即在 话话话 MPEG Layer3 工作的解码器)同样可对 Layer1 或 Layer2 的压缩编码流进行解码。 MPEG 声音压缩的方案是有损的, 但是它们可达 到感觉上的无损品质。 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 76.3.5 语音压缩编码标准 — MPEG 声音 MPEG-2 Audio 简介 MPEG-2 标准委员会定义了两种声音数据压 缩标准 MPEG-2 Audio (ISO/IEC 13818-3) 也称 MPEG-2 Multichannel Audio ( 多通道声音 ) 因为它与 MPEG-1 Audio 是兼容的,所以又称为 MPEG-2 BC (Backward Compatible) 标准 MPEG-2 AAC (ISO/IEC 13818-7) Tuesday, May 14, 2019 因为它与 MPEG-1 Audio 格式不兼容,因此通常把它 称为非后向兼容 MPEG-2 NBC(Non-BackwardCompatible) 标准 第 3 章 数字声音编码
- 77.3.5 语音压缩编码标准 — MPEG 声音 MPEG-2 Audio 和 MPEG-1 Audio 相比较 都使用相同的编译码器, 3 个编码层的编码结构也相同 MPEG‑2 声音标准做了如下扩充 增加了 16 kHz, 22.05 kHz 和 24 kHz 采样频率 扩展了输出速率范围,由 32 ~ 384 kbps 扩展到 8 ~ 640 kbps 增加了声道数,支持 5.1 声道和 7.1 声道的环绕声 支持 Linear PCM( 线性 PCM) 和 Dolby AC-3(Audio Code Number 3) 编码 它们的差别见下表 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 78.3.5 语音压缩编码标准 — MPEG 声音 MPEG-2 Audio 使用的环绕声 5.1 环绕声,也称 3/2- 立体声加 LFE 5 表示播音现场的前面可有 3 个声道 ( 左、中、右 ) ,后 面可有 2 个环绕声声道 .1 是指低频音效 (low frequency effects , LFE) 加话话 声道 话 7.1 声道环绕立体声与 5.1 声道类似,见下图 Tuesday, May 14, 2019 MPEG-2 Audio 环 绕声 第 3 章 数字声音编码
- 79.3.5 语音压缩编码标准 — MPEG 声音 MPEG-2 AAC 是什么 MPEG-2 Advanced Audio Coding 的缩写,声音感知编码标准 像其他感知编码标准那样,使用听觉系统的掩蔽特性来减少声音的数 据量,把量化噪声分散到各个子带并用全局信号来掩蔽噪声 采样频率可从 8 kHz 到 96 kHz ,编码器的输入可来自单声 道、立体声或多声道音源的声音 可支持 48 个声道、 16 个低频音效加强通道 (LFE) 、 16 个 配音声道 (overdub channel) 或称多语言声道 (multilingual channel) 和 16 个数据流 在压缩比为 11:1 时,很难区分压缩前和压缩还原后的声音 在声音质量相同的前提下 与 MPEG-1/-2 Audio 的第 2 层相比, AAC 的压缩率可提高 1 倍 与 MPEG-1/-2 Audio 的第 3 层相比, AAC 的数据率是它的 70 % Tuesday, May 14, 2019 第 3 章 数字声音编码
- 80.3.5 语音压缩编码标准 — MPEG 声音 MPEG-4 Audio 是什么 包罗万象的声音对象编码标准 (ISO-IEC 144963) ,从话音、声音到合成语音的编码。 该标准为每个声道规定的数据速率为 2 ~ 64 kbps ,并为此定义了三种类型的编码器,称为“编 码工具 (coding tool)” 在数据速率为 2 ~ 6 kbps 范围内,可使用参数编码 (parametric coding) ,声音信号的采样频率使用 8 kHz 在数据速率为 6 ~ 24 kbps 的范围内,可使用码激励线性 预测技术 (code excited linear prediction , CELP) ,声音信 号的采样频率使用 8kHz 或 16 kHz 在数据速率为 16 ~ 64 kbps 范围内,可使用时间 / 频率编 码 (time/frequency coding) 或称为“基于变换的普通声音编 码 (transform-based general audio coding)” 技术,如用 MPEG-2 AAC 经过改进的 MPEG-4 AAC ,支持 8 ~ 96 kHz 的声音信号采样频率 Tuesday, May 14, 2019 第 3 章 数字声音编码
- 81.3.5 语音压缩编码标准 — MPEG 声音 卫星通信 2 移动通信 4 ISDN 因特网 6 8 10 12 14 16 24 位速率(kbps) 32 48 64 可变速率编码器(Scalable coder) 文-语转换 (TTS) 话音编码(speech coding) 普通声音编码(general audio coding) 4 kHz 8 kHz 典型的声音带宽 MPEG-4 Audio 数据速率和应用目标 Tuesday, May 14, 2019 第 3 章 数字声音编码 20 kHz
- 82.3.6 常见多媒体应用的语音编码器的选 择 可视电话 / 会议和远程教学 编码器类型的选择主要取决于用来传输信号的网络 和速率。 对于高速率、高可靠的网络(如 ISDN ),拥有最 佳质量的 G.722 成为自然的选择。如果带宽被限 制在 56 ~ 128 kb/s ,则对多种可能的语音和音 频输入有强适应能力的 G.728 成为优选。当速率 降低时,如使用话带调制解调器或遇到可靠性较 差的网络(如 Internet ),则语音编码器的最佳 选择是 G.723.1 。
- 83.3.6 常见多媒体应用的语音编码器的选 择 带有数据共享的商务会议 在这一应用中可能的网络是企业 Intranet 或者 Internet 。 根据网络的服务质量和可用带宽, 语音编码的三个最佳选择是 G.722 、 G.728 和 G.729 。 除了此应用不包含视频以外, 选 择的出发点与会议电视基本相同, G.729 或 G.729 的附件 A 代替了 G.723.1 , 可降低时 延, 保持话 话 话 的自然状 话话话话话 。
- 84.3.6 常见多媒体应用的语音编码器的选 择 单用户游戏 在这一应用中,话音主要提供音响效果,它可以 预先记录和处理,并提供尽可能高的保真度, 时延不成问题。 为使游戏的规模合理,倾向于在适用的语音编码 器中选择速率最低的,例如参数编码器的 LPC 。
- 85.3.6 常见多媒体应用的语音编码器的选 择 远程站点的多用户游戏 游戏参加者可以相互交谈, 于是产生了与对话 相似的问题。 例如, 连接是点到点调制解调器链接或通过 Internet 连接, 如果使用 Internet , 则需求与 数据流形式有关, 有些情况下要求能够辨认 参加者的声音, 参数编码器具备这个特点, 因为它能间接地把语音分解成几个参数, 与 话 用话 一话 游用话 一 要 ,话 求很低的速率 话 话 话 话 话 话 话 话 话 。 由于终端必须进行编码和解码, 因此要求 选择低复杂度的编码器。
- 86.3.6 常见多媒体应用的语音编码器的选 择 多媒体信息传送 在这一应用中,被发送的信息包括语音,可能还 话 合 了其他非 话 话 音信息,如文本、 话 话 话 话 话 话 话 话 话 话 形、 话 话 像 、数据和视频信息。 该应用是异步通信的一个典型例子,因此,时延 不是主要问题。信息共享的支撑网络将决定于 速率限制。在多数情况下,保真度不是主要问 题,因而可用 G.729 或 G.723.1 等 话 话 器。同 话 话 话 时,如果所有参加者就实用标准达成一致,低 速率参量编码器不失为好的选择。
- 87.3.6 常见多媒体应用的语音编码器的选 择 语音注释文档 在多媒体文档中,语音或作为注解或作为 完整文档的一部分。 为了尽量减少存储空间,应当使用低速率 话 话 器 话 话 。话 话 话 器的 话 话 话 话 取决于速率、 话 话 话 话 杂度和开放式麦克风性能之间的折衷。
- 88.END 第 3 章 数字声音编 码