【音视频原理】音频编解码原理 ① ( 声音特性 | 声音本质 | 声音频率 | 声音频率和响度本质分析 | 数字音频 |脉冲编码调制 PCM - 采样振幅值 | 奈奎斯特 Nyguist 采样定理 )





一、声音特性



1、声音本质


声音本质 :

  • 物理现象 : 声音 是 物体 震动 产生的 物理现象 , 其本质是 波 在 介质 中的传播现象 ;
  • 声音产生 : 声音 由 物体振动 产生的 声波 , 通过 介质 传播,可以被 人或动物 的听觉器官所感知 ;
  • 声音传播介质 : 空气 , 固体 , 液体 ;

2、声音频率


声音的频率 指的是 物体震动 的 周期 , 一秒钟震动多少次 , 单位是 赫兹 Hz ;

  • 次声波 : 0 - 20 Hz , 一秒钟震动 0 ~ 20 次 ;
  • 人耳可听到声波 : 20 Hz - 20000 Hz ;
  • 超声波 : 20000 Hz - 1GHz , 1GHz=10 0000 0000 Hz , 10 亿赫兹 ;
  • 特超声波 : 1GHz ~ 10THz , 1THz = 1 0000 0000 0000 Hz , 1万亿赫兹 ;

声音的 频率 就是 下图中 , 一秒钟 有 多少个 完整的 震动周期 ;

在这里插入图片描述


3、声音特性


声音 三特性 :

  • 音调 : 震动的主要频率 ; 如 钢琴 中央 C 震动频率 261.6Hz , 一秒钟震动 261 次 , 也就是 有 261 个 波峰和波谷 ;
  • 响度 : 物体震动的振幅 , 振幅越大 , 响度越大 , 单位是 分贝 ;
  • 音色 : 物体的材质结构决定 , 本质是 物体谐振 产生 , 敲木头 和 敲铁 谐振频率 不同 , 因为其内部构造不同 ;

4、声音频率和响度本质分析


声音的 响度 , 就是 依靠 震动的 振幅 确定的 , 也就是 下图中的 y 轴 区间的值 ;

声音的 频率 , 包括 主频率 和 谐振频率 , 指的是 一秒钟 有多少个 完整的 震动周期 , 也就是说 有 多少个 完整的 震动的 波峰和波谷 ;

人耳能听到的 震动频率 是 20-20000Hz ,

  • 一秒钟有 20 个震动周期 , 我可以听到 ,
  • 低于 20 个 震动周期 是 次声波 , 听不到 ;
  • 高于 20000 个 震动周期 是 超声波 , 也听不到 ;

在这里插入图片描述

音频的频率 , 可对音频文件 的 PCM 采样 ( 声音震动的振幅值 ) 进行 傅里叶变换 , 将 时域信息 转为 频域信息 , 如下图在 Adobe Audition 中可以 查看 时域 震动 信息 对应的 频域 频率 信息 ;

在这里插入图片描述





二、数字音频



1、声音的模拟信号


声音震动的 物理波形 是下图的样式 , 震动 产生的 响度值 ( 振幅 / 空气压强 ) 是 平滑连续 的模拟信号 ;

在这里插入图片描述


2、脉冲编码调制 PCM - 采样振幅值


脉冲编码调制 , PCM , Pulse Code Modulation , 指的是 将 人耳听到 的 连续的 模拟信号 , 转为 数字信号 的 技术 ;

对 模拟声音信号 进行 音频信息 采样时 , 采样的 内容 就是 声音震动时产生的 振幅值 ;

采样时 , 每隔固定的时间 , 就对 模拟信号 的 振幅值 采集一个样本 , 这个震动的振幅值就是 声音的 大小 ;

下图是 采样后的 采样值 ;
在这里插入图片描述


3、奈奎斯特 Nyguist 采样定理


根据 奈奎斯特 Nyguist 采样定理 , 如果要从 " 脉冲 振幅值 数字采样信号 “ 还原为 ” 原始的 模拟信号 " , PCM 的 " 脉冲 采样频率 " , 必须是 最高频率 的 2 倍 ;


4、人耳听到声音不失真的最低采样率 - 40000Hz


人耳 能听到的 频率范围是 20Hz ~ 20000Hz , 那么 根据 " 奈奎斯特 Nyguist 采样定理 " , 想要保证 人耳听到的声音 不失真 , 需要使用 40000Hz 以上的采样率 ;


常用的 44100 Hz 的采样频率 , 可以还原 0 Hz ~ 22050 Hz 的模拟信号 , 这是 人耳可听到的 声音频率 ;

理论上 , 超过 44100Hz 的采样频率 的 音频 , 与 更高采样频率 的音频 , 效果是一样的 ;

一些高端的 录制设备 或 音响 , 可以 录制 或 播放更高采样率的 音频 ;


5、采样量化


数字音频 采样 ( 声音震动 振幅值 ) 是 在 离散的时间点 上进行的 , 采样值 是 离散的 , 不连续 ;

如 : 44100 Hz 的采样率 下 , 每隔 1 44100 \cfrac{1}{44100} 441001 秒 , 采集一个 声音震动 振幅值 样本 ;


采样值 ( 声音震动 振幅值 ) 的 精度 , 取决于 采样的 位数 ;

  • 采样位数 8 位 ( 1 字节 ) : 可以 表达出 2 8 = 256 2^8 = 256 28=256 个不同的值 , 取值范围 [ -128 , +127 ] ;
  • 采样位数 16 位 ( 2 字节 ) : 可以 表达出 2 16 = 65536 2^{16} = 65536 216=65536 个不同的值 , 取值范围 [ -32768 , +32767 ] ;

采样的 位数 越低 , 精度越来越低 , 失真越来越大 ;

猜你喜欢

转载自blog.csdn.net/han1202012/article/details/135781972