音视频开发基础入门知识整理

一、PCM是什么？

PCM：脉冲编码调制(Pulse Code Modulation,PCM) 是由模拟信号向数字信号转化的一种常用的编码格式，称为脉冲编码调制，PCM将模拟信号按照一定的间距划分为多段，然后通过二进制去量化每一个间距的强度。

PCM表示的是音频文件中随着时间的流逝的一段音频的振幅。Android在WAV文件中支持PCM的音频数据。

优点：最大程度的接近绝对保真。缺点：体积大。

二、录音的工作过程

录音是模拟信号到数字信号的编码。

AndioRecord 提供给应用层一种能力，让应用层可以用来收集声音相关硬件的数据。工作过程如下：

1、构造 AudioRecord 对象，通过getMinBufferSize方法得到需要的最小录音缓存buffer大小。

2、初始化一个buffer缓存，其大于等于第一步中 AudioRecord 用于写声音数据的buffer大小。

3、开始进入录音状态，让 AudioRecord#startRecording()

4、从 AudioRecord 中读取声音缓存数据到第二步初始化的buffer中，并创建一个文件数据写入流，将buffer中数据导入数据流并写入本地文件。这个过程可以对上层应用回调录音时长。

5、关闭数据流

6、停止录音，AudioRecord#stop()

那如何才能在播放器中播放我录制的内容呢？

PCM文件是原始文件，不能被播放器识别，WAR可以，是因为WAVE HEAD文件头。

AudioRecord 和 MediaRecord

都可以录音，但 MediaRecord 更加上层。

附：AudioRecord 构建参数

audioSource：音频硬件设备源 MediaRecorder.AudioSource.MIC

sampleRateInHz：采样频率，单位：赫兹，建议：44100Hz

channelConfig：单声道还是双声道

audioFormat：音频数据精度，例如：PCM8和PCM16

bufferSizeInBytes：AudioRecord所需的最小缓冲区大小,native方法，对应用层分配缓冲池大小具有重要指导意义。

public AudioRecord(int audioSource, # 音频硬件设备源
int sampleRateInHz,
int channelConfig,
int audioFormat,
int bufferSizeInBytes)

三、声音的播放

播放则是数字信号到模拟信号的解码。

AudioTrack 提供给应用层一种能力，让应用层可以将PCM音频以缓冲流的形式传输/写入到硬件音频接收器进行播放。存在：静态和流式两种传输模式。

静态：

STATIC，一次性将数据写入缓冲区，优点是及时性高，缺点是数据量有限制，适用场景：铃声。

流式：

Stream，类似IO 写文件，从用户缓冲池拷贝到 AudioTracker 中。优点：数据量大，允许采样率高的场景。缺点：易产生延迟。

每个 AudioTrack 会在创建时注册到 AudioFlinger 中，由 AudioFlinger 把所有的 AudioTrack 进行混合（AudioMixer），然后输送到 AudioHardware 中进行播放，目前Android同时最多可以创建32个音频流，也就是说，Mixer最多会同时处理32个 AudioTrack 的数据流。

播放工作过程如下：和AudioRecord一样的道理，只不过过程相反。

1、构造 AudioTrack 对象，通过getMinBufferSize方法得到需要的最小播放缓存buffer大小。

2、初始化一个buffer缓存，其大于等于第一步中 AudioTrack 用于写声音数据的buffer大小。

3、开始进入播放状态，让 AudioTrack#play()

4、创建一个文件数据读取流，读取声音缓存数据到第二步初始化的buffer中。并将buffer中数据，通过 AudioTrack#write 输送到 AudioHardware 中。

5、关闭数据流

6、停止播放，AudioTrack#stop()

AudioTrack 和 MediaPlayer、SoundPool，以及使用场景？

AudioTrack 只能播放不需要解码的 PCM 和 war 文件

MediaPlayer 在framework层还是会创建 AudioTrack ，把解码后的 PCM 数流传递给 AudioTrack ，AudioTrack 再传递给 AudioFlinger 进行混音，然后才传递给硬件播放,所以是 MediaPlayer 包含了 AudioTrack 。MediaPlayer 更加适合在后台长时间播放本地音乐文件或者在线的流式资源。

SoundPool 则适合播放比较短的音频片段，比如游戏声音、按键声、铃声片段等等。它可以同时播放多个音频，车载导航中的混音是不是可以用这个？

附：AudioTrack初始化流程

streamType：音频流的类型，例如：AudioManager.STREAM_MUSIC。

sampleRateInHz：采样频率，单位：赫兹，建议：44100Hz。

channelConfig：单声道还是双声道。

audioFormat：音频数据精度，例如：PCM8和PCM16。

bufferSizeInBytes：AudioRecord所需的最小缓冲区大小,native方法，对应用层分配缓冲池大小具有重要指导意义。

mode：流式，即：AudioTrack.MODE_STREAM。

public AudioTrack(int streamType,
int sampleRateInHz,
int channelConfig,
int audioFormat,
int bufferSizeInBytes,
int mode)
复制代码

四、MediaCodec

MediaCodec 音视频编解码组件，负责音频(AAC)/视频(视频 H.264) 的编解码。常常与：MediaExtractor、MediaMuxer、Surface 以及 AudioTrack 一起使用。

以处理输入数据In 产生输出数据Out 为例，其工作过程如下：

1、创建一个空的输入缓冲区 A，填充数据后发送到编解码器(MediaCodec)进行处理。

2、编解码器(MediaCodec)使用输入的数据A 进行转换，然后输出到一个空的输出缓冲区 B 中。

3、最后，应用层获取到输出缓冲区的数据B，消耗掉里面的数据。

3、释放编解码器(MediaCodec)

MediaCodec 生命周期:

Stopped(Uninitialized、Configured、Error)

Executing(Flushed, Running、End-of-Stream)

Released

1、当创建编解码器的时候处于未初始化状态。首先你需要调用configure(…)方法让它处于Configured状态，然后调用start()方法让其处于Executing状态。在Executing状态下，你就可以使用上面提到的缓冲区来处理数据。

2、Executing的状态下也分为三种子状态：Flushed, Running、End-of-Stream。在start() 调用后，编解码器处于Flushed状态，这个状态下它保存着所有的缓冲区。一旦第一个输入buffer出现了，编解码器就会自动运行到Running的状态。当带有end-of-stream标志的buffer进去后，编解码器会进入End-of-Stream状态，这种状态下编解码器不再接受输入buffer，但是仍然在产生输出的buffer。此时你可以调用flush()方法，将编解码器重置于Flushed状态。

3、调用stop()将编解码器返回到未初始化状态，然后可以重新配置。完成使用编解码器后，您必须通过调用release()来释放它。

4、在极少数情况下，编解码器可能会遇到错误并转到错误状态。这是使用来自排队操作的无效返回值或有时通过异常来传达的。调用reset()使编解码器再次可用。您可以从任何状态调用它来将编解码器移回未初始化状态。否则，调用 release() 到终端释放状态。

MediaCodec 流量控制

一般编码器都可以设置一个目标码率，但编码器的实际输出码率不会完全符合设置，因为在编码过程中实际可以控制的并不是最终输出的码率，而是编码过程中的一个量化参数（Quantization Parameter，QP），它和码率并没有固定的关系，而是取决于图像内容。

MediaCodec 流控相关的接口并不多，一是配置时设置目标码率和码率控制模式，二是动态调整目标码率(Android 19 版本以上)。

码率控制模式有三种：

CQ 表示完全不控制码率，尽最大可能保证图像质量；

CBR 表示编码器会尽量把输出码率控制为设定值，即我们前面提到的“不为所动”；

VBR 表示编码器会根据图像内容的复杂度（实际上是帧间变化量的大小）来动态调整输出码率，图像复杂则码率高，图像简单则码率低；

附，API 说明

getInputBuffers：获取需要编码数据的输入流队列，返回的是一个ByteBuffer数组

queueInputBuffer：输入流入队列

dequeueInputBuffer：从输入流队列中取数据进行编码操作

getOutputBuffers：获取编解码之后的数据输出流队列，返回的是一个ByteBuffer数组

dequeueOutputBuffer：从输出队列中取出编码操作之后的数据

releaseOutputBuffer：处理完成，释放ByteBuffer数据

五、音视频的录制

音视频录制是将音频track 和视频track 混合成一个MP4等类型的文件容器中的过程。

MediaMuxer，即：多路复用器，提供给应用层一个能力，将编码后的视频流和音频流，混合成一个音视频文件。

MediaMuxer 最多仅支持一个视频track 和一个音频track ，所以如果有多个音频track 可以先把它们混合成为一个音频track 然后再使用 MediaMuxer 封装到mp4容器中。

视频采集用Camera类，视频预览用SurfaceView，音频采集用AudioRecord。

工作过程如下：(视频内容采集–>编码–>存储文件)

1、收集Camera数据，并转码为H264存储到文件，Camera收集的数据使用 SurfaceView 预览。

2、开启两个线程分别处理音频、视频数据。逻辑过程：MediaCodec 使用 queueInputBuffer获取数据，然后进行编码dequeueOutputBuffer给 MediaMuxer。

3、将两个track加入 MediaMuxer。MediaMuxer.writeSampleData(track, data.byteBuf, data.bufferInfo);

附：MediaXer API

MediaMuxer(String path, int format)：path:输出文件的名称 format:输出文件的格式；当前只支持MP4格式；

addTrack(MediaFormat format)：添加通道；我们更多的是使用MediaCodec.getOutpurForma()或Extractor.getTrackFormat(int index)来获取MediaFormat;也可以自己创建；

start()：开始合成文件

writeSampleData(int trackIndex, ByteBuffer byteBuf, MediaCodec.BufferInfo bufferInfo)：把ByteBuffer中的数据写入到在构造器设置的文件中；

stop()：停止合成文件

release()：释放资源

六、音视频的播放

音视频播放是将音频track 和视频track 分离，并单独播放的过程。

MediaExtractor 提供给应用层一个能力，能够把音频和视频的数据进行分离。

工作过程如下：

1、MediaExtractor 提取资源以及选择轨道(视频、音频)

2、MediaCodec 编解码配置，高度/宽度/时间等，并将 SurfaceView 与 MediaCodec 相关联

3、循环从 MediaExtractor 取数据放入 MediaCodec ，同时 MediaCodec 返回数据，标识：视频播放状态，并做特定处理

4.1、视频播放，SurfaceView

4.2、音频播放，AudioTrack

MediaExtractor API:

setDataSource(String path)：即可以设置本地文件又可以设置网络文件

getTrackCount()：得到源文件通道数

getTrackFormat(int index)：获取指定（index）的通道格式

getSampleTime()：返回当前的时间戳

readSampleData(ByteBuffer byteBuf, int offset)：把指定通道中的数据按偏移量读取到ByteBuffer中；

advance()：读取下一帧数据

release(): 读取结束后释放资源