音视频开发基础入门知识整理

一、PCM是什么?

PCM:脉冲编码调制(Pulse Code Modulation,PCM) 是由模拟信号向数字信号转化的一种常用的编码格式,称为脉冲编码调制,PCM将模拟信号按照一定的间距划分为多段,然后通过二进制去量化每一个间距的强度。

PCM表示的是音频文件中随着时间的流逝的一段音频的振幅。Android在WAV文件中支持PCM的音频数据。

优点:最大程度的接近绝对保真。缺点:体积大。

二、录音的工作过程

录音是模拟信号到数字信号的编码。

AndioRecord 提供给应用层一种能力,让应用层可以用来收集声音相关硬件的数据。工作过程如下:

1、构造 AudioRecord 对象,通过getMinBufferSize方法得到需要的最小录音缓存buffer大小。

2、初始化一个buffer缓存,其大于等于第一步中 AudioRecord 用于写声音数据的buffer大小。

3、开始进入录音状态,让 AudioRecord#startRecording()

4、从 AudioRecord 中读取声音缓存数据到第二步初始化的buffer中,并创建一个文件数据写入流,将buffer中数据导入数据流并写入本地文件。这个过程可以对上层应用回调录音时长。

5、关闭数据流

6、停止录音,AudioRecord#stop()

那如何才能在播放器中播放我录制的内容呢?

PCM文件是原始文件,不能被播放器识别,WAR可以,是因为WAVE HEAD文件头。

AudioRecord 和 MediaRecord

都可以录音,但 MediaRecord 更加上层。

附:AudioRecord 构建参数

audioSource:音频硬件设备源 MediaRecorder.AudioSource.MIC

sampleRateInHz:采样频率,单位:赫兹,建议:44100Hz

channelConfig:单声道还是双声道

audioFormat:音频数据精度,例如:PCM8和PCM16

bufferSizeInBytes:AudioRecord所需的最小缓冲区大小,native方法,对应用层分配缓冲池大小具有重要指导意义。

public AudioRecord(int audioSource, # 音频硬件设备源
int sampleRateInHz,
int channelConfig,
int audioFormat,
int bufferSizeInBytes)

三、声音的播放

播放则是数字信号到模拟信号的解码。

AudioTrack 提供给应用层一种能力,让应用层可以将PCM音频以缓冲流的形式传输/写入到硬件音频接收器进行播放。存在:静态和流式两种传输模式。

静态:

STATIC,一次性将数据写入缓冲区,优点是及时性高,缺点是数据量有限制,适用场景:铃声。

流式:

Stream,类似IO 写文件,从用户缓冲池拷贝到 AudioTracker 中。优点:数据量大,允许采样率高的场景。缺点:易产生延迟。

每个 AudioTrack 会在创建时注册到 AudioFlinger 中,由 AudioFlinger 把所有的 AudioTrack 进行混合(AudioMixer),然后输送到 AudioHardware 中 进行播放,目前Android同时最多可以创建32个音频流,也就是说,Mixer最多会同时处理32个 AudioTrack 的数据流。

播放工作过程如下:和AudioRecord一样的道理,只不过过程相反。

1、构造 AudioTrack 对象,通过getMinBufferSize方法得到需要的最小播放缓存buffer大小。

2、初始化一个buffer缓存,其大于等于第一步中 AudioTrack 用于写声音数据的buffer大小。

3、开始进入播放状态,让 AudioTrack#play()

4、创建一个文件数据读取流,读取声音缓存数据到第二步初始化的buffer中。并将buffer中数据,通过 AudioTrack#write 输送到 AudioHardware 中。

5、关闭数据流

6、停止播放,AudioTrack#stop()

AudioTrack 和 MediaPlayer、SoundPool,以及使用场景?

AudioTrack 只能播放不需要解码的 PCM 和 war 文件

MediaPlayer 在framework层还是会创建 AudioTrack ,把解码后的 PCM 数流传递给 AudioTrack ,AudioTrack 再传递给 AudioFlinger 进行混音,然后才传递给硬件播放,所以是 MediaPlayer 包含了 AudioTrack 。MediaPlayer 更加适合在后台长时间播放本地音乐文件或者在线的流式资源。

SoundPool 则适合播放比较短的音频片段,比如游戏声音、按键声、铃声片段等等。它可以同时播放多个音频,车载导航中的混音是不是可以用这个?

附:AudioTrack初始化流程

streamType:音频流的类型,例如:AudioManager.STREAM_MUSIC。

sampleRateInHz:采样频率,单位:赫兹,建议:44100Hz。

channelConfig:单声道还是双声道。

audioFormat:音频数据精度,例如:PCM8和PCM16。

bufferSizeInBytes:AudioRecord所需的最小缓冲区大小,native方法,对应用层分配缓冲池大小具有重要指导意义。

mode:流式,即:AudioTrack.MODE_STREAM。

public AudioTrack(int streamType,
int sampleRateInHz,
int channelConfig,
int audioFormat,
int bufferSizeInBytes,
int mode)
复制代码

四、MediaCodec

MediaCodec 音视频编解码组件,负责 音频(AAC)/视频(视频 H.264) 的编解码。常常与:MediaExtractor、MediaMuxer、Surface 以及 AudioTrack 一起使用。

以 处理输入数据In 产生 输出数据Out 为例,其工作过程如下:

1、创建一个空的输入缓冲区 A,填充数据后发送到编解码器(MediaCodec)进行处理。

2、编解码器(MediaCodec)使用输入的数据A 进行转换,然后输出到一个空的输出缓冲区 B 中。

3、最后,应用层获取到输出缓冲区的数据B,消耗掉里面的数据。

3、释放 编解码器(MediaCodec)

MediaCodec 生命周期:

Stopped(Uninitialized、Configured、Error)

Executing(Flushed, Running、End-of-Stream)

Released

1、当创建编解码器的时候处于未初始化状态。首先你需要调用configure(…)方法让它处于Configured状态,然后调用start()方法让其处于Executing状态。在Executing状态下,你就可以使用上面提到的缓冲区来处理数据。

2、Executing的状态下也分为三种子状态:Flushed, Running、End-of-Stream。在start() 调用后,编解码器处于Flushed状态,这个状态下它保存着所有的缓冲区。一旦第一个输入buffer出现了,编解码器就会自动运行到Running的状态。当带有end-of-stream标志的buffer进去后,编解码器会进入End-of-Stream状态,这种状态下编解码器不再接受输入buffer,但是仍然在产生输出的buffer。此时你可以调用flush()方法,将编解码器重置于Flushed状态。

3、调用stop()将编解码器返回到未初始化状态,然后可以重新配置。完成使用编解码器后,您必须通过调用release()来释放它。

4、在极少数情况下,编解码器可能会遇到错误并转到错误状态。这是使用来自排队操作的无效返回值或有时通过异常来传达的。调用reset()使编解码器再次可用。您可以从任何状态调用它来将编解码器移回未初始化状态。否则,调用 release() 到终端释放状态。

MediaCodec 流量控制

一般编码器都可以设置一个目标码率,但编码器的实际输出码率不会完全符合设置,因为在编码过程中实际可以控制的并不是最终输出的码率,而是编码过程中的一个量化参数(Quantization Parameter,QP),它和码率并没有固定的关系,而是取决于图像内容。

MediaCodec 流控相关的接口并不多,一是配置时设置目标码率和码率控制模式,二是动态调整目标码率(Android 19 版本以上)。

码率控制模式有三种:

CQ 表示完全不控制码率,尽最大可能保证图像质量;

CBR 表示编码器会尽量把输出码率控制为设定值,即我们前面提到的“不为所动”;

VBR 表示编码器会根据图像内容的复杂度(实际上是帧间变化量的大小)来动态调整输出码率,图像复杂则码率高,图像简单则码率低;

附,API 说明

getInputBuffers:获取需要编码数据的输入流队列,返回的是一个ByteBuffer数组

queueInputBuffer:输入流入队列

dequeueInputBuffer:从输入流队列中取数据进行编码操作

getOutputBuffers:获取编解码之后的数据输出流队列,返回的是一个ByteBuffer数组

dequeueOutputBuffer:从输出队列中取出编码操作之后的数据

releaseOutputBuffer:处理完成,释放ByteBuffer数据

五、音视频的录制

音视频录制是将音频track 和视频track 混合成一个MP4等类型的文件容器中的过程。

MediaMuxer,即:多路复用器,提供给应用层一个能力,将编码后的视频流和音频流,混合成一个音视频文件。

MediaMuxer 最多仅支持一个视频track 和一个音频track ,所以如果有多个音频track 可以先把它们混合成为一个音频track 然后再使用 MediaMuxer 封装到mp4容器中。

视频采集用Camera类,视频预览用SurfaceView,音频采集用AudioRecord。

工作过程如下:(视频内容采集–>编码–>存储文件)

1、收集Camera数据,并转码为H264存储到文件,Camera收集的数据使用 SurfaceView 预览。

2、开启两个线程分别处理音频、视频数据。逻辑过程:MediaCodec 使用 queueInputBuffer获取数据,然后进行编码dequeueOutputBuffer给 MediaMuxer。

3、将两个track加入 MediaMuxer。MediaMuxer.writeSampleData(track, data.byteBuf, data.bufferInfo);

附:MediaXer API

MediaMuxer(String path, int format):path:输出文件的名称 format:输出文件的格式;当前只支持MP4格式;

addTrack(MediaFormat format):添加通道;我们更多的是使用MediaCodec.getOutpurForma()或Extractor.getTrackFormat(int index)来获取MediaFormat;也可以自己创建;

start():开始合成文件

writeSampleData(int trackIndex, ByteBuffer byteBuf, MediaCodec.BufferInfo bufferInfo):把ByteBuffer中的数据写入到在构造器设置的文件中;

stop():停止合成文件

release():释放资源

六、音视频的播放

音视频播放是将音频track 和视频track 分离,并单独播放的过程。

MediaExtractor 提供给应用层一个能力,能够把音频和视频的数据进行分离。

工作过程如下:

1、MediaExtractor 提取资源以及选择轨道(视频、音频)

2、MediaCodec 编解码配置,高度/宽度/时间等,并将 SurfaceView 与 MediaCodec 相关联

3、循环从 MediaExtractor 取数据放入 MediaCodec ,同时 MediaCodec 返回数据,标识:视频播放状态,并做特定处理

4.1、视频播放,SurfaceView

4.2、音频播放,AudioTrack

MediaExtractor API:

setDataSource(String path):即可以设置本地文件又可以设置网络文件

getTrackCount():得到源文件通道数

getTrackFormat(int index):获取指定(index)的通道格式

getSampleTime():返回当前的时间戳

readSampleData(ByteBuffer byteBuf, int offset):把指定通道中的数据按偏移量读取到ByteBuffer中;

advance():读取下一帧数据

release(): 读取结束后释放资源

猜你喜欢

转载自blog.csdn.net/A_pyf/article/details/113573808