音视频开发之H.264 入门知识

2021-07-16 20:57:50 阅读：215 来源： 互联网

大家如果有做过音视频相关的项目，那么肯定对 H.264 相关的概念了解的比较通透，这里我为什么还要写这样一篇文章呢？一来是为了对知识的总结，二来是为了给刚入门音视频的同学一个参考。

基础概念

H.264 又称为 MPEG-4 , 它是一种面向块，基于运动补偿的视频编码标准，是目前市面上最常用的一种视频编码格式，在 Android 中你可以通过 MediaCodec.createEncoderByType(“video/avc”) 的形式来创建一个编码器，也可以通过软编 avcodec_find_encoder(AV_CODEC_ID_H264) / avcodec_find_encoder_by_name(“libx264”) 的形式来创建一个编码器。因为该篇文章的主题是分析 H.264 码流，就不再过多介绍怎么来进行编码了。现在就直接来了解一些常用概念吧。

GOP

两个 I 帧之间形成的一组图片，就是 GOP (Group Of Picture) 的概念。

I 帧

I 帧又称为视频的关键帧，你可以理解为它是一帧画面的完整图像，可以直接拿这个 I 帧来解码

特点:

1、它是一个全帧压缩编码帧，它将全帧图像信息进行 JPEG 压缩编码及传输

2、解码时仅用 I 帧的数据就可以重构完整图像

3、I 帧描述了图像背景和运动主体的详情

4、I 帧不需要参考其它画面而生成

5、I 帧是 P/B 帧的参考帧（其质量直接影响到同组中以后个帧的质量）

6、I 帧是帧组 GOP 的第一帧，在一组中只有一个 I 帧

7、I 帧不需要考虑运动矢量

8、I 帧所占数据的信息量比较大

B 帧

B 帧又称为双向差别帧，也就是本帧与前后帧的差别，大白话的意思就是要解码 B 帧，不仅要拿到之前缓存的画面，还要解码之后的画面，通过前后画面的叠加来还原最终的画面。

特点:

1、B 帧是由前面的 I 帧或 P 帧和后面的 P 帧来进行预测的

2、B 帧传送的是它前面的 I 帧或 P 帧和后面的 P 帧之前的预测误差及运动矢量

3、B 帧是双向预测编码帧

4、B 帧压缩率最高，因为它只反映参考帧间运动主体的变化情况，预测比较准确

5、B 帧不是参考帧，不会造成解码错误的扩散

P 帧

P 帧又称为前预测编码帧。P 帧表示的是这一帧跟之前的一个 I 或 P 帧的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别，来生成最终画面。

特点:

1、P 帧是 I 帧后面相隔 1~2 帧的编码帧

2、P 帧采用运动补偿的方法传送它与前面的 I 或 P 真的差值及运动矢量

3、解码时必须将 I 帧中的预测值与预测误差求和后才能重构完整的 P 帧图像

4、P 帧属于前向预测的帧间编码。它只参考前面最靠近它的 I 或者 P 帧

5、P 帧可以是其后面的 P 帧的参考帧，也可以是其前后的 B 帧的参考帧

6、由于 P 帧是参考帧，所以它可能造成解码错误的扩散

7、由于是差值传送，所以 P 帧的压缩率比较高

基本的帧概念了解的差不多了，下一步我们基于代码来分析码流

码流分析

H.264 又称为裸流，是由多个 NALU 组成。如果 NALU 对应的 Slice 为一帧的开始，那么就用 4 个字节表示，即 0x00 00 00 01 , 否则用 3 字节表示，0x00 00 01。要分析 H.264 码流首先是从码流中搜索起始位，也就是刚刚说的 0x00 00 00 01 或者 0x00 00 01 起始位，然后在分离 NALU, 最后再解析各个字段。下面我们先来看下 NALU Header type 代表的含义:

type	说明
0	保留
1	非 IDR 图像中不采用数据划分的片段
2	非 IDR 图像中 A 类数据划分的片段
3	非 IDR 图像中 B 类数据划分的片段
4	非 IDR 图像中 C 类数据划分的片段
5	IDR 图像的片段
6	补充增强信心（SEI）
7	SPS (序列参数集)
8	PPS (图像参数集)
9	分割符
10	序列结束符
11	流结束符
12	填充数据
13	序列参数集扩展
14	带前缀的 NAL 单元
15	子序列参数集
16 - 18	保留
19	不采用数据划分的辅助编码图像片段
20	编码片段扩展
21 - 23	保留
24 - 31	保留

在实际开发中用的最多的也就是 1 、5 、7、8 ，下面我们用代码来进行分析:

代码分析

代码很简单，就是读文件，搜索起始码然后一个字节一个字节读，这里直接贴结果吧

如何进阶学习

成体系的音视频入门进阶的资料少之又少，一个刚毕业小白可能很难切入理解，因为音视频中涉及大量理论知识，而代码的书写需要结合这些理论，所以搞懂音视频，编解码等理论知识至关重要。

本人也是从实习开始接触音视频项目，看过很多人的文章，无意中在GitHub上发现一个标星6.8K的开源项目，在这里分享给大家，让更多准备学习音视频的同学更快入门进阶。

以下是这份开发文档的部分章节：

阶段一：Android多媒体

第1章三种方式绘制图片

第2章 AudioRecord录制PCM音频

第3章 AudioTrack播放PCM音频

第4章 Camera视频采集

第5章 MediaExtractor MediaMuxer 实现视频的解封装与合成

第6章 MediaCodec硬编解流程与实践

阶段二：OpenGL ES

第7章 OpenGL ES 基本概念

第8章 GLSL及Shader的渲染流程

第9章 OpenGL ES 绘制平面图形

第10章 GLSurfaceView源码解析&EGL环境

第11章 OpenGL ES矩阵变换与坐标系统

第12章 OpenGL ES之纹理

第13章 OpenGL ES 滤镜 (篇一)

第14章 OpenGL ES 实时滤镜

第15章 OpenGL ES粒子系统 - 喷泉

第16章 OpenGL ES粒子效果-烟花爆炸

阶段三:：JNI&NDK

第17章 JNI与NDK的学习和使用

第18章 JNI - 引用类型、异常处理、函数注册

第19章 NDK构建方式 ndk-build与cmake

第20章指针、内存模型、引用

第21章运算符重载、继承、多态、模版

第22章 STL 之容器

子系列算法

第23章算法系列 - 冒泡排序

第24章算法系列-快速排序

第25章算法系列-堆排序

第26章算法系列-选择、插入排序以及STL中sort的实现

第27章算法序列 - 二叉查找树

第28章算法序列 - 平衡二叉树

第29章算法序列 - 散列表

阶段四 : FFmpeg

第30章音视频基础知识

第31章 FFMPEG常用命令

第32章 FFMPEG +OPENSL ES实现音频解码和播放

第33章 FFMPEG + OPENGLES 边解码边播放视频

有需要的朋友可以【点击此处】找我免费领取。

小结

音视频行业已经发展很多年了，随着近几年移动端越来越多的音视频APP的出现，将音视频推向一个高潮，但是由于音视频的学习成本很高，很多开发者望而却步，为了跟紧时代的步伐，需要的朋友可以免费获取一下上文的资料，给大家破除音视频的“高门槛”，希望可以共同进步。

总之，音视频已经强势崛起，相信未来的十年一定是音视频的十年。并且将音视频技术与计算机视觉和人工智能结合将引领未来二十年。

以后我将多多分享相关文章，关注我不要迷路！

现在正是学习音视技术的最佳时机，大家一定要把握住机会，跟上时代的步伐，让自己可以在未来大有作为。

标签：编码,H.264,入门,OpenGL,解码,音视频,图像,ES
来源： https://blog.csdn.net/Android23333/article/details/118822456

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

音视频开发之H.264 入门知识

基础概念

GOP

I 帧

B 帧

P 帧

码流分析

代码分析

如何进阶学习

阶段一：Android多媒体

阶段二：OpenGL ES

阶段三:：JNI&NDK

子系列 算法

阶段四 : FFmpeg

有需要的朋友可以【点击此处】找我免费领取。

小结

子系列算法