百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

mp4封装格式各box类型讲解及IBP帧计算

off999 2025-02-27 16:23 52 浏览 0 评论

mp4封装格式各box类型讲解及IBP帧计算

目录;总结送学习大纲 零基础到实战

    • box
    • ftyp box
    • moov box
    • mvhd box (Movie Header Box)
    • trak box (Track Box)
    • tkhd(track header box)
    • mdia (Track Media Structure)
    • mdhd (Media Header Box)
    • PTS和DTS的计算
    • I P B 帧的概念
    • stts(Decoding Time to Sample Box)
    • ctts(Composition Time to Sample Box)
    • timescale
    • stss (Sync Sample Box)
    • stsz (Sample Size Boxes):
    • stsc (Sample To Chunk Box):
    • stco (Chunk Offset Box)
    • mdat box

MP4文件封装格式,对应的标准为ISO/IEC 14496-12,即信息技术 视听对象编码的第12部分 ISO 基本媒体文件格式(Information technology Coding of audio-visual objects Part 12: ISO base media file format)

box

如果从整体上看,mp4所有的数据全部存放在 一个叫box的结构中。
box,顾名思义,可以简单地理解为一个
箱子 里面可以放任何符合大小的东西,也可以继续放箱子,箱子里面再放东西,这种箱子里面仍然放箱子的箱子称为容器箱子(container box) 你可以想象你要搬家,把你的家具全部放在一个个的箱子里面,然后一个大箱子把小箱子一个个再装箱。MP4中的 moov box 就是一种容器箱子。


box的字节序为网络字节序,也就是大端字节序(Big-Endian)Box由header和body组成,其中header统一指明box的大小和类型,body根据类型有不同的意义和作用。

box size 有三种可能:
1、通常的box开头的4个字节(32位)为box size,该大小包括box header和box body整个box的大小,这样我们就可以在文件中定位各个box。

2、如果 box size为1,则表示这个box的大小为large size(“mdat”类型)。

3、如果box size为0,表示该box为文件的最后一个box,文件结尾即为该box结尾。(同样只存在于“mdat”类型的box中。)

size后面紧跟的32位为box type,一般是4个字符,如“ftyp”、“moov”等,这些box type都是已经预定好的,分别表示固定的意义。如果是“uuid”,表示该box为用户扩展类型,如果box type是未定义的,应该将其忽略。

14496-12标准中box的都有这些类型,这张表,也能从整体上了解完各类型box的说明:




MP4文件分析工具。

两个在线的MP4 分析工具,下面内容全部以此工具来分析一份demo
online-mp4-parser
online-mp4-parser-2

可以看到这份标准的mp4视频根路径上有四个box -- ftypmoovuuidmdat
ftyp 指定了文件类型
moov 保存了音视频数据的时空间信息
mdat 存放音视频数据

下面依赖工具简单依次分析一份普通mp4文件

ftyp box

该box有且只有1个,并且只能被包含在文件层,而不能被其他box包含。该box应该被放在文件的最开始,指示该MP4文件应用的相关信息。

“ftyp” body依次包括1个32位的major brand(4个字符),1个32位的minor version(整数)和1个以32位(4个字符)为单位元素的数组compatible brands。这些都是用来指示文件应用级别的信息。


moov box

moov box 是一个 container box 该box包含了文件媒体的元数据信息,具体内容信息由子box诠释。同File Type Box一样,该box有且只有一个,且只被包含在文件层。一般情况下,“moov”会紧随“ftyp”出现。

可以看到这个demo 中有 mvhd、trak、udta 三种 box 一般情况下 “moov”中会包含1个“mvhd”和若干个“trak”。其中“mvhd”为header box,一般作为“moov”的第一个子box出现。“trak”包含了一条音、视频轨/流/track的相关信息,也是一个container box。

该box是解析MP4文件里面最重要的一个box,它包含了音视频数据的编码格式、音视频数据样本,chunks的大小、存储位置也即偏移offset、时间戳单位、DTS,CTS(PTS),解码时间、显示时间等等...

moov box中记录的每帧音视频数据位置信息,实际上都在mdat box中,通过解析moov box来获取到每帧音视频数据具体位置后,使得播放器能方便的拖拉进度条。

mvhd box (Movie Header Box)

mvhd 描述了与具体音频或视频流无关的文件整体信息,其中的duration/timescale的值即为单位为秒的媒体时长。


trak box (Track Box)

trak也是一个container box,其子box包含了该track的媒体数据引用和描述。一个MP4文件中的媒体可以包含多个track,且至少有一个track,这些track之间彼此独立,有自己的时间和空间信息。“trak”必须包含一个“tkhd”和一个“mdia”,此外还有很多可选的box(略)。

tkhd(track header box)

tkhd 描述的该track的,如果是视频会有宽、高信息、 还有文件创建时间、修改时间等。


mdia (Track Media Structure)

mdia box 描述了这条音视频轨/流(trak)的媒体数据样本的主要信息,对播放器来说是一个很重要的box..

mdhd (Media Header Box)

当前音/视频轨/流(trak)的总体信息, 该box中有duration字段和timescale字段,duration/timescale的值即为当前流的时长。

hdlr box用来指定该流的类型


stsd box的子box用于保存该流的编码类型


avcC box指定了该流的编码类型为H264,储了解码所需的SPS、PPS信息。

stsc stsz stco三个box用于保存每帧视频或音频数据在文件中的保存位置。

stts stss ctts三个box用于保存媒体数据和时间戳的对应关系。

在同级的stbl的样本表box里面可以查到对应的样本 描述信息(stsd),时序信息(stts),样本的大小信息(stsz),样本到chunk的映射信息(stsc),chunk的位置信息(stco)等等

下面计算下PTS,来了解stbl box..

PTS和DTS的计算

I P B 帧的概念

在音视频中,为了提高压缩效率,会将每帧画面压缩为不同类型的视频帧数据。
I帧表示关键帧,包含有一帧画面的完整信息,解码时只需要本帧数据就可以解码出完整的一帧画面。
P帧表示前向参考帧,它保存了本帧与上一帧的差异信息,它不能单独解码,需要根据上一帧的画面加上本帧保存的差值来获取本帧的完整画面。
B帧为双向参考帧,它解码时需要依赖它之前和之后的帧来获取最终的画面
因为B帧需要依赖它后面的帧来进行解码,所以它的解码顺序就必然和显示顺序不能保持一致,这时就需要解码时间戳(DTS)和显示时间戳(PTS)来共同决定一帧视频数据何时解码,然后何时显示了。

举个例子
一小段视频帧序列如下 :
type : I --- B --- B --- P --- B --- B --- P
PTS : 0.33 0.67 1.00 1.33 1.67 2.00 2.33
DTS : 0.00 0.67 1.00 0.33 1.67 2.00 1.33

PTS >= DTS

根据mp4 stts和ctts 可以得到DTS和PTS

stts(Decoding Time to Sample Box)


stts 可以计算出每个sample的dts,其中sample_delta为该sample的dts相对于上一个smaple的差值,
那么此样本数据的dts为 :

0   1000 2000 3000 4000 ···

ctts(Composition Time to Sample Box)

Composition Time 构成时间目前我直接理解的PTS。。


ctts 有每个sample的构成时间(Composition Time)和解码时间(DTS)之间的差值(CTTS)即图中的composition_offset。
如果不存在ctts,则代表该流不存在B帧,那么PTS就直接等于DTS。

timescale

最后就是关于单位,你可以看到图中样本的单位都是以1000为单位浮动,实际上真实DTS和PTS时间是需要除以mdia/mdhd中的timescale。这里是30000。

有了这些,我们就可以在ctts里面计算出pts了 :

else if (box_type_equa(uint32_to_str(bh.type, sbuffer), "ctts")) { uint32_t version = 0; read_net_bytes_to_host_uint32(&box[8], &version); if(version != 0) { LOG_E("ctts unsupport version :%d ", version) return; } uint32_t entry_cnt = 0; read_net_bytes_to_host_uint32(&box[12], &entry_cnt); char buf[128] = {0}; tree_childs_insert_with_val(tree, "version", uint32_to_ascii(version, buf)); tree_childs_insert_with_val(tree, "entry_cnt", uint32_to_ascii(entry_cnt, buf)); uint32_t i = 0, j = 0, num = 0, pos = 16; for (i = 0; i < entry_cnt; i++) { uint32_t sample_cnt; read_net_bytes_to_host_uint32(&box[pos], &sample_cnt); pos += 4; uint32_t sample_offset; read_net_bytes_to_host_uint32(&box[pos], &sample_offset); pos += 4; for (j = 0; j < sample_cnt; j++) { PushBack_Array(pts_array, At_Array(dts_array, num++) + sample_offset); float dt, pt = 0.0; printf("dts : %9.3f ms | pts : %9.3f ms | \n", At_Array(dts_array, num - 1) / (mdhd_time_scale * 1.0), At_Array(pts_array, num - 1) / (mdhd_time_scale * 1.0)); }

stss (Sync Sample Box)

stss 里面存放了关键帧的序号(I帧),跳转时,需要从关键帧开始解码,否则会花屏。


stsz (Sample Size Boxes):

顾名思义,样本大小.

stsc (Sample To Chunk Box):

媒体数据的样本是被打包进chunks(块)的,chunks和样本(samples)的大小不固定,该box用于说明chunks关联样本的信息。

first_chunk 该入口第一个chunks的索引(index).
samples_per_chunk 样本数量/chunks.


stco (Chunk Offset Box)

描述每个chunks相对文件的偏移量。


如图 第一个chunks即前10个样本(此例), samples.1起始地址为 423257, samples.1的地址则为 423257 + 140798 = 564055, 依此类推...

有了这些即可计算出音视频的时间和空间信息了


总结:更多免费视频资料+学习路线+疑难解答+视频教程文档资料免费领取后台私信【学习】自行获取

内容包括:C/C++,Linux,Nginx,ZeroMQ,MySQL,Redis,fastdfs,MongoDB,ZK,流媒体, WebRTC ,CDN,P2P,K8S,Docker,Golang, TCP/IP,MTK , 嵌入式 , 协程,DPDK等等 。

mdat box

Meida Data Box 媒体数据box 位于顶层,定义是一个字节数组,用来存储媒体数据。该box数量可以为0个,也可以有多个(当媒体数据全部为外部文件引用时),数据直接跟在box type字段后面,具体数据结构的意义需要参考metadata(主要在sample table中描述)。

相关推荐

电脑自带的防火墙怎么关(电脑的防火墙如何关闭)
电脑自带的防火墙怎么关(电脑的防火墙如何关闭)

点击开始,点击设置,进入设置后我们可以直接在上方的搜索框中直接搜索【defender】,就会弹出防火墙。点击进入防火墙后,在左侧的列表中找到【启用或关闭Windowsdefender防火墙】,并且点击进入。进入后,就可以自行关闭所有的防...

2025-12-18 03:03 off999

光猫和路由器哪个网速快(光猫网速快还是路由器网速快)

两个都快。这要从两个设备的功能说起。光猫是把光信号转变成数字信号的一种设备,随着光猫技术的发展,现在光猫也集成了路由器的功能,也带有有线和无线,只要有光纤加上光猫,就可以实现有线或者无线上网。路由器的...

台式电脑运行一段时间就死机

1、散热不良:显示器、电源和CPU工作时间太长会导致死机,给风扇除尘,上油。2、灰尘杀手:机器内灰尘过多也会引起死机故障。定期清洁机箱。3、内存条故障:主要是内存条松动,内存芯片本身质量所致,应根...

高清windows免费版观看(高清windows免费版观看网站)

方法一:1、右键单击开始菜单----运行2、在运行对话框中输入:devmgmt.msc,展开:显卡适配器,右击所列的显卡适配器,点击卸载。3、卸载后重新安装兼容Win10的显卡驱动,建议去官方下载...

h3c官网(H3C官网登录账号)

1H3C防火墙官网是存在的,可以通过搜索引擎或输入官方网址进行访问。2H3C防火墙官网提供了产品信息、技术支持、解决方案和服务支持等各种资源,帮助用户全面了解和使用H3C防火墙产品。同时,还有在线...

系统流小说下载(系统流小说大全完本)

全能奇才、末世之兑换高手、穿越之兑换无敌、:重生之我能升级、重生之模拟游戏、超级物品、戒指也疯狂、全职天才、疯狂道具、星戒、超级游戏分身、重生之神才风流、全能闲人、逆天作弊器之超级游戏、宅男之游戏人生...

win7网络设置初始化(win7网络设置初始化方法)

1、首先在操作系统桌面上,点击左下角开始按钮选择控制面板选项进入。2、进入控制面板主界面,点击查看方式下拉按钮选择大图标进入。3、切换至所有控制面板项,点击恢复选项进入。4、进入恢复界面,点击高级恢复...

家用笔记本电脑哪个牌子实惠又好用

在用机械革命s1pro键盘不好用,录音功能不好用,其它还行吧一分价钱一分货清华同方品牌的笔记本最便宜,然14最大的特点就是便宜,仅售3000元,属于新品笔记本中的超低价位。屏幕方面,熟悉的1080p...

免费使用的数据恢复软件(真正的免费的数据恢复软件)

1、在误删除数据后,无论是硬盘、U盘、SD卡还是其他存储设备,最好马上停止写入新的数据,保持现状,然后找适当的数据恢复软件进行恢复。请勿使用非专业软件,以免导致文件彻底无法恢复!  2、在误删除数据后...

感冒流鼻涕怎么办最简单方法

由于受凉感冒引起鼻腔腺体分泌旺盛导致鼻涕增多,建议在医生指导下使用玉屏风颗粒口服治疗促进恢复正常,可以进食鼻腔腺体分泌,改善流鼻涕,打喷嚏症状,另外注意保暖,不要进食辛辣刺激性食物,避免疲劳,多食用容...

tp路由器无线设置最佳参数(tp-link路由器网络参数怎么设置)

1,在浏览器中输入192.168.1.1,进入后台管理,输入用户名和密码登录。2,先连接外网。在左边选择“网络参数”下的“WAN口设置”。3,并在右边选择一种网络方式,如“PPPOE”并输入帐号和密码...

amd的cpu天梯图(amd全系列cpu天梯图)

低压版最高端是“FX-7500”,四核心,4MB二级缓存,CPU频率为2.1-3.3GHz,RadeonR7GPU六个计算单元384个流处理器,频率496-553MHz,内存支持DDR3-1600...

免费恢复微信好友软件(免费恢复微信好友软件哪个好用)

1.不存在免费的微信找回删除好友软件。2.因为微信的好友删除是一种数据操作,需要访问微信服务器上的数据,而微信官方并没有提供找回删除好友的功能,所以任何软件都无法实现这个功能。此外,使用未知来源的...

台式电脑突然断电后无法开机

首先,突然断电导致电脑不能正常开机,并不一定是系统故障,根据以下的方法进行排除。1、在断开电源的前提条件下,打开主机箱侧盖将内存条取下来,更换内存安装插槽的位置。2、找到主板电池,并且将主板电池取下来...

网易邮箱163登录下载(网易邮箱163登录下载不了)

手机163的登录入口163邮箱官网入口是;https://smart.mail.163.com/login.htm网易邮箱注册方法;1在浏览器搜索“网易邮箱”。2进入网易邮箱官网https://sma...

取消回复欢迎 发表评论: