MP3文件的数据结构以及为mp3内嵌歌词的代码 MP3文件是由帧构成,帧是MP3文件的最小组成单位。根据帧性质的不同,文件大体分为四个部分:ID3v2标签帧、数据帧、APEV2标签帧、ID3v1标签帧,而只有数据帧才是必需的。 数据帧包含了歌曲的压缩数据。标签帧提供了歌曲的演唱者、歌名、专辑、年份等信息。 ID3v1在文件结尾,以字符串“TAG”为标识,其长度是固定的128个字节。 ID3v2在文件头,以字符串“ID3”为标识,长度不固定,扩展了ID3V1的信息量。 APEV2是最新出现的一种标签,以字符串“APETAGEX”为标识,长度不固定,位置也不固定,可能在文件末尾也可能在文件头,比较常见的是位于文件尾部,但在ID3v1之前。 值得一提的是Lyrics3v2,它是千千静听播放器发明的一种独立帧,位于ID3v1之前,APEV2之后(如果有APEV2的话),它专用于内嵌Lrc类型的歌词文件。 一、ID3V1 表1:ID3V1结构 -------------------------------------------------------------------- 名称 字节 说明 -------------------------------------------------------------------- Tag 3 ID3V1标识符“TAG”的Ascii码 Title 30 歌曲名 Artist 30 歌手名 Album 30 专辑名 Year 4 日期信息 Comment 28 注释信息,有时为30字节 Reserved1 =0说明有音轨,下一字节就是音轨;≠0表示注释是30个字节 Track 1 音轨(字节型数值),歌曲在专辑里的序号 Genre 1 歌曲风格(字节型数值) -------------------------------------------------------------------- 说明: ①如果MP3的注释=30字节,那么就要占用Reserved和Track两个字节,这要看Reserved是否=0,如果=0,那么注释有28个字节。如果不是,那么注释有30个字节。当注释=30个字节的时候,那就没有Track了。 ②如果MP3文件后面虽然有“TAG”三个字母,但字母后面全是0,那就不是一个合法的ID3V1信息,应该认为没有ID3V1信息。 ③ID3V1的各项信息都是顺序存放,没有任何标识将其分开,一般用0补足规定的长度。比如歌曲名有20个字节,则在歌曲名后要补足10个0,否则将造成信息错误。 ④歌曲风格共148种,用编号表示,表2列出了前30种的风格与编号对照,详情可上网查询。 表2:30种歌曲风格与编号对照 --------------------------- 编号 风格名称 中译义 --------------------------- 00 Blues 布鲁斯 01 ClassicRock 古典摇滚 02 Country 乡村 03 Dance 舞曲 04 Disco 迪斯科 05 Funk 伤感爵士 06 Grunge 垃圾摇滚 07 Hip-Hop 饶舌 08 Jazz 爵士 09 Metal 金属 0A NewAge 前卫 0B Oldies 怀旧 0C Other 其他 0D Pop 流行 0E R&B 摇滚布鲁斯 0F Rap 说唱 10 Reggae 雷盖扭摆舞 11 Rock 摇滚 12 Techno 电子流行乐 13 Industrial 工业 14 Alternative 多变 15 Ska 斯卡 16 DeathMetal 重金属 17 Pranks 恶作剧 18 Soundtrack 电影配音 19 Euro-Techno 神游舞曲 1A Ambient 流行 1B Trip-Hop 迷幻舞曲 1C Vocal 非纯音乐 1D Jazz+Funk 爵士摇滚 1E Fusion 合成音乐 --------------------------- 二、ID3V2 ID3V2与ID3V1的作用差不多,也是记录mp3的有关信息,但ID3V2的结构比ID3V1要复杂得多,而且可以伸缩和扩展。ID3V2到现在一共有4个版本,但流行的播放软件一般只支持第3版,既ID3V2.3。由于ID3V1记录在MP3文件的末尾,ID3V2就只好记录在MP3文件的首部了。 每个ID3V2.3的标签都一个标签头和若干个标签帧或一个扩展标签头组成。歌曲的信息如标题、作者等都存放在不同的标签帧中,扩展标签头和标签帧并不是必要的,但每个标签至少要有一个标签帧。对于VB爱好者来说,你可以把ID3V2看作是一个对象,而把标签帧看作是ID3V2的一个属性,那么,标签帧的标识符就可以看作是属性名了。 1.D3V2标签头 一首MP3如果有ID3V2.3的话,那么ID3V2.3的标签头占用文件最前面的10个字节,其数据结构如下: 表3:ID3V2.3标签头结构 -------------------------------------------------------------------- 名称 字节 说明 -------------------------------------------------------------------- Header 3ID3V2.3标识符"ID3"的Ascii码,否则认为没有ID3V2.3 Ver 1 版本号,=03 Revision 1 副版本号,=00 flag 1 标志字节,一般没意义,=00 Size 4 标签内容长度,高位在前,不包括标签头的10个字节 --------------------------------------------------------------------- 说明: ①Size字段的计算公式如下(从左至右): size=字节1的值×&H200000+字节2的值×&H4000+字节3的值×&H80+字节4的值 ②如果所有标签帧的总长度<标签内容长度,则须用0填满。 2.D3V2标签帧 标签内容由若干个标签帧组成。每个标签帧都由一个10个字节的帧头和至少1个字节的不固定长度的帧内容组成,它们顺序存放在文件中。 每个帧都由帧头和帧内容组成,数据结构如下: 表4:标签帧的结构 ---------------------------------------------------------- 名称 字节 说明 ---------------------------------------------------------- FrameID 4 帧标识符的Ascii码,常用标识符的意义见表5 Size 4 帧内容及编码方式的合计长度,高位在前 Flags 2 标志,只使用了6位,详见表6,一般均=0 encode 4 帧内容所用的编码方式。许多帧没有此项 帧内容 至少1个字节 ---------------------------------------------------------- 说明: ①Size的计算同上。 ②标签帧之间没有特殊的分隔符,要得到一个完整的标签帧内容必须先从帧头中得到帧内容长度。 ③encode有4个可能值: 0:表示帧内容字符用ISO-8859-1编码; 1:表示帧内容字符用UTF-16LE编码; 2:表示帧内容字符用UTF-16BE编码; 3:表示帧内容字符用UTF-8编码(仅ID3V2.4才支持) 但经常看到的是"eng"这样的字符形式,它表示帧内容所使用的自然语言为英语。也许D3V2标签帧进化到现在,encode已经用“自然语言”取代了“编码方式”。 ⑤帧内容均为字符串,常以00开头。 表5:标签帧标识符的意义 --------------------------------------- 名称 意义 --------------------------------------- AENC:音频加密技术 APIC:附加描述 COMM:注释,相当于ID3v1的Comment COMR:广告 ENCR:加密方法注册 ETC0:事件时间编码 GEOB:常规压缩对象 GRID:组识别注册 IPLS:复杂类别列表 MCDI:音乐CD标识符 MLLT:MPEG位置查找表格 OWNE:所有权 PRIV:私有 PCNT:播放计数 POPM:普通仪表 POSS:位置同步 RBUF:推荐缓冲区大小 RVAD:音量调节器 RVRB:混响 SYLT:同步歌词或文本 SYTC:同步节拍编码 TALB:专辑,相当于ID3v1的Album TBPM:每分钟节拍数 TCOM:作曲家 TCON:流派(风格),见表2 TCOP:版权 TDAT:日期 TDLY:播放列表返录 TENC:编码 TEXT:歌词作者 TFLT:文件类型 TIME:时间 TIT1:内容组描述 TIT2:标题,相当于ID3v1的Title TIT3:副标题 TKEY:最初关键字 TLAN:语言 TLEN:长度 TMED:媒体类型 TOAL:原唱片集 TOFN:原文件名 TOLY:原歌词作者 TOPE:原艺术家 TORY:最初发行年份 TOWM:文件所有者(许可证者) TPE1:艺术家相当于ID3v1的Artist TPE2:乐队 TPE3:指挥者 TPE4:翻译(记录员、修改员) TPOS:作品集部分 TPUB:发行人 TRCK:音轨(曲号),相当于ID3v1的Track TRDA:录制日期 TRSN:Intenet电台名称 TRSO:Intenet电台所有者 TSIZ:大小 TSRC:ISRC(国际的标准记录代码) TSSE:编码使用的软件(硬件设置) TYER:年代,相当于ID3v1的Year TXXX:年度 UFID:唯一的文件标识符 USER:使用条款 USLT:歌词 WCOM:广告信息 WCOP:版权信息 WOAF:官方音频文件网页 WOAR:官方艺术家网页 WOAS:官方音频原始资料网页 WORS:官方互联网无线配置首页 WPAY:付款 WPUB:出版商官方网页 WXXX:用户定义的URL链接 --------------------------------------- 说明: ①帧内容是数字的,都用Ascii字符表示。 ②有的TCON(风格、流派)的帧内容是直接用字符串表示的,如“genre”,而有的则是用编号表示的,如“28313229”就是用字符串“(12)”表示12号风格,我们在解析的时候要注意。 ③TRCK(音轨)的帧内容格式是:N/M。其中,分母表示专辑中共有M首歌曲,分子表示专辑中的第N首曲。 表6:标签帧中Flags标志的意义 ---------------------------------------------------- 位址意义 ---------------------------------------------------- 0 标签保护标志,如设置表示此帧作废 1 文件保护标志,如设置表示此帧作废 2 只读标志,如设置表示此帧不能修改 3 压缩标志,如设置表示1个字节存放2个BCD码表示数字 4 加密标志 5 组标志,如设置表示此帧和其它的某帧是一组 ---------------------------------------------------- 三、APEV2 APEV2的特点是:字符串用UTF-8编码;允许给帧标识自由命名。 表7:APEv2标签结构 ------------- 名称 字节 ------------- 标签头 32 标签帧1 标签帧2 ... 标签尾 32 ------------- 说明:个别APEV2没有标签尾。 表8:APEV2标签头结构 ------------------------------------------------------ 名称 字节 说明 ------------------------------------------------------ headerID 8 “APETAGEX”的Ascii码 version 4 APEV版本,现在常用APEV2(D0070000) Size 4 所有标签帧和标签尾的总长度,低位在前 Count 4 标签帧个数,低位在前 flags 4 填充标记(000000A0) reserved 8 保留,全为0 ------------------------------------------------------ 表9:APEV2标签尾结构 --------------------------------------------------------- 名称 字节 说明 --------------------------------------------------------- headerID 8 “APETAGEX”的Ascii码 version 4 APEV版本,现在常用APEV2(D0070000) Size 4 标签帧总长度(包括标签尾本身),低位在前 Count 4 标签帧个数,低位在前 flags 4 填充标记(00000080) reserved 8 保留,全为0 --------------------------------------------------------- 表10:APEV2标签帧结构 ------------------------------------------- 名称 字节 说明 ------------------------------------------- Size 4 帧内容长度,低位在前 flags 4 填充标记 ID 帧标识,长度不固定 Pre 1 帧标识的结束字符,恒为0 Value 帧内容,长度由Size确定 ------------------------------------------- 说明:APEV2中,帧内容均为字符串,且均使用UTF-8编码。 表11:常用帧标识的意义 ----------------------------- 名称 意义 ----------------------------- Album 专辑名 Artist 歌手名 Comment 注释 Composer 作曲家 Copyright 版权 Encoder 编码类型 Genre 风格 Lyric 歌词 Orchestra 乐队 Title 歌曲名 Track 音轨号 WM/AuthorWebpaga作者网页 WM/BPM WM/CodedBy 编码依据 WM/EncodedBy 英文编码依据 WM/FileWebpage 文件网页 WM/GenreID 风格编号 WM/OrigArtist 原创艺术家 WM/PromotionURL 推销URL WM/URL WM/Writer 作者 WMFSDKVersion 发行版本 WMFSDKNeeded 发行必需 Year 发行日期 ----------------------------- 说明:Lyric帧可以储存带时间参数的歌词,格式为:“[时:分:秒]歌词换行符”(类似于Lrc歌词文件),时和分可以省略,秒可以用小数。 |