MyException - 我的异常网
当前位置:我的异常网» Windows7 » 音频处理 (1) 音频文件

音频处理 (1) 音频文件

www.MyException.Cn  网友分享于:2013-09-19  浏览:0次
音频处理 (一) 音频文件

音频文件

   音频文件是对声音进行数字转换之后存放的数据文件,了解音频数据必须先知道几个重要概念。

1. 采样:对声音信息录入时,行进的最小操作单位,一般一次采样具有左右2个声道,每个声道用1或2个字节来存储;

这样采样的量化位数是8位,或16位(样本位宽),量化位数越高声音音质越好;就像11位电话号码表示的号码比7位要多得多;

2. 采样频率:每秒采样次数,单位Hz,一般的音频文件有11.025kHz22.05kHz44.10kHz等;显然,这种模-数信息的转换,每秒采样次数越多,声音就越精确;

3. 码率:每秒编码的bit数,单位是kb/s;计算方式:位宽×声道数×采样频率;(单位是bit不是字节)

4. 声道数,固定值为1-单声道,或者2-双声道,双声道时,每个采样样本中包含左声道、右声道的音频数据,因此两者的数据是交错排列的;

 

 (一)Wave 格式

    WAVE是微软开发的声音文件格式,用于保存Windows平台的音频信息资源,文件后缀名*.wav;支持多种压缩算法、多种音频位数、采样频率和声道;

    标准的wav文件采用44.1kHz采样频率,16位量化位数,声音文件质量几与CD相当;Wave格式不对源数据做任何处理,如果源数据是无损的,编码后的Wav文件也是无损的;如果源数据是有损的,编码后的Wav文件也是有损的;

1. Wave文件的构成:

RIFF 标 志 4B "RIFF"
数据大小 4B -
格式 4B "WAVE"
fmt 标志 4B "fmt "
结构体大小 4B 16/18
结构体 16B/18B  
data 标志 4B "data"
声音数据大小 4B -
data -

 

 

 

 

 

 

 

 

 

 

 

 

 

2. Wave文件的详细结构:

// RIFF 标准媒体流文件头
struct Riff_Header
{
char szRiffId[4]; // 'R','I','F','F' DWORD dwRiffSize; // Size, 除了这 8 个字节之外,文件剩余大小,等于文件总字节数-8 char szRiffFormat[4]; // 'W','A','V','E' }; struct Fmt_Block { char szFmtId[4]; // 'f', 'm', 't',' ' DWORD dwFmtSize; // Size 为 16 或 18 WORD wFormatTag; // 编码方式,一般为 0x0001 WORD wChannels; // 声道数 1--单声道 2--双声道 DWORD dwSamplesPerSec; // 采样频率 /Hz DWORD dwAvgBytesPerSec; // 每秒字节数 WORD wBlockAlign; // 数据块对齐单位(每个采样需要的字节数) WORD wBitsPerSample; // 每个采样需要的 bit // WORD wBits; // 可能有可能没有,由dwFmtSize字段决定 }; //Fact_Block 块,有些 wav 文件中没有 struct Fact_Block { char szFactId[4]; // 'f','a','c','t' DWORD dwFactSize; // }; //数据块 struct Data_Block { char szDataId[4]; //'d','a,','t','a' DWORD dwDataSize; // 音频数据大小 //data ... };

 说明:

(1)  RIFF块里面的 dwRiffSize 表示的是整个文件除开头8个字节之外的大小0x24 0xCD 0x01 0x00,即 118,052 Byte,通过文件属性查得文件大小是118,060Byte;

(2)  dwFmtSize 0x10 0x00 0x00 0x00,即为16;fmt块的剩余部分是一个波形信息结构,是微软定义的:

/*
 *  extended waveform format structure used for all non-PCM formats. this
 *  structure is common to all non-PCM formats.
 */
typedef struct tWAVEFORMATEX
{
    WORD        wFormatTag;         /* format type */
    WORD        nChannels;          /* number of channels (i.e. mono, stereo...) */
    DWORD       nSamplesPerSec;     /* sample rate */
    DWORD       nAvgBytesPerSec;    /* for buffer estimation */
    WORD        nBlockAlign;        /* block size of data */
    WORD        wBitsPerSample;     /* number of bits per sample of mono data */
    WORD        cbSize;             /* the count in bytes of the size of */
                                                                                      /* extra information (after cbSize) */
} WAVEFORMATEX, *PWAVEFORMATEX, NEAR *NPWAVEFORMATEX, FAR *LPWAVEFORMATEX;
WAVEFORMATEX

(3)  Data块:dwDataSize表示音频数据的大小,0x00 0x01 0xCD 0x00,即118,016,略小于118,052,说明文件末有部分无效数据

 一个示例:

//
// 读取Wav文件头,并验证文件格式
// 成功返回文件句柄,并重定位文件指针到数据区
// 失败返回NULL
//
HANDLE ReadHeader(char* path)
{
    HANDLE hFile = CreateFileA(path, GENERIC_READ, FILE_SHARE_READ, NULL, OPEN_EXISTING, 0, NULL);

    if (hFile == INVALID_HANDLE_VALUE)
    {
        printf("Unable to Open File!");
        return NULL;
    }
    char buffer[512];
    DWORD readByte;
    if (ReadFile(hFile, buffer, sizeof(buffer), &readByte, NULL))
    {
        Riff_Header header;
        Fmt_Block fmt;
        Data_Block data;
        memcpy(&header, buffer, sizeof(Riff_Header));
        if (strncmp(header.szRiffId, "RIFF", 4) != 0) {CloseHandle(hFile); return NULL;}

        memcpy(&fmt, buffer + sizeof(Riff_Header), sizeof(Fmt_Block));
        if (strncmp(fmt.szFmtId, "fmt ", 4) != 0) {CloseHandle(hFile);return NULL;}

        memcpy(&data, buffer + sizeof(Riff_Header)+fmt.dwFmtSize+8, sizeof(Data_Block));
        if (strncmp(data.szDataId, "data", 4) != 0) {CloseHandle(hFile);return NULL;}

        memcpy(&wfx, &fmt.wFormatTag, sizeof(WAVEFORMATEX) - 2);
        wfx.cbSize = 0;

        // 重定位文件指针,到数据起始位置
        int headSize = sizeof(Riff_Header) + fmt.dwFmtSize + 8 + sizeof(Data_Block);
headSize = (headSize/8 + (headSize%8?1:0))*8; SetFilePointer(hFile,
headSize, 0, FILE_BEGIN); return hFile; } return NULL; }

说明:1. 这里没有考虑fact结构存在的情况;2. 调用ReadHeader()之后wfx结构同时也填充完毕,可以用于打开音频设备,进行wav音频播放;

其调用如下:

#include "stdafx.h"
#include <Windows.h>
#include <mmsystem.h>
#include "WavStruct.h"

#pragma comment(lib, "winmm.lib")

const char testWave = "C:/Windows/Media/Ring02.wav"; WAVEFORMATEX wfx;
int main(int argc, char* argv[]) { HANDLE hFile = ReadHeader((char*)testWave); if (hFile == NULL) return 0; CloseHandle(hFile); return 0; }

结果:

 

 (二) MP3格式

     MP3格式(待续 ...)

 

 

 

 

 

文章评论

一个程序员的时间管理
一个程序员的时间管理
那些性感的让人尖叫的程序员
那些性感的让人尖叫的程序员
老美怎么看待阿里赴美上市
老美怎么看待阿里赴美上市
中美印日四国程序员比较
中美印日四国程序员比较
10个帮程序员减压放松的网站
10个帮程序员减压放松的网站
 程序员的样子
程序员的样子
为啥Android手机总会越用越慢?
为啥Android手机总会越用越慢?
如何区分一个程序员是“老手“还是“新手“?
如何区分一个程序员是“老手“还是“新手“?
2013年中国软件开发者薪资调查报告
2013年中国软件开发者薪资调查报告
程序员和编码员之间的区别
程序员和编码员之间的区别
如何成为一名黑客
如何成为一名黑客
写给自己也写给你 自己到底该何去何从
写给自己也写给你 自己到底该何去何从
10个调试和排错的小建议
10个调试和排错的小建议
团队中“技术大拿”并非越多越好
团队中“技术大拿”并非越多越好
程序员的鄙视链
程序员的鄙视链
为什么程序员都是夜猫子
为什么程序员都是夜猫子
程序员的一天:一寸光阴一寸金
程序员的一天:一寸光阴一寸金
聊聊HTTPS和SSL/TLS协议
聊聊HTTPS和SSL/TLS协议
看13位CEO、创始人和高管如何提高工作效率
看13位CEO、创始人和高管如何提高工作效率
Web开发者需具备的8个好习惯
Web开发者需具备的8个好习惯
程序员周末都喜欢做什么?
程序员周末都喜欢做什么?
十大编程算法助程序员走上高手之路
十大编程算法助程序员走上高手之路
旅行,写作,编程
旅行,写作,编程
程序员最害怕的5件事 你中招了吗?
程序员最害怕的5件事 你中招了吗?
老程序员的下场
老程序员的下场
初级 vs 高级开发者 哪个性价比更高?
初级 vs 高级开发者 哪个性价比更高?
不懂技术不要对懂技术的人说这很容易实现
不懂技术不要对懂技术的人说这很容易实现
“肮脏的”IT工作排行榜
“肮脏的”IT工作排行榜
科技史上最臭名昭著的13大罪犯
科技史上最臭名昭著的13大罪犯
漫画:程序员的工作
漫画:程序员的工作
那些争议最大的编程观点
那些争议最大的编程观点
代码女神横空出世
代码女神横空出世
Google伦敦新总部 犹如星级庄园
Google伦敦新总部 犹如星级庄园
编程语言是女人
编程语言是女人
程序员眼里IE浏览器是什么样的
程序员眼里IE浏览器是什么样的
60个开发者不容错过的免费资源库
60个开发者不容错过的免费资源库
“懒”出效率是程序员的美德
“懒”出效率是程序员的美德
Java程序员必看电影
Java程序员必看电影
总结2014中国互联网十大段子
总结2014中国互联网十大段子
亲爱的项目经理,我恨你
亲爱的项目经理,我恨你
每天工作4小时的程序员
每天工作4小时的程序员
5款最佳正则表达式编辑调试器
5款最佳正则表达式编辑调试器
当下全球最炙手可热的八位少年创业者
当下全球最炙手可热的八位少年创业者
鲜为人知的编程真相
鲜为人知的编程真相
做程序猿的老婆应该注意的一些事情
做程序猿的老婆应该注意的一些事情
2013年美国开发者薪资调查报告
2013年美国开发者薪资调查报告
什么才是优秀的用户界面设计
什么才是优秀的用户界面设计
Web开发人员为什么越来越懒了?
Web开发人员为什么越来越懒了?
Java 与 .NET 的平台发展之争
Java 与 .NET 的平台发展之争
软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有