1. 基于pcm音频的音量分析
声音(sound)是由物体振动产生的声波。是通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象。最初发出振动(震动)的物体叫声源。声音以波的形式振动(震动)传播。声音是声波通过任何物质传播形成的运动。
音调的高低主要由声波频率决定。人的听觉频率范围是20Hz~20kHz,其中1kHz~4kHz赫兹是人耳最敏感的区域。
音响是由声音强度决定的一种听觉特性。声音强度大,音响就大,声音强度小,音响就小。人所能感觉到的音响范围在0~130分贝,当音响超过130分贝,人耳就会产生痛觉。研究者大多数用纯音来测查音响的感知觉。30岁的成年男子能知觉到音响只有4分贝的6 000赫兹纯音。在同是6 000赫兹的声波频率下,65岁的老年人要把声音强度提高到40分贝才能知觉到同样的声响。
波形决定了声音的音色。声音因不同物体材料的特性而具有不同特性,音色本身是一种抽象的东西,但波形是把这个抽象直观的表现。音色不同,波形则不同。每一种声音都有各自的基本波形,称为基波。不同声音的基波中混入的谐波有多有少,导致音质变化多端,也就是音色的不同。基波中混入的谐波越多,也就是泛音越多,听起来就更悦耳。
分贝dB定义为两个数值的对数比率,这两个数值分别是测量值和参考值(也称为基准值)。存在两种定义情况。
因为人耳的特性,我们对声音的大小感知呈对数关系。所以我们通常用分贝描述声音大小,分贝(decibel)是量度两个相同单位之数量比例的单位,主要用于度量声音强度,常用dB表示。在声学领域,dB经常用作为表征声压级SPL(Sound Pressure Level)的大小。声压的单位是帕斯卡,Pa,声压的参考值是20μPa,这个值表示人耳在1000Hz处的平均可听阈值,或者是人耳在1000Hz处可被感知的平均最小声压波动值。
因此使用声配敏压计算分贝时使用下述版本的公式:
其中的pref是标准参考声压值20微帕。
人耳可听的声压幅值波动范围为2×10^-5Pa~20Pa,用幅值dB表示对应的分贝数为0~120dB。
物体通过震动发出声音
通过声波带动麦克风内的振膜一起震动来采集音频信号,振膜在震动时会有幅度,我们将振膜的震动过程记录下来,就可以还原声波的形状,以此将声波描述成模拟信号。
对模拟信号进行量化采集的操作
将模拟信号转换成为数字信号
将数字信号存储为pcm无损音频数据裸流
将pcm文件编码成wav,aac,mp3等音频格式进行传输及存储
每秒钟取培宽枝得声音样本的次数
奈奎斯特定理:在进行模拟/数字信号的转换过程中,当采样频率fs.max大于信号中最高频率fmax的2倍时(fs.max>2fmax),采样之后的数字信号完整地保留了原始信号中的信息。
人耳可听的声音20Hz~20kHz,所以CD品质的采样率为44.1kHz就可以完整的保留人耳所能听到的声音,其中1kHz~4kHz赫兹是人耳最敏感的区域,MP3品质为8kHz,就已经可以基本满足收听音乐的需求了
一个采样点所占据的位(bit)数
*1 字节(也就是8bit) 仅仅能记录 256 个数
*2 字节(也就是16bit) 能够细到 65536 个数, 这已是 CD 标准了;
*4 字节(也就是32bit) 能把振幅细分到 4294967296 个等级
一个采样点描述的是当前采集时间的能量(震动幅度),一个采样点所占的位数越多,描述声音的精确度越高,声压级为20μPa~20Pa,等级比为10^6, 4字节等级为4294 * 10^6,远远高于声压级的等计量,所以无需使用这么细致的深度来进行描述,使用2字节就可以满足需求。
记录声音的通道数巧蠢量
*单声道通过一个麦克风收集声音
*立体声需要通过多个麦克风一起收集声音
每秒的数据传输速率(kbps)
比特率 = 采样频率 * 采样位数 * 通道数
PCM(Pulse Code Molation)也被称为脉冲编码调制。PCM音频数据是未经压缩的音频采样数据裸流,它是由模拟信号经过采样、量化、编码转换成的标准的数字音频数据。
PCM音频数据是未经压缩的音频采样数据裸流,是无法直接通过播放器进行播放的,因为pcm中只存储了音频采样数据裸流,采样频率、位深度、通道数等信息都没有进行存储,所以播放器不知道以什么方式来播放pcm数据。因此我们需要将pcm存储为wav格式或编码成其他音频格式进行存储及播放
WAV为微软公司(Microsoft)开发的一种声音文件格式,它符合RIFF(Resource Interchange File Format)文件规范,用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持。WAVE文件通常只是一个具有单个“WAVE”块的RIFF文件,该块由两个子块(”fmt”子数据块和”data”子数据块)
wav的实质就是在pcm文件的前面加了一个文件头,让播放器知道该以何种方式来进行播放
1.获取pcm数据片段buff
2.分析buff数据的大小端
3.分析buff数据的符号(有符号/无符号)
4.根据位深度(8/16位)来获取每个采样点的数据
5.计算采样点的平均value
6.数字信号的分贝计算,需要使用dbFS公式,位深度计算出来的最大值(16位有符号32767,无符号65535)为分母(Pref),采样点value为分子(Prms)通过公式计算分贝。
这样计算出来的数字为负值,0为最大值。16位有符号为-93~0,16位无符号位-90~0.
7.分贝换算,通过dbFS公式计算出来的分贝为负数范围,但数字为线性关系,我们需要将结果等比映射到0~120db即为我们最终的结果
2. 怎么用audacity 分析音频文件
许多朋友经常需要对一些音频进行编辑,但是被音频软件复杂的界面和昂贵的价格搞得无所适从 现在,可以试一试Audacity( audacity/) Audacity是一款免费 开放源码 易于使用的音频编辑器和录音器,可运行喊码升郑老在Windows Mac OS X GNU/Linux及其它操作系统上 可以使用Audacity进行现场录音 将磁带和录音带转录为数字录音或CD 编辑MP3及WAV音频文件 剪切 拷贝 接合模大及混音 改变录音的速率和音高等 可见介绍: /unix.php For users with OSS builds of audacity and aRts, you can also use the wrapper provided by aRts and run:: $ artsdsp audacity
3. 如何分析音视频文件中的关键帧
音频可以认为每一帧都是关键帧,视频的话要具体解析码流,具体的编码具体分析。每一帧,有标志位是否为关键帧。要具体格式具体分析。
4. 分析音频文件
想到一个文件比较的办法,不过由于你的文件全是数字,可能需要用一个批量改名软件先把所有文件都改成较为简短的数字,然后在DOS窗口下,利用FC命令对文件进行对比并列出不同的地方
格式:FC[盘符:][路径名]〈文件名〉[盘符:][路径名][文件名]
后面还可加参数"A""B""C""N"
选用/A参数,为ASCII码比较模式;
选用/B参数,为二进制比较模式;
选弊键用/C参数,将大小写字符看成是相同的字符。
选用/N参做搜数,在ASCII码比较方式下,显示相异处的行号。
如需要将文件异同输租胡巧出为TXT内容,可以在参数前添加"盘符:\XX.TXT"
5. beatfinder原理
Beatfinder 是一种音乐分析软件,用于检测和分析音频文件中的节奏和节拍信息。Beatfinder 的原理基于数字信号处理和机器学习技术,主要分为以薯蠢下几个步骤:
预处理:将音频文件转换为数字信号,并对其进行滤波、降噪等处理,以减少噪音对分析结果的影响。
节拍检测:利用时间域和频率域的分析方法,检测出音频文件中的节拍点。一般采用的方法包括峰值检测法、自相关法、互相关法等。
节奏分析此手链:根据节拍点的位置和时间间隔,分析出音频文件中的节奏模式和节奏变化。一般采用的方法包括小波变换、频域分析、时域分析等。
机器学习:采用机器学习算法对分析结果进行分类和归纳,以进一步提高准确性和鲁棒性。例如,可以使用支持向量机、决策树等算法对不同类型的音乐进行分类和识别。
通过上述分析和处理,Beatfinder 可以自动检测出音频文件中的节奏和节拍信息,并输出相应的分析结果和统计数据。这些信息森孙可以用于音乐制作、DJ表演、舞蹈编排等应用场景。
6. 音频文件的格式共有几种其各自的特点是什么
截止至2019年8月,音频文件的格式有8种,具体如下:
1、CD格式:
在大多数播放软件的“打开文件类型”中,都可以看到*.cda格式,这就是CD音轨了。
特点是:CD音轨可以说是近似无损的,因此它的声音基本上是忠于原声的。
2、WAV格式:
WAV格式的声音文件质量和CD相差无几,也是PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都“认识”WAV格式。
特点是:“*.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法,支持多种音频位数、采样频率和声道。
3、MP3格式:
MP3格式诞生于八十年代的德国,所谓的MP3也就是指的是MPEG标准中的音频部分,也就是MPEG音频层。
特点是:MP3格式压缩音乐的采样频率有很多种,可以用64Kbps或更低的采样频率节省空间,也可以用320Kbps的标准达到极高的音质。
4、MIDI格式:
MIDI来源于(Musical Instrument Digital Interface)这个词,MIDI允许数字合成器和其他设备交换数据。MID文件格式由MIDI继承而来。
特点是:MID文件主要用于原始乐器作品,流行歌曲的业余表演,游戏音轨以及电子贺卡等。*.mid文件重放的效果完全依赖声卡的档次。
5、WMA格式:
WMA和日本YAMAHA公司开发的VQF格式一样,是以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的。
特点是:高保真声音通频带宽,音质更好,后台强硬,音质要强于MP3格式,更远胜于RA格式。
6、VQF格式:
雅马哈公司另一种格式是*.vqf,但是由于宣传不力,这种格式难有用武之地。*.vqf可以用雅马哈的播放器播放。
特点是:核心是减少数据流量但保持音质的方法来达到更高的压缩比,可以说技术上也是很先进。
7、FLAC格式:
FLAC即是Free Lossless Audio Codec的缩写,中文可解为无损音频压缩编码。
特点是:FLAC是一套著名的自由音频压缩编码,其特点是无损压缩。不同于其他有损压缩编码如MP3及AAC,它不会破坏任何原有的音频资讯,所以可以还原音乐光盘音质。
8、APE格式:
APE是流行的数字音乐文件格式之一。与MP3这类有损压缩方式不同,APE是一种无损压缩音频技术。
特点是:将从音频CD上读取的音频数据文件压缩成APE格式后,还可以再将APE格式的文件还原,而还原后的音频文件与压缩前的一模一样,没有任何损失。
7. 音频可以分为哪几类
音频格式可以分为CD格式、、MP3、WMA、MIDI、VQF、ogg格式、FLAC、APE这几类。
在大多数播放软件的“打开文件类型”中,都可以看到*.cda格式,这就是CD音轨了。标准CD格式也就是44.1K的采样频率,速率88K/秒,16位量化位数,因为CD音轨可以说是近似无损的,因此它的声音基本上是忠于原声的。
WAV是微软公司开发的一种声音文件格式,它符合 PIFFResource Interchange File Format 文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台及其应用程序所支持。
MP3格式诞生于八十年代的德国,所谓的MP3也就是指的是MPEG标准中的音频部分,也就是MPEG音频层。
经常玩音乐的人应该常听到MIDI(Musical Instrument Digital Interface)这个词,MIDI允许数字合成器和其他设备交换数据。
WMA (Windows Media Audio) 格式是来自于微软的重量级选手,高保真声音通频带宽,音质更好,后台强硬,音质要强于MP3格式,更远胜于RA格式,它和日本YAMAHA公司开发的VQF格式一样,是以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的。
雅马哈公司另一种格式是*.vqf,它的核心是减少数据流量但保持音质的方法来达到更高的压缩比,可以说技术上也是很先进的,但是由于宣传不力,这种格式难有用武之地。
ogg格式完全开源,完全免费, 和mp3不相上下的新格式。 与MP3类似,OGGVorbis也是对音频进行有损压缩编码,但通过使用更加先进的声学模型去减少损失,因此,相同码率编码的OGGVorbis比MP3音质更好一些,文件也更小一些。
FLAC即是Free Lossless Audio Codec的缩写,中文可解为无损音频压缩编码。FLAC是一套著名的自由音频压缩编码,其特点是无损压缩。
APE是流行的数字音乐文件格式之一。与MP3这类有损压缩方式不同,APE是一种无损压缩音频技术,也就是说从音频CD上读取的音频数据文件压缩成APE格式后,还可以再将APE格式的文件还原,而还原后的音频文件与压缩前的一模一样,没有任何损失。
(7)音频文件分析扩展阅读:
要在计算机内播放或是处理音频文件,也就是要对声音文件进行数、模转换,这个过程同样由采样和量化构成,人耳所能听到的声音,最低的频率是从20Hz起一直到最高频率20KHZ,20KHz以上人耳是听不到的。
因此音频的最大带宽是20KHZ,故而采样速率需要介于40~50KHZ之间,而且对每个样本需要更多的量化比特数。音频数字化的标准是每个样本16位(16bit,即96dB)的信噪比,采用线性脉冲编码调制PCM,每一量化步长都具有相等的长度。在音频文件的制作中,正是采用这一标准。
8. 16位dac格式和int格式
1.MP3编码格式
1.1.MP3概述
MPEG-1 or MPEG-2 Audio Layer III是一种音频压缩技术,其全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III),简称为MP3,是目前最流行的音频编码格式。
MP3文件是由帧(frame)构成的,帧是MP3文件最小的组成单位。MPEG音频文件是MPEG1标准中的声音部分,也叫MPEG音频层,它根据压缩质量和编码复杂程度划分为三层,即 Layer-1、Layer2、Layer3,且分别对应MP1、MP2、MP3这三种声音文件,并根据不同的用途,使用不同层次的编拦薯绝码。MPEG音频编码的层次越高,编码器越复杂,压缩率也越高,MP1和MP2的压缩率分别为4:1和6:1-8:1,而MP3的压缩率则高达10:1-12:1,也就是说,一分钟CD音质的音乐,未经压缩需要10MB的存储空间,而经过MP3压缩编码后只有1MB左右。不过MP3对音频信号采用的是有损压缩方式,为了降低声音失真度,MP3采取了“感官编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。根据MPEG规范的说法,MPEG-4中的AAC(Advanced audio coding)将是MP3格式的下一代。
1.2.MPEG音频压缩基础
在众多音频压缩方法中,这些方法在保持声音质量的同时尽量压缩数字音频使之占用更小的存储空间。MPEG压缩是该领域中效果最好的一个。这种压缩是有损压缩,这意味着,当运用这一方法压缩时肯定会丢失一部分音频信息。但是,由于压缩方法的控制很难发现这种损失。使用几个非常复杂和苛刻的数学算法,使得只有原始音频中几乎听不到的部分损失掉。这就给重要的信息剩下了更多的空间。通过这种方法可以将音频压缩12倍(可以选择压缩率),效果显著。正是应为他的质量,MPEG音频变得流行起来。
MPEG-1,MPEG-2和简姿MPEG-4都是人们熟悉的MPEG标准,MP3只涉及到前两中,另外还有一个非官方标准MPEG-2.5用于扩展MPEG-2/LSF到更低的采样率。
MPEG-1音频(ISO/IEC 11172-3)描述了具有如下属性的三层音频编码:
1或2个声道;
采样频率为32kHz,44.1kHz或48kHz;
位率从32kbps到448kbps;
每一层都有自己的优点。
MPEG-2音频(ISO/IEC 13818-3)有两个MPEG-1的扩展,通常叫做MPEG-2/LSF和MPEG-2/Multichannel。
MPEG-2/LSF有如下特点:
1或2个声道;
采样频率为MPEG-1的一半;
波特率从8kbps256kbps;
MPEG-2/Mutichannel有如下特点:
多达5个声道和1个LFE-通道(低频增强 不是重低音);
同MPEG-1一样的采样频率;
5.1的最高波特率可能达到1Mbps;
1.3.MPEG Layer3编/解码的基本原理
音乐CD具有44.1KHz 16Bits立体声的音频质量,一张CD可以存储74分钟的歌曲(大约15首左右)。如何将这些歌曲无损手判或基本无损地进行压缩,以使在同样的媒体上存储更多的歌曲,一直困扰着软件业。当MPEG协会提出MPEG Audio Layer1~Layer3后,机会产生了。通过使用MPEG1 Layer3编码技术,制作者得以用大约12∶1的压缩率记录16KHz带宽的有损音乐信号。不过,同CD原声区别不大。人的听力系统具有非常优越的性能,其动态范围超过96dB。你既可以听到扣子掉在地上这样小的声音,也可以听到波音747的强大的轰鸣声。但当我们站在飞机场听着波音747的轰鸣时,你还能分辨出扣子掉在地上的声音吗?不可能。人的听力系统适应声音的动态变化,人们对这种适应及屏蔽特性音质研究后得出对声音压缩非常有用的理论。人们很早以前就知道利用这种特性来为磁带录音降低噪音了(当没有音乐时嘶嘶声很容易听到,而当音乐信号电平很高时嘶嘶声不容易听到)。当声音较强时产生屏蔽效应。在阈值曲线下的噪音或小信号声音无法被人耳听到。在较强信号出现时,允许通过更多的信号。在此时增加被量化过的小信号数据(使用无用的位来携带更多的信息)可以达到一定程度的压缩的目的。通常情况下,MP3压缩器将原始声音通过FFT(快速傅立叶变换)变化到频域,然后通过一定的算法算出何种频率声音可以携带更多的信息。而在还原时解码器所需要做的仅仅是将其从频域再变换回来。
1.4.整个MP3文件结构
MP3文件大体分为三部分:TAG_V2(ID3V2),音频数据,TAG_V1(ID3V1)
9. 请列出几个常用音频文件格式(WAV、MP3、RA、WMA、MID等),并简述其特点。
5. WAV格式是将声音源发出的模拟音频信号通过采样,量化转换成数字信号,再进行编码存储的波形文件格式。WAV格式的音质较好,通用性较强,但体积庞大,使用Windows操作系统的录音机录制的文件格式即为WAV格式,在实际应用中常用此格式存储语音数据。
MP3格式是现在普遍流行的一种高压缩比的专门用于存储音乐的音频格式。MP3采取了“感官编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。目前大多数的多媒体编辑软件已经在其改进的版本中提供了对MP3格式的支持。
RA(RealAudio)格式是一种流式音频媒体格式,RM格式则是流式视频RealVedio文件格式,主要用来在低速率的网络上实时传输活动视频影像,可以根据网络数据传输速率的不同而采用不同的压缩比率,在数据传输过程中边下载边播放视频影像,从而实现影像数据的实时传送和播放。
MIDI格式是将电子乐器演奏音乐的过程用一种专门的语言来描述,并以MIDI文件存储。输出时通过这种专门的语言去驱动MIDI合成器,在由MIDI合成器生成相应的音乐,放大后由扬声器输出。
WMA格式是一种音乐文件格式,但绝对不和MP3一样.WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质。
6.AVI是音频视频交错(Audio Video Interleaved)的英文缩写,它是Microsoft公司开发的一种符合RIFF文件规范的数字音频与视频文件格式,原先用于Microsoft Video for Windows (简称VFW)环境,现在已被Windows 95/98、OS/2等多数操作系统直接支持。AVI格式允许视频和音频交错在一起同步播放,支持256色和RLE压缩,但AVI文件并未限定压缩标准,因此,AVI文件格式只是作为控制界面上的标准,不具有兼容性,用不同压缩算法生成的AVI文件,必须使用相应的解压缩算法才能播放出来。常用的AVI播放驱动程序,主要是Microsoft Video for Windows或Windows 95/98中的Video 1,以及Intel公司的Indeo Video。AVI文件目前主要应用在多媒体光盘上,用来保存电影、电视等各种影像信息,有时也出现在Internet上,供用户下载、欣赏新影片的精彩片断。
MOV格式:QuickTime(MOV)是Apple计算机公司开发的一种音频、视频文件格式,用于保存音频和视频信息,具有先进的视频和音频功能,被包括Apple Mac OS、Microsoft Windows 95/98/NT在内的所有主流电脑平台支持。QuickTime文件格式支持25位彩色,支持RLE、JPEG等领先的集成压缩技术,提供150多种视频效果,并配有提供了200多种MIDI兼容音响和设备的声音装置。新版的QuickTime进一步扩展了原有功能,包含了基于Internet应用的关键特性,能够通过Internet提供实时的数字化信息流、工作流与文件回放功能,此外,QuickTime还采用了一种称为QuickTime VR (简作QTVR)技术的虚拟现实(Virtual Reality, VR)技术,用户通过鼠标或键盘的交互式控制,可以观察某一地点周围360度的景像,或者从空间任何角度观察某一物体。QuickTime以其领先的多媒体技术和跨平台特性、较小的存储空间要求、技术细节的独立性以及系统的高度开放性,得到业界的广泛认可,目前已成为数字媒体软件技术领域的事实上的工业标准。国际标准化组织(ISO)最近选择QuickTime文件格式作为开发MPEG�4规范的统一数字媒体存储格式。
DAT(数字录音带)是一种用于磁带数字录音的专业品质级别的标准媒体和技术。DAT设备就是一个数字磁带录音器,具有与录像机相似的旋转型磁头。大多数的DAT设备都能以44.1千赫、CD音频标准,以及48千赫的采样率来录音。DAT已经成为掌握录音的专业和半专业环境中的标准存档技术了。专业层面DAT的数字输入和输出允许用户从一个DAT磁带传输到另一个音频工作站进行精确的剪辑。它紧凑的尺寸和低廉的成本使得DAT媒介成为一种绝佳的整理录音并将其制成CD品质的方式。
RM格式:Real Networks公司所制定的音频视频压缩规范称为Real Media,用户可以使用RealPlayer或RealOne Player对符合RealMedia技术规范的网络音频/视频资源进行实况转播并且RealMedia可以根据不同的网络传输速率制定出不同的压缩比率,从而实现在低速率的网络上进行影像数据实时传送和播放。这种格式的另一个特点是用户使用RealPlayer或RealOne Player播放器可以在不下载音频/视频内容的条件下实现在线播放。另外,RM作为目前主流网络视频格式,它还可以通过其Real Server服务器将其它格式的视频转换成RM视频并由Real Server服务器负责对外发布和播放。RM和ASF格式可以说各有千秋,通常RM视频更柔和一些,而ASF视频则相对清晰一些。