音频技术

语音保存

采集到模拟信号，然后通过 ADC（模数转换）将模拟信号转换成数字信号以后，再通过 PCM（Pulse Code Modulation）脉冲编码调制对连续变化的模拟信号进行采样、量化和编码转换成离散的数字信号

PCM 文件就是未经封装的音频原始文件，在输出之前，需要转换一下。这些数据的格式我们通常称之为采样数据格式

PCM 数据的输入和输出是需要有一个频率的

当采样频率 fs 大于信号中最高频率 fmax 的 2 倍时（fs > 2fmax），采样之后的数字信号才可以完整地保留原始信号中的信息

除了左声道、右声道，还有立体声等，当我们听到的音频声道比较多，比如听交响乐的时候，立体感会尤为明显

采样位深也就是每个采样点用多少 bit 来表示。决定了声音的动态范围，常见的 16 位（16bit）可以记录大概 96 分贝（96dB）的动态范围，位数越多，保真程度越高

用 bps（bits per second）来表示，也就是每秒钟有多少位数据

一个 PCM 音频文件存储空间=采样位深×采样率×通道数×时长

同一时间采集或播放的音频信号的总数

声带会振动从而产生一个声波，这个声波叫做基波，基波的频率叫做基频，也就是音调

声带振动产生的基波，在传输过程中会在声道表面反复碰撞反射，从而产生许多频率倍数于基频的声波，这些声波叫做谐波

谐波频率和基频是浊音能量集中的地方

声源的振动信号通过声道时，声道本身也会发生共鸣，与声道共振频率相近的能量会被增强，远离声道共振频率的部分则会被衰减，从而谐波的能量就组成了一组高低起伏的形状包络，这些包络中的巅峰位置叫做共振峰

语音识别背后的原理之一是通过共振峰的位置和能量分布来识别音频代表的语音

为了避免由于信号的窗口处理或者截断等操作导致频谱波形中出现能量泄漏到其他频率，一般采用加窗，即在原有信号中乘一个两端为 0 的窗信号，来减少截断信号时的频谱泄漏

时域分析：

语音的能量随时间的变化较快，比如能量小的时候可能就是没有在说话，而能量大的地方可能是语音中重读的地方，可以通过短时能量判断语音的起止位置或者韵律

$$ E_n=\sum_{m=-\infty}^{\infty}\left[x(m)w(n-m)\right]^2 $$

第 n 个点的短时能量 En 就是由加窗后的采样信号的平方和来表示的

短时平均过零率指的是每帧内信号通过零值的次数，背景噪声较小的情况下，短时能量比较准确；但当背景噪声比较大时，短时平均过零率有较好的效果

频域分析：

通过将语音信号进行短时傅里叶变换，将短时傅里叶变换的结果对复数频域信号求模，并取对数转换成分贝（dB），然后用热力图的形式展示出来，就是频谱图了

人耳对以 Hz 为单位的频率并不是很敏感，梅尔谱三角滤波器组把频率划分成了若干个频段。敏感的频段滤波器分布比较密集，而不敏感的频段比较稀疏，这样就能更好地表征人耳的实际听

这两种方法更能反映人耳的真实听感

一首曲子的节奏是由速度和节拍决定的，速度以BPM表示。

节拍用来描述音乐中的进程的规律，指有一定强弱分别的一系列拍子，在每隔一定时间重复出现。若干个这样有规律的拍子叫一个小节

乐器的演奏其实就是按照节拍规定的音符演奏顺序，然后按照指定的速度演奏出来

唱名	do	re	mi	fa	So	la	ti	do
音名	C4	D4	E4	F4	G4	A4	B4	C5
基频频率(Hz)	261.6	293.7	329.6	349.2	392.0	440.0	493.9	523.2

MUSHRA（Multi-Stimulus Test with Hidden Reference and Anchor，多激励隐藏参考基准测试方法）：在测试语料中混入无损音源作为参考（上限），全损音源作为锚点（下限），通过双盲听测试，对待测音源和隐藏参考音源与锚点进行主观评分