🤔 一个问题开始

你有没有想过:声音是连续的波动,而电脑只认识0和1,它们是怎么"交流"的?

答案是:采样——就像用相机快速连拍,把连续的声波"切"成一张张"照片"。

📸 采样率:每秒拍多少张"照片"

什么是采样率?

采样率(Sample Rate) 表示每秒钟对声音"拍照"多少次,单位是 Hz(赫兹)kHz(千赫兹)

比如 44100 Hz 就是每秒拍 44100 张"照片",也写作 44.1 kHz

💡 通俗类比:拍烟花

想象你用手机拍烟花绽放的过程:

慢速连拍(1秒10张):只能看到几个模糊的光点,看不清烟花的形状

快速连拍(1秒60张):能看到烟花绽放的轨迹,但还是有点跳跃

超高速连拍(1秒1000张):每一个火花的运动都清清楚楚

采样率就是这个道理——拍得越快,还原出来的声音越接近原声!

🎮 动手试试:改变采样率看效果

拖动下方滑块,观察采样点(蓝色圆点)的数量变化。采样点越多,越能准确描绘原始波形。

采样率 20 个采样点
👀 观察一下

当采样点很少时(比如5个),连接起来的波形是不是和原始波形(灰色虚线)差很多?增加到50个以上,是不是就很接近了?

📊 常见采样率对比

采样率 应用场景 音质描述 相对质量
8 kHz 电话、对讲机 能听清说话,但闷闷的
16 kHz 语音识别、VoIP通话 清晰的人声,适合语音
44.1 kHz CD音乐、MP3 高保真音乐标准
48 kHz 视频配音、专业音频 影视行业标准
96 kHz 高清音频、录音棚 发烧友级别
🎯 为什么CD是44.1kHz?

人耳能听到的最高频率大约是20kHz。根据"奈奎斯特采样定理",采样率至少要是最高频率的2倍,才能完整还原声音。所以 20×2=40kHz,再留点余量,就成了44.1kHz。

🎨 位深:每张"照片"有多细腻

什么是位深?

位深(Bit Depth) 决定了每个采样点能记录多少种不同的音量级别,单位是 bit(位)

位深越高,能区分的音量层次越多,声音越细腻。

💡 通俗类比:调色盘

想象你在画画:

8色蜡笔:只能画出8种颜色,渐变效果很生硬

256色彩铅:颜色丰富多了,渐变过渡更自然

1600万色数位板:几乎和真实照片一样细腻

位深就像调色盘的颜色数量——位数越多,能表达的音量层次越丰富!

🎨 位深可视化对比

下面每个格子代表一个可表达的音量级别。格子越多,声音的"精度"越高。

4-bit
16个音量级别
早期游戏机
8-bit
256个音量级别
电话音质
16-bit
65,536个音量级别
CD音质
2⁸
8-bit = 256级
2¹⁶
16-bit = 65,536级
2²⁴
24-bit = 1600万级

📊 位深影响什么?

动态范围——最大声和最小声之间的差距。

• 16-bit:动态范围约 96dB,足够日常音乐

• 24-bit:动态范围约 144dB,超过人耳极限(约120dB),专业录音使用

简单说:位深越高,既能录下蚊子飞的声音,也能录下飞机起飞的轰鸣,而且两者都不失真。

🔊 声道:有几个"喇叭"在响

什么是声道?

声道(Channel) 就是独立的音频通道数量,决定了声音从几个方向传来。

📱
单声道 (Mono)
1个声道
电话、对讲机
🎧
立体声 (Stereo)
2个声道(左+右)
耳机、音乐
🎬
5.1环绕声
6个声道
电影院、家庭影院
💡 为什么需要多声道?

闭上眼睛想象:有人从你左边走到右边,你能听出来对吧?

这就是"立体声"的意义——左右两个喇叭播放略微不同的声音,让你感受到声音的空间感方位感

5.1环绕声更进一步,前后左右都有喇叭,让你仿佛置身于声音之中。

📊 比特率:每秒传输多少数据

什么是比特率?

比特率(Bit Rate) 表示每秒钟音频数据的大小,单位是 kbps(千比特每秒)

计算公式:比特率 = 采样率 × 位深 × 声道数

🧮 来算一算

CD音质的原始数据有多大?

44,100
采样率 (Hz)
×
16
位深 (bit)
×
2
声道数
= 1,411,200 bps ≈
1411 kbps
也就是说,1秒钟的CD音质音乐 ≈ 176 KB
1分钟 ≈ 10.3 MB,一张CD专辑(60分钟) ≈ 618 MB
💡 这就是为什么需要压缩!

原始音频太大了!一首5分钟的歌就要50多MB,手机根本存不了几首。所以才有了MP3、AAC这些压缩格式,能把体积压缩到原来的1/10。这个我们下一章详细讲。

💾 PCM:数字音频的"原始底片"

什么是PCM?

PCM(Pulse Code Modulation,脉冲编码调制) 就是把模拟声音变成数字信号的标准方法。

简单说,PCM数据就是一堆数字,每个数字代表某一瞬间声波的"高度"(振幅)。

💡 通俗类比:原始底片

如果把音频比作照片:

PCM = 相机直出的RAW格式,完整保留所有细节,但文件巨大

MP3/AAC = 压缩后的JPG格式,文件小了,但丢失了一些细节

FLAC = 无损压缩的PNG格式,文件变小,但能100%还原

PCM的特点

  • 没有任何压缩,完整保留原始数据
  • 没有文件头信息,就是纯粹的数字序列
  • DAC芯片可以直接读取并转换成声音
  • 体积很大,通常不直接用于存储和传输
  • WAV文件里面包的就是PCM数据(加了个文件头)
🎤
声波(模拟)
ADC采样
📊
PCM数据
0, 12, 45, 78, 92, 85...
📦
压缩编码
(MP3/AAC/Opus)

✅ 本章小结

  • 采样率:每秒"拍"多少次,决定能捕捉的最高频率。CD标准是44.1kHz。
  • 位深:每个采样点的精度,决定动态范围。CD标准是16-bit。
  • 声道:几路独立的声音。单声道、立体声(2声道)、5.1环绕声(6声道)。
  • 比特率:每秒的数据量 = 采样率 × 位深 × 声道。原始CD约1411kbps。
  • PCM:数字音频的原始格式,无压缩,体积大,是所有音频编码的基础。
下一章:为什么要压缩音频? →