📞 VoIP与实时语音
微信语音、Zoom会议背后的技术
🤔 什么是VoIP?
📱 你每天都在用
VoIP (Voice over IP) = 用互联网打电话
简单说:不走电话线,走网络的语音通话
💬
微信
Opus
📹
Zoom
Opus
🎮
Discord
Opus
💼
Teams
SILK
📞
WhatsApp
Opus
⚔️ 传统电话 vs VoIP
📞 传统电话
🗣️ 说话
↓
📞 模拟信号
↓
🏢 交换机
↓
👂 对方
固定64kbps · 按分钟计费
💬 VoIP网络电话
🗣️ 说话
↓
📦 数据包
↓
🌐 互联网
↓
👂 对方
灵活码率 · 几乎免费
⏱️ 最大挑战:延迟
为什么"实时"这么重要?
你说"你好",对方2秒后才听到——没法正常对话!
实时语音对延迟要求极高:
🎯 延迟来自哪?
采集(10ms) + 编码(20ms) + 网络(50ms) + 解码(20ms) + 播放(50ms) ≈ 150ms
🚀 一句话的100ms旅程
采集
10ms
→
编码
20ms
→
传输
50ms
→
解码
20ms
→
播放
20ms
🎛️ VoIP常用编码器
为什么不用MP3打电话?
MP3为听音乐设计,延迟高(100ms+)。VoIP需要专门的低延迟编码器:
🚀 Opus
6-128k
最先进,延迟最低5ms
微信 Zoom
📞 G.711
64k
传统电话标准
座机 PSTN
🔧 G.729
8k
超低码率省带宽
企业电话
🎵 G.722
64k
宽带语音更清晰
高清通话
🎧 为什么通话和听歌不一样?
| 对比 | 🎵 听音乐 | 📞 通话 |
|---|---|---|
| 最重要 | 音质 | 延迟 |
| 可接受延迟 | 几秒 | <150ms |
| 码率 | 128-320k | 16-64k |
| 采样率 | 44.1kHz | 8-16kHz |
💡 人声不需要高质量
人说话频率集中在300-3400Hz,电话只传这个范围就够听清了。音乐需要20-20000Hz。
✅ 本章小结
- VoIP = 用互联网打电话(微信/Zoom/Discord)
- 核心挑战是延迟:要控制在150ms以内
- Opus是现代标准:低延迟+高压缩+免费
- 通话vs听歌:通话要快,听歌要好