原子能力
Whisper.cpp
厂商/来源:
Georgi Gerganov
核心功能:
“断网的超级速记员”。OpenAI 的 Whisper 模型极其强大,但原版需要庞大的 Python 环境和高级显卡。这个 cpp 版本把它塞进了边缘设备的 CPU 里。
| 适用场景 | 涉密会议室纪要离线生成、审讯录音转写、客服质检边缘节点预处理 |
| 架构支持 | CPU (AVX2) Apple Silicon (CoreML) 低端设备 (树莓派 4) |
| 性能指标 | 转写速度:使用 base 或 small 模型,在普通 i5 CPU 上转写 10 分钟的录音,只需约 1-2 分钟。无需 GPU 即可实现远超实时的转写。 |
| 核心价值 | 多语种与鲁棒性:不仅支持中英混说(“这个 Project 的 Deadline 是明天”),而且自带极强的口音纠错和标点符号自动添加功能。比传统的 Kaldi 方案准确率高出一个时代。 |
| 避坑指南 | [无声幻觉与内存吃紧] 1. “谢谢观看”的幻觉死循环:这是 Whisper 著名的底层 Bug。如果音频中有一段长达 10 秒的静音或纯背景噪音,模型会“产生幻觉”,疯狂重复输出类似“谢谢观看”、“请订阅频道”之类的训练集残留废话。对策:绝对不能把原始音频直接喂给 Whisper!必须在前面加一道 VAD (语音活动检测,推荐 Silero-VAD),把静音片段切掉,只把有人说话的音频片段喂进去。 2. 内存占用:加载 large-v3 模型需要约 3-4 GB 内存,这对边缘盒子负担很重。商用建议:中文场景下,通常量化后的 small 模型(占用 < 500MB)准确率已足够满足 90% 的需求。 |
| 推荐搭配 | [Silero-VAD][FFmpeg (提取音频)] [麦克风阵列] |