Whisper.cpp

原子能力

厂商/来源: Georgi Gerganov

核心功能: “断网的超级速记员”。OpenAI 的 Whisper 模型极其强大，但原版需要庞大的 Python 环境和高级显卡。这个 cpp 版本把它塞进了边缘设备的 CPU 里。

适用场景	涉密会议室纪要离线生成、审讯录音转写、客服质检边缘节点预处理
架构支持	CPU (AVX2) Apple Silicon (CoreML) 低端设备 (树莓派 4)
性能指标	转写速度：使用 base 或 small 模型，在普通 i5 CPU 上转写 10 分钟的录音，只需约 1-2 分钟。无需 GPU 即可实现远超实时的转写。
核心价值	多语种与鲁棒性：不仅支持中英混说（“这个 Project 的 Deadline 是明天”），而且自带极强的口音纠错和标点符号自动添加功能。比传统的 Kaldi 方案准确率高出一个时代。
避坑指南	[无声幻觉与内存吃紧] 1. “谢谢观看”的幻觉死循环：这是 Whisper 著名的底层 Bug。如果音频中有一段长达 10 秒的静音或纯背景噪音，模型会“产生幻觉”，疯狂重复输出类似“谢谢观看”、“请订阅频道”之类的训练集残留废话。对策：绝对不能把原始音频直接喂给 Whisper！必须在前面加一道 VAD (语音活动检测，推荐 Silero-VAD)，把静音片段切掉，只把有人说话的音频片段喂进去。 2. 内存占用：加载 large-v3 模型需要约 3-4 GB 内存，这对边缘盒子负担很重。商用建议：中文场景下，通常量化后的 small 模型（占用 < 500MB）准确率已足够满足 90% 的需求。
推荐搭配	[Silero-VAD][FFmpeg (提取音频)] [麦克风阵列]