原子能力
Piper (Neural Text-to-Speech)
厂商/来源:
Rhasspy
核心功能:
设备的“嘴巴”。在断网的矿井、车库或保密单位,让设备能开口说话。
| 适用场景 | 排队叫号机、电梯报站、AGV 避让提示音、智能音箱 TTS |
| 架构支持 | ARM64 (树莓派 4, RK3588, Jetson) x86_64 |
| 算力依赖 | 极低。这是目前最快的神经 TTS 引擎之一。在树莓派 4B 单核上即可达到 5x 实时率 (生成 5秒语音只需 1秒)。 |
| 交付形态 | ONNX 模型文件 / 二进制执行程序 / Python 库 |
| 核心价值 | 完全离线 & 低延迟:相比云端 TTS (如阿里云/科大讯飞) 的 500ms+ 延迟,Piper 本地生成通常 < 200ms。不需要担心网络波动导致语音卡顿。 |
| 对接情报 | 输入:纯文本 (Text) 或 JSON。<br> 输出:WAV 音频流 (可以直接 Pipe 给 aplay 播放)。<br> 音色:支持多说话人模型,社区提供了大量高质量的中文模型 (zh_CN)。 |
| 避坑指南 | [多音字与机械感] 1. 多音字灾难:Piper 的中文前端处理对“多音字”支持一般(如“银行”读成“银兴”)。对策:在送入 Piper 之前,必须先用 pypinyin 等库将文本转为拼音,或者维护一个业务相关的自定义发音词典。 2. 句子停顿:长句朗读时缺乏自然的呼吸停顿。对策:在长文本中手动插入 SSML 标签或静音符号,人为控制节奏,否则听起来像机关枪。 |
| 推荐搭配 | [3W 小喇叭] [USB 声卡] [Python 脚本] |