Agora Pocket TTS：100M 参数 CPU 运行文本转语音

传统文本转语音（TTS）合成通常依赖 GPU 或云端 API，资源消耗大、延迟高，且需要稳定的网络连接，使用门槛较高。Agora Pocket TTS 提供了一种超轻量级的替代方案，仅 100M 参数，完全适配 CPU 运行，无需 GPU 即可实现低延迟的音频流式生成。

核心内容

Agora Pocket TTS 的核心优势在于其极低的资源需求和高效率。模型仅 100M 参数，在 MacBook Air M4 上使用 CPU 即可达到实时 6 倍速，且仅占用 2 个 CPU 核心。首帧延迟低至 200ms，支持音频流式生成，适合实时交互场景。

该方案支持语音克隆功能，用户可通过自定义 wav 样本快速适配目标语音。多语言支持涵盖英语、法语、德语、葡萄牙语、意大利语和西班牙语，并支持无限长文本输入，适合长篇朗读或 audiobook 制作。

在部署方式上，Agora Pocket TTS 提供 Python 库、命令行界面（CLI）和 HTTP 服务，可通过 pip 或 uv 一键安装。此外，它还支持浏览器 WebAssembly 运行，用户无需安装即可在线试用。

Agora Pocket TTS 降低了 TTS 技术的使用门槛，使开发者、内容创作者和 AI 应用能够在普通 CPU 设备上实现高效、低延迟的语音合成。其轻量级设计和多平台支持，为离线场景和资源受限环境提供了可行的解决方案，有望推动 TTS 技术更广泛的应用。