# OpenAudio (原 Fish-Speech)

先进的文字转语音模型系列

· 立即试用： Fish Audio Playground | 了解更多： OpenAudio 网站

--- !!! note "许可证声明" 此代码库在 **Apache 许可证** 下发布，所有模型权重在 **CC-BY-NC-SA-4.0 许可证** 下发布。更多详情请参阅 [LICENSE](LICENSE)。 !!! warning "法律免责声明" 我们不对代码库的任何非法使用承担责任。请参考您所在地区有关 DMCA 和其他相关法律的规定。 ## **介绍** 我们很高兴地宣布，我们已经更名为 **OpenAudio** - 推出全新的先进文字转语音模型系列，在 Fish-Speech 的基础上进行了重大改进并增加了新功能。 **Openaudio-S1-mini**: [博客](https://openaudio.com/blogs/s1); [视频](https://www.youtube.com/watch?v=SYuPvd7m06A); [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini); **Fish-Speech v1.5**: [视频](https://www.bilibili.com/video/BV1EKiDYBE4o/); [Hugging Face](https://huggingface.co/fishaudio/fish-speech-1.5); ## **亮点** ### **优秀的 TTS 质量** 我们使用 Seed TTS 评估指标来评估模型性能，结果显示 OpenAudio S1 在英文文本上达到了 **0.008 WER** 和 **0.004 CER**，明显优于以前的模型。（英语，自动评估，基于 OpenAI gpt-4o-转录，说话人距离使用 Revai/pyannote-wespeaker-voxceleb-resnet34-LM） | 模型 | 词错误率 (WER) | 字符错误率 (CER) | 说话人距离 | |:-----:|:--------------------:|:-------------------------:|:----------------:| | **S1** | **0.008** | **0.004** | **0.332** | | **S1-mini** | **0.011** | **0.005** | **0.380** | ### **TTS-Arena2 最佳模型** OpenAudio S1 在 [TTS-Arena2](https://arena.speechcolab.org/) 上获得了 **#1 排名**，这是文字转语音评估的基准：

### **语音控制** OpenAudio S1 **支持多种情感、语调和特殊标记**来增强语音合成效果： - **基础情感**： ``` (生气) (伤心) (兴奋) (惊讶) (满意) (高兴) (害怕) (担心) (沮丧) (紧张) (失望) (沮丧) (共情) (尴尬) (厌恶) (感动) (自豪) (放松) (感激) (自信) (感兴趣) (好奇) (困惑) (快乐) ``` - **高级情感**： ``` (鄙视) (不高兴) (焦虑) (歇斯底里) (漠不关心) (不耐烦) (内疚) (轻蔑) (恐慌) (愤怒) (不情愿) (渴望) (不赞成) (否定) (否认) (惊讶) (严肃) (讽刺) (和解) (安慰) (真诚) (冷笑) (犹豫) (让步) (痛苦) (尴尬) (开心) ``` （现在支持英语、中文和日语，更多语言即将推出！） - **语调标记**： ``` (匆忙的语调) (大喊) (尖叫) (耳语) (轻声) ``` - **特殊音效**： ``` (笑) (轻笑) (抽泣) (大哭) (叹气) (喘气) (呻吟) (群体笑声) (背景笑声) (观众笑声) ``` 您还可以使用 Ha,ha,ha 来控制，还有许多其他用法等待您自己探索。 ### **两种模型类型** 我们提供两种模型变体以满足不同需求： - **OpenAudio S1 (40亿参数)**：我们功能齐全的旗舰模型，可在 [fish.audio](https://fish.audio) 上使用，提供最高质量的语音合成和所有高级功能。 - **OpenAudio S1-mini (5亿参数)**：具有核心功能的蒸馏版本，可在 [Hugging Face Space](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini) 上使用，针对更快推理进行优化，同时保持出色的质量。 S1 和 S1-mini 都集成了在线人类反馈强化学习 (RLHF)。 ## **功能特性** 1. **零样本和少样本 TTS：** 输入 10 到 30 秒的语音样本即可生成高质量的 TTS 输出。**详细指南请参见 [语音克隆最佳实践](https://docs.fish.audio/text-to-speech/voice-clone-best-practices)。** 2. **多语言和跨语言支持：** 只需复制粘贴多语言文本到输入框即可——无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。 3. **无音素依赖：** 该模型具有强大的泛化能力，不依赖音素进行 TTS。它可以处理任何语言文字的文本。 4. **高度准确：** 在 Seed-TTS Eval 中实现低字符错误率 (CER) 约 0.4% 和词错误率 (WER) 约 0.8%。 5. **快速：** 通过 torch compile 加速，在 Nvidia RTX 4090 GPU 上实时因子 (RTF) 约为 1:7。 6. **WebUI 推理：** 具有易于使用的基于 Gradio 的网络界面，兼容 Chrome、Firefox、Edge 和其他浏览器。 7. **GUI 推理：** 提供与 API 服务器无缝配合的 PyQt6 图形界面。支持 Linux、Windows 和 macOS。[查看 GUI](https://github.com/AnyaCoder/fish-speech-gui)。 8. **部署友好：** 轻松设置推理服务器，原生支持 Linux、Windows（MacOS 即将推出），最小化速度损失。 ## **媒体和演示**

社交媒体

互动演示

视频展示

## **文档** ### 快速开始 - [构建环境](install.md) - 设置您的开发环境 - [推理指南](inference.md) - 运行模型并生成语音 ## **社区和支持** - **Discord：** 加入我们的 [Discord 社区](https://discord.gg/Es5qTB9BcN) - **网站：** 访问 [OpenAudio.com](https://openaudio.com) 获取最新更新 - **在线试用：** [Fish Audio Playground](https://fish.audio)