!!! info "许可声明"
此代码库及其相关的模型权重均在 **FISH AUDIO RESEARCH LICENSE** 下发布。更多详情请参考 [LICENSE](https://github.com/fishaudio/fish-speech/blob/main/LICENSE)。
!!! warning "法律免责声明"
我们不对代码库的任何非法使用承担责任。请参考您当地关于 DMCA 和其他相关法律的法规。
这里是 Fish Speech 的官方文档,请按照说明轻松入门。
开源和闭源中最出色的文本转语音系统
Fish Audio S2 是由 Fish Audio 开发的最新模型,旨在生成听起来自然、真实且情感丰富的语音——不机械、不平淡,也不局限于录音室风格的朗读。
Fish Audio S2 专注于日常对话,支持原生多说话人和多轮生成。同时支持指令控制。
S2 系列包含多个模型,开源模型为 S2-Pro,是该系列中性能最强的模型。
请访问 Fish Audio 网站 以获取实时体验。
| 模型 | 大小 | 可用性 | 描述 |
|---|---|---|---|
| S2-Pro | 4B 参数 | [huggingface]() | 功能齐全的旗舰模型,具有最高质量和稳定性 |
| S2-Flash | - - - - | fish.audio | 我们的闭源模型,具有更快的速度和更低的延迟 |
有关模型的更多详情,请参见技术报告。
Fish Audio S2 允许用户使用自然语言去控制每一句内容的表现,副语言信息,情绪以及更多语音特征,而不单单局限于使用简短的标签去模糊地控制模型的表现,这极大的提高了生成内容整体的质量。
Fish Audio S2 支持高质量的多语言文本转语音,无需音素或特定语言的预处理。包括:
英语、中文、日语、韩语、阿拉伯语、德语、法语...
以及更多!
列表正在不断扩大,请查看 Fish Audio 获取最新发布。
Fish Audio S2 允许用户上传包含多个说话人的参考音频,模型将通过 <|speaker:i|> 令牌处理每个说话人的特征。之后您可以通过说话人 ID 令牌控制模型的表现,从而实现一次生成中包含多个说话人。再也不需要像以前那样针对每个说话人都单独上传参考音频与生成语音了。
得益于模型上下文的扩展,我们的模型现在可以借助上文的信息提高后续生成内容的表现力,从而提升内容的自然度。
Fish Audio S2 支持使用短参考样本(通常为 10-30 秒)进行准确的语音克隆。模型可以捕捉音色、说话风格和情感倾向,无需额外微调即可生成逼真且一致的克隆语音。
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}