Fish Speech
[English](README.md) | [简体中文](README.zh.md) | [Portuguese](README.pt-BR.md) | **日本語**
このコードベースとすべてのモデルは、CC-BY-NC-SA-4.0ライセンスの下でリリースされています。詳細については、LICENSEを参照してください。
機能
- ゼロショット & フューショット TTS:10〜30秒の音声サンプルを入力して、高品質のTTS出力を生成します。詳細は 音声クローンのベストプラクティス を参照してください。
- 多言語 & クロスリンガル対応:多言語テキストを入力ボックスにコピーペーストするだけで、言語を気にする必要はありません。現在、英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語に対応しています。
- 音素依存なし:このモデルは強力な汎化能力を持ち、TTSに音素を必要としません。あらゆる言語スクリプトに対応可能です。
- 高精度:5分間の英語テキストに対し、CER(文字誤り率)とWER(単語誤り率)は約2%の精度を達成します。
- 高速:fish-techアクセラレーションにより、Nvidia RTX 4060ラップトップではリアルタイムファクターが約1:5、Nvidia RTX 4090では約1:15です。
- WebUI 推論:使いやすいGradioベースのWebユーザーインターフェースを搭載し、Chrome、Firefox、Edgeなどのブラウザに対応しています。
- GUI 推論:PyQt6のグラフィカルインターフェースを提供し、APIサーバーとシームレスに連携します。Linux、Windows、macOSに対応しています。GUIを見る。
- デプロイしやすい:Linux、Windows、macOSにネイティブ対応した推論サーバーを簡単にセットアップでき、速度の低下を最小限に抑えます。
免責事項
コードベースの違法な使用については一切責任を負いません。DMCA(デジタルミレニアム著作権法)およびその他の関連法については、地域の法律を参照してください。
オンラインデモ
Fish Audio
ローカル推論のクイックスタート
inference.ipynb
ビデオ
ドキュメント
サンプル (2024/10/02 V1.4)
クレジット
スポンサー