Fish Speech

[English](../README.md) | [简体中文](README.zh.md) | [Portuguese](README.pt-BR.md) | **日本語** | [한국어](README.ko.md) | [العربية](README.ar.md)
Fish Audio S1 - Expressive Voice Cloning and Text-to-Speech | Product Hunt fishaudio%2Ffish-speech | Trendshift



Discord Docker QQ Channel
TTS-Arena2 Score HuggingFace Model
> [!IMPORTANT] > **ライセンス注意事項** > このコードベースおよび関連するモデルウェイトは **[FISH AUDIO RESEARCH LICENSE](../LICENSE)** の下でリリースされています。詳細については [LICENSE](../LICENSE) をご参照ください。 > [!WARNING] > **法的免責事項** > 私たちはコードベースの不法な使用について一切の責任を負いません。DMCA 及びその他の関連法律について、現地の法律をご参照ください。 ## ここから始める こちらは Fish Speech の公式ドキュメントです。手順に従って簡単に始めることができます。 - [インストール](https://speech.fish.audio/ja/install/) - [推論](https://speech.fish.audio/ja/inference/) ## Fish Audio S2 **オープンソースおよびクローズドソースの中で最も優れたテキスト読み上げシステム** Fish Audio S2 は、[Fish Audio](https://fish.audio/) によって開発された最新のモデルで、自然でリアル、かつ感情豊かな音声を生成するように設計されています。ロボット的ではなく、平坦でもなく、スタジオスタイルのナレーションに限定されません。 Fish Audio S2 は日常の会話に焦点を当てており、ネイティブなマルチスピーカーおよびマルチターンの生成をサポートしています。また、命令制御もサポートしています。 S2 シリーズには複数のモデルが含まれており、オープンソースモデルは S2-Pro で、このシリーズの中で最もパフォーマンスの高いモデルです。 リアルタイムのエクスペリエンスについては、[Fish Audio Webサイト](https://fish.audio/) にアクセスしてください。 ### モデルバリアント | モデル | サイズ | 利用可能性 | 説明 | |------|------|-------------|-------------| | S2-Pro | 4B パラメータ | [huggingface](https://huggingface.co/fishaudio/s2-pro) | 最高の品質と安定性を備えた、フル機能のフラッグシップモデル | | S2-Flash | - - - - | [fish.audio](https://fish.audio/) | より高速で低遅延なクローズドソースモデル | モデルの詳細については、技術レポートを参照してください。 ## ハイライト ### 自然言語による細粒度インライン制御 Fish Audio S2 では、テキスト内の特定の単語やフレーズ位置に自然言語の指示を直接埋め込むことで、音声生成を局所的に制御できます。固定の事前定義タグに依存するのではなく、S2 は [whisper in small voice]、[professional broadcast tone]、[pitch up] のような自由形式のテキスト記述を受け付け、単語レベルで表現をオープンエンドに制御できます。 ### 多言語サポート Fish Audio S2 は、音素や言語固有の前処理を必要とせずに、高品質な多言語テキスト読み上げをサポートします。以下を含みます: **英語、中国語、日本語、韓国語、アラビア語、ドイツ語、フランス語...** **さらに多く!** リストは常に拡大しています。最新のリリースについては [Fish Audio](https://fish.audio/) を確認してください。 ### ネイティブなマルチスピーカー生成 Fish Audio S2 では、ユーザーが複数のスピーカーを含む参照オーディオをアップロードでき、モデルは `<|speaker:i|>` トークンを介して各スピーカーの特徴を処理します。その後、スピーカーIDトークンを使用してモデルのパフォーマンスを制御し、1回の生成で複数のスピーカーを含めることができます。以前のように各スピーカーに対して個別に参照オーディオをアップロードして音声を生成する必要はもうありません。 ### マルチターン対話生成 モデルのコンテキストの拡張により、以前の情報を使用して後続の生成されたコンテンツの表現力を向上させ、コンテンツの自然さを高めることができるようになりました。 ### 高速音声クローニング Fish Audio S2 は、短い参照サンプル(通常10〜30秒)を使用した正確な音声クローニングをサポートしています。モデルは音色、話し方、感情的な傾向を捉え、追加の微調整なしでリアルで一貫したクローン音声を生成します。 --- ## クレジット - [VITS2 (daniilrobnikov)](https://github.com/daniilrobnikov/vits2) - [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2) - [GPT VITS](https://github.com/innnky/gpt-vits) - [MQTTS](https://github.com/b04901014/MQTTS) - [GPT Fast](https://github.com/pytorch-labs/gpt-fast) - [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) - [Qwen3](https://github.com/QwenLM/Qwen3) ## 技術レポート ```bibtex @misc{fish-speech-v1.4, title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis}, author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing}, year={2024}, eprint={2411.01156}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2411.01156}, } ```