[!IMPORTANT] ライセンス注意事項 このコードベースおよび関連するモデルウェイトは FISH AUDIO RESEARCH LICENSE の下でリリースされています。詳細については LICENSE をご参照ください。
[!WARNING] 法的免責事項 私たちはコードベースの不法な使用について一切の責任を負いません。DMCA 及びその他の関連法律について、現地の法律をご参照ください。
Fish Audio S2 の公式ドキュメントです。以下からすぐに始められます。
[!IMPORTANT] SGLang サーバーについては SGLang-Omni README を参照してください。
https://speech.fish.audio/ja/install/ の手順に従って、Fish Audio S2 をインストール・設定してください。
業界最先端の多言語テキスト読み上げ (TTS) システム。音声生成の限界を再定義します。
Fish Audio S2 Pro は Fish Audio が開発した最高峰のマルチモーダルモデルです。世界 80 言語以上、1,000 万時間 を超える膨大な音声データで学習されています。革新的な 二重自己回帰 (Dual-AR) アーキテクチャと強化学習 (RL) アライメント技術を組み合わせることで、極めて自然でリアル、かつ感情豊かな音声を生成し、オープンソースおよびクローズドソースの双方でリーダーシップを発揮しています。
S2 Pro の最大の特徴は、自然言語タグ(例:[whisper]、[excited]、[angry])による韻律や感情の サブワードレベル (Sub-word Level) での極めて細やかなインライン制御が可能である点です。また、マルチスピーカー生成や長文コンテキストのマルチターン対話生成にもネイティブ対応しています。
今すぐ Fish Audio 公式サイト でプレイグラウンドを体験するか、技術レポート や ブログ記事 を読んで詳細を確認してください。
| モデル | サイズ | 利用可能性 | 説明 |
|---|---|---|---|
| S2-Pro | 4B パラメータ | HuggingFace | 品質と安定性を最大化した、フル機能のフラッグシップモデル |
モデルの詳細は技術レポートをご参照ください。
| ベンチマーク | Fish Audio S2 |
|---|---|
| Seed-TTS Eval — WER(中国語) | 0.54%(全体最良) |
| Seed-TTS Eval — WER(英語) | 0.99%(全体最良) |
| Audio Turing Test(指示あり) | 0.515 事後平均値 |
| EmergentTTS-Eval — 勝率 | 81.88%(全体最高) |
| Fish Instruction Benchmark — TAR | 93.3% |
| Fish Instruction Benchmark — 品質 | 4.51 / 5.0 |
| 多言語(MiniMax Testset)— 最良 WER | 24 言語中 11 言語 |
| 多言語(MiniMax Testset)— 最良 SIM | 24 言語中 17 言語 |
Seed-TTS Eval では、S2 はクローズドソースを含む全評価モデルの中で最小 WER を達成しました:Qwen3-TTS(0.77/1.24)、MiniMax Speech-02(0.99/1.90)、Seed-TTS(1.12/2.25)。Audio Turing Test では 0.515 を記録し、Seed-TTS(0.417)比で 24%、MiniMax-Speech(0.387)比で 33% 上回りました。EmergentTTS-Eval では、副言語情報(91.61%)、疑問文(84.41%)、統語的複雑性(83.39%)で特に高い成績を示しています。
S2 Pro は音声にこれまでにない「魂」を宿らせます。シンプルな [tag] 構文を使用して、テキスト内の任意の場所に感情の指示を正確に埋め込むことができます。
[whisper in small voice] (ささやき声で), [professional broadcast tone] (プロのナレーション風), [pitch up] (ピッチを上げる) などを試してみてください。[pause] [emphasis] [laughing] [inhale] [chuckle] [tsk] [singing] [excited] [laughing tone] [interrupting] [chuckling] [excited tone] [volume up] [echo] [angry] [low volume] [sigh] [low voice] [whisper] [screaming] [shouting] [loud] [surprised] [short pause] [exhale] [delight] [panting] [audience laughter] [with strong accent] [volume down] [clearing throat] [sad] [moaning] [shocked]S2 Pro は、Decoder-only Transformer と RVQ オーディオコーデック(10 コードブック、約 21 Hz)で構成されるマスター・スレーブ型の Dual-AR アーキテクチャを採用しています:
この非対称設計により、究極のオーディオ忠実度を維持しながら、推論速度を大幅に向上させています。
S2 Pro は、事後学習アライメントに Group Relative Policy Optimization (GRPO) 技術を採用しています。データのクリーニングとアノテーションに使用したモデルセットをそのまま報酬モデル (Reward Model) として使用することで、事前学習データの分布と事後学習の目標との間のミスマッチを完璧に解決しました。
Dual-AR アーキテクチャは標準的な LLM 構造と同型であるため、S2 Pro は SGLang のすべての推論加速機能をネイティブにサポートしています。これには、Continuous Batching、Paged KV Cache、CUDA Graph、RadixAttention ベースの Prefix Caching が含まれます。
NVIDIA H200 GPU 1枚でのパフォーマンス表現:
S2 Pro は 80 以上の言語をサポートしており、音素や特定の言語に対する前処理なしで高品質な合成を実現します:
Fish Audio S2 では、複数のスピーカーを含む参照オーディオをアップロードでき、モデルは <|speaker:i|> トークンを介して各スピーカーの特徴を処理します。スピーカー ID トークンを使用してモデルの出力を制御することで、1回の生成に複数のスピーカーを混在させることが可能です。個別のスピーカーごとに参照オーディオをアップロードし直す手間はもう不要です。
コンテキストの拡張により、以前のターンの情報を利用して後続の生成内容の表現力を高めることができ、対話としての自然さが大幅に向上しました。
Fish Audio S2 は、短い参照サンプル(通常 10〜30 秒)を使用した正確な音声クローニングをサポートしています。モデルは音色、話し方、感情を捉え、追加の微調整なしでリアルで一貫したクローン音声を生成します。 SGLang サーバーの利用については、SGLang-Omni README を参照してください。
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}
@misc{liao2026fishaudios2technical,
title={Fish Audio S2 Technical Report},
author={Shijia Liao and Yuxuan Wang and Songting Liu and Yifan Cheng and Ruoyi Zhang and Tianyu Li and Shidong Li and Yisheng Zheng and Xingwei Liu and Qingzheng Wang and Zhizhuo Zhou and Jiahua Liu and Xin Chen and Dawei Han},
year={2026},
eprint={2603.08823},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2603.08823},
}