Fish Speech

[!IMPORTANT] ライセンス注意事項 このコードベースおよび関連するモデルウェイトは FISH AUDIO RESEARCH LICENSE の下でリリースされています。詳細については LICENSE をご参照ください。

[!WARNING] 法的免責事項 私たちはコードベースの不法な使用について一切の責任を負いません。DMCA 及びその他の関連法律について、現地の法律をご参照ください。

クイックスタート

ドキュメント入口

Fish Audio S2 の公式ドキュメントです。以下からすぐに始められます。

[!IMPORTANT] SGLang サーバーについては SGLang-Omni README を参照してください。

LLM Agent 指南

https://speech.fish.audio/ja/install/ の手順に従って、Fish Audio S2 をインストール・設定してください。

Fish Audio S2 Pro

業界最先端の多言語テキスト読み上げ (TTS) システム。音声生成の限界を再定義します。

Fish Audio S2 Pro は Fish Audio が開発した最高峰のマルチモーダルモデルです。世界 80 言語以上、1,000 万時間 を超える膨大な音声データで学習されています。革新的な 二重自己回帰 (Dual-AR) アーキテクチャと強化学習 (RL) アライメント技術を組み合わせることで、極めて自然でリアル、かつ感情豊かな音声を生成し、オープンソースおよびクローズドソースの双方でリーダーシップを発揮しています。

S2 Pro の最大の特徴は、自然言語タグ（例：[whisper]、[excited]、[angry]）による韻律や感情の サブワードレベル (Sub-word Level) での極めて細やかなインライン制御が可能である点です。また、マルチスピーカー生成や長文コンテキストのマルチターン対話生成にもネイティブ対応しています。

今すぐ Fish Audio 公式サイトでプレイグラウンドを体験するか、技術レポートやブログ記事を読んで詳細を確認してください。

モデルバリアント

モデル	サイズ	利用可能性	説明
S2-Pro	4B パラメータ	HuggingFace	品質と安定性を最大化した、フル機能のフラッグシップモデル

モデルの詳細は技術レポートをご参照ください。

ベンチマーク結果

ベンチマーク	Fish Audio S2
Seed-TTS Eval — WER（中国語）	0.54%（全体最良）
Seed-TTS Eval — WER（英語）	0.99%（全体最良）
Audio Turing Test（指示あり）	0.515 事後平均値
EmergentTTS-Eval — 勝率	81.88%（全体最高）
Fish Instruction Benchmark — TAR	93.3%
Fish Instruction Benchmark — 品質	4.51 / 5.0
多言語（MiniMax Testset）— 最良 WER	24 言語中 11 言語
多言語（MiniMax Testset）— 最良 SIM	24 言語中 17 言語

Seed-TTS Eval では、S2 はクローズドソースを含む全評価モデルの中で最小 WER を達成しました：Qwen3-TTS（0.77/1.24）、MiniMax Speech-02（0.99/1.90）、Seed-TTS（1.12/2.25）。Audio Turing Test では 0.515 を記録し、Seed-TTS（0.417）比で 24%、MiniMax-Speech（0.387）比で 33% 上回りました。EmergentTTS-Eval では、副言語情報（91.61%）、疑問文（84.41%）、統語的複雑性（83.39%）で特に高い成績を示しています。

ハイライト

自然言語による細粒度インライン制御

S2 Pro は音声にこれまでにない「魂」を宿らせます。シンプルな [tag] 構文を使用して、テキスト内の任意の場所に感情の指示を正確に埋め込むことができます。

1万5,000以上のユニークタグに対応：固定のプリセットに限定されず、自由形式のテキスト記述 をサポートします。[whisper in small voice] (ささやき声で), [professional broadcast tone] (プロのナレーション風), [pitch up] (ピッチを上げる) などを試してみてください。
豊富な感情ライブラリ: [pause] [emphasis] [laughing] [inhale] [chuckle] [tsk] [singing] [excited] [laughing tone] [interrupting] [chuckling] [excited tone] [volume up] [echo] [angry] [low volume] [sigh] [low voice] [whisper] [screaming] [shouting] [loud] [surprised] [short pause] [exhale] [delight] [panting] [audience laughter] [with strong accent] [volume down] [clearing throat] [sad] [moaning] [shocked]

革新的な二重自己回帰 (Dual-Autoregressive) アーキテクチャ

S2 Pro は、Decoder-only Transformer と RVQ オーディオコーデック（10 コードブック、約 21 Hz）で構成されるマスター・スレーブ型の Dual-AR アーキテクチャを採用しています：

Slow AR (4B パラメータ): 時間軸方向に動作し、核となるセマンティックコードブックを予測。
Fast AR (400M パラメータ): 各時間ステップで残り 9 個の残差コードブックを生成し、極めて繊細な音響ディテールを復元。

この非対称設計により、究極のオーディオ忠実度を維持しながら、推論速度を大幅に向上させています。

強化学習 (RL) アライメント

S2 Pro は、事後学習アライメントに Group Relative Policy Optimization (GRPO) 技術を採用しています。データのクリーニングとアノテーションに使用したモデルセットをそのまま報酬モデル (Reward Model) として使用することで、事前学習データの分布と事後学習の目標との間のミスマッチを完璧に解決しました。

多次元の報酬信号: 意味の正確性、指示追従性、音響的な好み、音色の類似性を総合的に評価し、生成される一秒一秒の音声が人間の直感に沿うようにしています。

SGLang による究極のストリーミング推論性能

Dual-AR アーキテクチャは標準的な LLM 構造と同型であるため、S2 Pro は SGLang のすべての推論加速機能をネイティブにサポートしています。これには、Continuous Batching、Paged KV Cache、CUDA Graph、RadixAttention ベースの Prefix Caching が含まれます。

NVIDIA H200 GPU 1枚でのパフォーマンス表現:

リアルタイム係数 (RTF): 0.195
初回音声出力までの時間 (TTFA): 約 100 ms
極速スループット: RTF < 0.5 を維持しつつ 3,000+ acoustic tokens/s

強力な多言語サポート

S2 Pro は 80 以上の言語をサポートしており、音素や特定の言語に対する前処理なしで高品質な合成を実現します：

第1層 (Tier 1): 日本語 (ja), 英語 (en), 中国語 (zh)
第2層 (Tier 2): 韓国語 (ko), スペイン語 (es), ポルトガル語 (pt), アラビア語 (ar), ロシア語 (ru), フランス語 (fr), ドイツ語 (de)
グローバルカバレッジ: sv, it, tr, no, nl, cy, eu, ca, da, gl, ta, hu, fi, pl, e!t, hi, la, ur, th, vi, jw, bn, yo, xsl, cs, sw, nn, he, ms, uk, id, kk, bg, lv, my, tl, sk, ne, fa, af, el, bo, hr, ro, sn, mi, yi, am, be, km, is, az, sd, br, sq, ps, mn, ht, ml, sr, sa, te, ka, bs, pa, lt, kn, si, hy, mr, as, gu, fo など。

ネイティブなマルチスピーカー生成

Fish Audio S2 では、複数のスピーカーを含む参照オーディオをアップロードでき、モデルは <|speaker:i|> トークンを介して各スピーカーの特徴を処理します。スピーカー ID トークンを使用してモデルの出力を制御することで、1回の生成に複数のスピーカーを混在させることが可能です。個別のスピーカーごとに参照オーディオをアップロードし直す手間はもう不要です。

マルチターン対話生成

コンテキストの拡張により、以前のターンの情報を利用して後続の生成内容の表現力を高めることができ、対話としての自然さが大幅に向上しました。

高速音声クローニング

Fish Audio S2 は、短い参照サンプル（通常 10〜30 秒）を使用した正確な音声クローニングをサポートしています。モデルは音色、話し方、感情を捉え、追加の微調整なしでリアルで一貫したクローン音声を生成します。 SGLang サーバーの利用については、SGLang-Omni README を参照してください。

謝辞

技術レポート

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}

@misc{liao2026fishaudios2technical,
      title={Fish Audio S2 Technical Report}, 
      author={Shijia Liao and Yuxuan Wang and Songting Liu and Yifan Cheng and Ruoyi Zhang and Tianyu Li and Shidong Li and Yisheng Zheng and Xingwei Liu and Qingzheng Wang and Zhizhuo Zhou and Jiahua Liu and Xin Chen and Dawei Han},
      year={2026},
      eprint={2603.08823},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2603.08823}, 
}

README.ja.md 13 KB Историја Датотека