Fish Speech

!!! info "ライセンス通知"

このコードベースおよび関連するモデルの重みは **FISH AUDIO RESEARCH LICENSE** の下でリリースされています。詳細は [LICENSE](https://github.com/fishaudio/fish-speech/blob/main/LICENSE) を参照してください。

!!! warning "法的免責事項"

私たちは、コードベースのいかなる違法な使用に対しても責任を負いません。DMCA およびその他の関連法に関する現地の規制を参照してください。

ここから始める

これは Fish Speech の公式ドキュメントです。説明に従って簡単に使い始めることができます。

Fish Audio S2

オープンソースおよびクローズドソースの中で最高峰のテキスト読み上げシステム

Fish Audio S2 は Fish Audio によって開発された最新のモデルで、自然でリアル、かつ感情豊かな音声を生成するように設計されています。機械的でも平坦でもなく、スタジオスタイルの朗読に限定されません。

Fish Audio S2 は日常会話に焦点を当てており、ネイティブなマルチ話者およびマルチターン生成をサポートしています。また、指示制御もサポートしています。

S2 シリーズには複数のモデルが含まれており、オープンソースモデルは S2-Pro で、シリーズの中で最も強力なモデルです。

リアルタイム体験については、Fish Audio Webサイトをご覧ください。

モデルバリアント

モデル	サイズ	利用可能性	説明
S2-Pro	4B パラメータ	huggingface	最高品質と安定性を備えたフル機能のフラッグシップモデル
S2-Flash	- - - -	fish.audio	より高速で低遅延のクローズドソースモデル

モデルの詳細については、技術レポートを参照してください。

ハイライト

自然言語制御

Fish Audio S2 では、ユーザーが自然言語を使用して各文のパフォーマンス、副言語情報、感情、その他の音声特性を制御できます。短いタグを使用してモデルのパフォーマンスを曖昧に制御するだけでなく、生成されるコンテンツ全体の品質を大幅に向上させます。

多言語サポート

Fish Audio S2 は、音素や特定の言語のプリプロセスを必要とせず、高品質な多言語テキスト読み上げをサポートしています。以下を含みます：

英語、中国語、日本語、韓国語、アラビア語、ドイツ語、フランス語...

さらに追加予定！

リストは常に拡大しています。最新のリリースについては Fish Audio を確認してください。

ネイティブマルチ話者生成

Fish Audio S2 では、ユーザーが複数の話者を含むリファレンスオーディオをアップロードでき、モデルは <|speaker:i|> トークンを通じて各話者の特徴を処理します。その後、話者 ID トークンを介してモデルのパフォーマンスを制御し、1 回の生成で複数の話者を実現できます。話者ごとに個別にリファレンスオーディオをアップロードして音声を生成する必要はもうありません。

マルチターン対話生成

モデルのコンテキストの拡張により、以前のコンテキストの情報を使用して、その後に生成されるコンテンツの表現力を向上させ、コンテンツの自然度を高めることができるようになりました。

高速音声クローン

Fish Audio S2 は、短いリファレンスサンプル（通常 10〜30 秒）を使用した正確な音声クローンをサポートしています。モデルは音色、話し方、感情的な傾向を捉えることができ、追加の微調整なしでリアルで一貫したクローン音声を生成できます。

謝辞

技術報告

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}

index.md 7.3 KB Cronologia Originale