!!! info "ライセンス通知"
このコードベースおよび関連するモデルの重みは **FISH AUDIO RESEARCH LICENSE** の下でリリースされています。詳細は [LICENSE](https://github.com/fishaudio/fish-speech/blob/main/LICENSE) を参照してください。
!!! warning "法的免責事項"
私たちは、コードベースのいかなる違法な使用に対しても責任を負いません。DMCA およびその他の関連法に関する現地の規制を参照してください。
これは Fish Speech の公式ドキュメントです。説明に従って簡単に使い始めることができます。
オープンソースおよびクローズドソースの中で最高峰のテキスト読み上げシステム
Fish Audio S2 は Fish Audio によって開発された最新のモデルで、自然でリアル、かつ感情豊かな音声を生成するように設計されています。機械的でも平坦でもなく、スタジオスタイルの朗読に限定されません。
Fish Audio S2 は日常会話に焦点を当てており、ネイティブなマルチ話者およびマルチターン生成をサポートしています。また、指示制御もサポートしています。
S2 シリーズには複数のモデルが含まれており、オープンソースモデルは S2-Pro で、シリーズの中で最も強力なモデルです。
リアルタイム体験については、Fish Audio Webサイト をご覧ください。
| モデル | サイズ | 利用可能性 | 説明 |
|---|---|---|---|
| S2-Pro | 4B パラメータ | huggingface | 最高品質と安定性を備えたフル機能のフラッグシップモデル |
| S2-Flash | - - - - | fish.audio | より高速で低遅延のクローズドソースモデル |
モデルの詳細については、技術レポートを参照してください。
Fish Audio S2 では、ユーザーが自然言語を使用して各文のパフォーマンス、副言語情報、感情、その他の音声特性を制御できます。短いタグを使用してモデルのパフォーマンスを曖昧に制御するだけでなく、生成されるコンテンツ全体の品質を大幅に向上させます。
Fish Audio S2 は、音素や特定の言語のプリプロセスを必要とせず、高品質な多言語テキスト読み上げをサポートしています。以下を含みます:
英語、中国語、日本語、韓国語、アラビア語、ドイツ語、フランス語...
さらに追加予定!
リストは常に拡大しています。最新のリリースについては Fish Audio を確認してください。
Fish Audio S2 では、ユーザーが複数の話者を含むリファレンスオーディオをアップロードでき、モデルは <|speaker:i|> トークンを通じて各話者の特徴を処理します。その後、話者 ID トークンを介してモデルのパフォーマンスを制御し、1 回の生成で複数の話者を実現できます。話者ごとに個別にリファレンスオーディオをアップロードして音声を生成する必要はもうありません。
モデルのコンテキストの拡張により、以前のコンテキストの情報を使用して、その後に生成されるコンテンツの表現力を向上させ、コンテンツの自然度を高めることができるようになりました。
Fish Audio S2 は、短いリファレンスサンプル(通常 10〜30 秒)を使用した正確な音声クローンをサポートしています。モデルは音色、話し方、感情的な傾向を捉えることができ、追加の微調整なしでリアルで一貫したクローン音声を生成できます。
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}