!!! warning "法的通知"
このコードベースの違法な使用について、当方は一切の責任を負いません。お住まいの地域のDMCA(デジタルミレニアム著作権法)およびその他の関連法規をご参照ください。
**ライセンス:** このコードベースはApache 2.0ライセンスの下でリリースされ、すべてのモデルはCC-BY-NC-SA-4.0ライセンスの下でリリースされています。
私たちは OpenAudio への改名を発表できることを嬉しく思います。Fish-Speechを基盤とし、大幅な改善と新機能を加えた、新しい先進的なText-to-Speechモデルシリーズを紹介します。
Openaudio-S1-mini: 動画; Hugging Face;
Fish-Speech v1.5: 動画; Hugging Face;
OpenAudio S1は多様な感情、トーン、特殊マーカーをサポートして音声合成を強化します:
基本感情:
(angry) (sad) (excited) (surprised) (satisfied) (delighted)
(scared) (worried) (upset) (nervous) (frustrated) (depressed)
(empathetic) (embarrassed) (disgusted) (moved) (proud) (relaxed)
(grateful) (confident) (interested) (curious) (confused) (joyful)
高度な感情:
(disdainful) (unhappy) (anxious) (hysterical) (indifferent)
(impatient) (guilty) (scornful) (panicked) (furious) (reluctant)
(keen) (disapproving) (negative) (denying) (astonished) (serious)
(sarcastic) (conciliative) (comforting) (sincere) (sneering)
(hesitating) (yielding) (painful) (awkward) (amused)
トーンマーカー:
(in a hurry tone) (shouting) (screaming) (whispering) (soft tone)
特殊音響効果:
(laughing) (chuckling) (sobbing) (crying loudly) (sighing) (panting)
(groaning) (crowd laughing) (background laughter) (audience laughing)
Ha,ha,haを使用してコントロールすることもでき、他にも多くの使用法があなた自身の探索を待っています。
Seed TTS評価指標を使用してモデルのパフォーマンスを評価した結果、OpenAudio S1は英語テキストで0.008 WERと0.004 CERを達成し、以前のモデルより大幅に改善されました。(英語、自動評価、OpenAI gpt-4o-転写に基づく、話者距離はRevai/pyannote-wespeaker-voxceleb-resnet34-LM使用)
| モデル | 単語誤り率 (WER) | 文字誤り率 (CER) | 話者距離 |
|---|---|---|---|
| S1 | 0.008 | 0.004 | 0.332 |
| S1-mini | 0.011 | 0.005 | 0.380 |
| モデル | サイズ | 利用可能性 | 特徴 |
|---|---|---|---|
| S1 | 40億パラメータ | fish.audio で利用可能 | 全機能搭載のフラッグシップモデル |
| S1-mini | 5億パラメータ | huggingface hf space で利用可能 | コア機能を備えた蒸留版 |
S1とS1-miniの両方にオンライン人間フィードバック強化学習(RLHF)が組み込まれています。
ゼロショット・フューショットTTS: 10〜30秒の音声サンプルを入力するだけで高品質なTTS出力を生成します。詳細なガイドラインについては、音声クローニングのベストプラクティスをご覧ください。
多言語・言語横断サポート: 多言語テキストを入力ボックスにコピー&ペーストするだけで、言語を気にする必要はありません。現在、英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語をサポートしています。
音素依存なし: このモデルは強力な汎化能力を持ち、TTSに音素に依存しません。あらゆる言語スクリプトのテキストを処理できます。
高精度: Seed-TTS Evalで低い文字誤り率(CER)約0.4%と単語誤り率(WER)約0.8%を達成します。
高速: fish-tech加速により、Nvidia RTX 4060ラップトップでリアルタイム係数約1:5、Nvidia RTX 4090で約1:15を実現します。
WebUI推論: Chrome、Firefox、Edge、その他のブラウザと互換性のあるGradioベースの使いやすいWebUIを備えています。
GUI推論: APIサーバーとシームレスに連携するPyQt6グラフィカルインターフェースを提供します。Linux、Windows、macOSをサポートします。GUIを見る。
デプロイフレンドリー: Linux、Windows、MacOSの native サポートで推論サーバーを簡単にセットアップし、速度低下を最小化します。
コードベースの違法な使用について、当方は一切の責任を負いません。お住まいの地域のDMCAやその他の関連法律をご参照ください。
動画デモとチュートリアルは現在開発中です。