OpenAudio (旧 Fish-Speech)

先進的なText-to-Speechモデルシリーズ

今すぐ試す： Fish Audio Playground | 詳細情報： OpenAudio ウェブサイト

!!! warning "法的通知"

このコードベースの違法な使用について、当方は一切の責任を負いません。お住まいの地域のDMCA（デジタルミレニアム著作権法）およびその他の関連法規をご参照ください。

**ライセンス：** このコードベースはApache 2.0ライセンスの下でリリースされ、すべてのモデルはCC-BY-NC-SA-4.0ライセンスの下でリリースされています。

紹介

私たちは OpenAudio への改名を発表できることを嬉しく思います。Fish-Speechを基盤とし、大幅な改善と新機能を加えた、新しい先進的なText-to-Speechモデルシリーズを紹介します。

Openaudio-S1-mini: 動画; Hugging Face;

Fish-Speech v1.5: 動画; Hugging Face;

ハイライト ✨

感情制御

OpenAudio S1は多様な感情、トーン、特殊マーカーをサポートして音声合成を強化します：

基本感情：

(angry) (sad) (excited) (surprised) (satisfied) (delighted)
(scared) (worried) (upset) (nervous) (frustrated) (depressed)
(empathetic) (embarrassed) (disgusted) (moved) (proud) (relaxed)
(grateful) (confident) (interested) (curious) (confused) (joyful)

高度な感情：

(disdainful) (unhappy) (anxious) (hysterical) (indifferent) 
(impatient) (guilty) (scornful) (panicked) (furious) (reluctant)
(keen) (disapproving) (negative) (denying) (astonished) (serious)
(sarcastic) (conciliative) (comforting) (sincere) (sneering)
(hesitating) (yielding) (painful) (awkward) (amused)

トーンマーカー：

(in a hurry tone) (shouting) (screaming) (whispering) (soft tone)

特殊音響効果：

(laughing) (chuckling) (sobbing) (crying loudly) (sighing) (panting)
(groaning) (crowd laughing) (background laughter) (audience laughing)

Ha,ha,haを使用してコントロールすることもでき、他にも多くの使用法があなた自身の探索を待っています。

優秀なTTS品質

Seed TTS評価指標を使用してモデルのパフォーマンスを評価した結果、OpenAudio S1は英語テキストで0.008 WERと0.004 CERを達成し、以前のモデルより大幅に改善されました。（英語、自動評価、OpenAI gpt-4o-転写に基づく、話者距離はRevai/pyannote-wespeaker-voxceleb-resnet34-LM使用）

モデル	単語誤り率 (WER)	文字誤り率 (CER)	話者距離
S1	0.008	0.004	0.332
S1-mini	0.011	0.005	0.380

2つのモデルタイプ

モデル	サイズ	利用可能性	特徴
S1	40億パラメータ	fish.audio で利用可能	全機能搭載のフラッグシップモデル
S1-mini	5億パラメータ	huggingface hf space で利用可能	コア機能を備えた蒸留版

S1とS1-miniの両方にオンライン人間フィードバック強化学習（RLHF）が組み込まれています。

機能

ゼロショット・フューショットTTS： 10〜30秒の音声サンプルを入力するだけで高品質なTTS出力を生成します。詳細なガイドラインについては、音声クローニングのベストプラクティスをご覧ください。
多言語・言語横断サポート： 多言語テキストを入力ボックスにコピー＆ペーストするだけで、言語を気にする必要はありません。現在、英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語をサポートしています。
音素依存なし： このモデルは強力な汎化能力を持ち、TTSに音素に依存しません。あらゆる言語スクリプトのテキストを処理できます。
高精度： Seed-TTS Evalで低い文字誤り率（CER）約0.4%と単語誤り率（WER）約0.8%を達成します。
高速： fish-tech加速により、Nvidia RTX 4060ラップトップでリアルタイム係数約1:5、Nvidia RTX 4090で約1:15を実現します。
WebUI推論： Chrome、Firefox、Edge、その他のブラウザと互換性のあるGradioベースの使いやすいWebUIを備えています。
GUI推論： APIサーバーとシームレスに連携するPyQt6グラフィカルインターフェースを提供します。Linux、Windows、macOSをサポートします。GUIを見る。
デプロイフレンドリー： Linux、Windows、MacOSの native サポートで推論サーバーを簡単にセットアップし、速度低下を最小化します。

免責事項

コードベースの違法な使用について、当方は一切の責任を負いません。お住まいの地域のDMCAやその他の関連法律をご参照ください。

メディア・デモ

🚧 近日公開

動画デモとチュートリアルは現在開発中です。

ドキュメント

クイックスタート

環境構築 - 開発環境をセットアップ
推論ガイド - モデルを実行して音声を生成

コミュニティ・サポート

Discord： Discordコミュニティに参加
ウェブサイト： 最新アップデートはOpenAudio.comをご覧ください
オンライン試用： Fish Audio Playground

index.md 7.1 KB Geschiedenis Ruwe