Fish Speech

[English](../README.md) | [简体中文](README.zh.md) | [Portuguese](README.pt-BR.md) | **日本語** | [한국어](README.ko.md)
Fish Speech 1.4 - Open-Source Multilingual Text-to-Speech with Voice Cloning | Product Hunt fishaudio%2Ffish-speech | Trendshift



Discord Docker Huggingface QQ Channel
このコードベースはApache Licenseの下でリリースされ、すべてのモデルウェイトはCC-BY-NC-SA-4.0 Licenseの下でリリースされています。詳細については[LICENSE](../LICENSE)をご参照ください。 私たちは名前をOpenAudioに変更したことをお知らせでき、嬉しく思います。これは全く新しいText-to-Speechモデルシリーズになります。 デモは[Fish Audio Playground](https://fish.audio)で利用可能です。 ブログと技術レポートについては[OpenAudioウェブサイト](https://openaudio.com)をご覧ください。 ## 機能 ### OpenAudio-S1 (Fish-Speechの新バージョン) 1. このモデルはfish-speechが持っていた**すべての機能**を持っています。 2. OpenAudio S1は音声合成を強化するための様々な感情、トーン、特別なマーカーをサポートしています: (angry) (sad) (disdainful) (excited) (surprised) (satisfied) (unhappy) (anxious) (hysterical) (delighted) (scared) (worried) (indifferent) (upset) (impatient) (nervous) (guilty) (scornful) (frustrated) (depressed) (panicked) (furious) (empathetic) (embarrassed) (reluctant) (disgusted) (keen) (moved) (proud) (relaxed) (grateful) (confident) (interested) (curious) (confused) (joyful) (disapproving) (negative) (denying) (astonished) (serious) (sarcastic) (conciliative) (comforting) (sincere) (sneering) (hesitating) (yielding) (painful) (awkward) (amused) またトーンマーカーもサポートしています: (急いだトーン) (叫び) (絶叫) (ささやき) (柔らかいトーン) サポートされているいくつかの特別なマーカーがあります: (笑い) (くすくす笑い) (すすり泣き) (大声で泣く) (ため息) (あえぎ) (うめき) (群衆の笑い) (背景の笑い) (観客の笑い) また、**ハ、ハ、ハ**を使って制御することもでき、あなた自身が探索を待っている他の多くのケースがあります。 3. OpenAudio S1には以下のサイズが含まれています: - **S1 (4B, プロプライエタリ):** フルサイズのモデル。 - **S1-mini (0.5B, オープンソース):** S1の蒸留版。 S1とS1-miniの両方がオンライン人間フィードバック強化学習(RLHF)を組み込んでいます。 4. 評価 **Seed TTS評価メトリクス(英語、自動評価、OpenAI gpt-4o-transcribeベース、Revai/pyannote-wespeaker-voxceleb-resnet34-LMを使用したスピーカー距離):** - **S1:** - WER(単語誤り率):**0.008** - CER(文字誤り率):**0.004** - 距離:**0.332** - **S1-mini:** - WER(単語誤り率):**0.011** - CER(文字誤り率):**0.005** - 距離:**0.380** ## 免責事項 コードベースの違法な使用について、いかなる責任も負いません。DMCAおよびその他の関連法律に関する現地の法律をご参照ください。 ## 動画 #### 続く予定。 ## ドキュメント - [環境構築](en/install.md) - [推論](en/inference.md) 現在のモデルは**ファインチューニングをサポートしていない**ことに注意してください。 ## クレジット - [VITS2 (daniilrobnikov)](https://github.com/daniilrobnikov/vits2) - [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2) - [GPT VITS](https://github.com/innnky/gpt-vits) - [MQTTS](https://github.com/b04901014/MQTTS) - [GPT Fast](https://github.com/pytorch-labs/gpt-fast) - [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) ## 技術レポート (V1.4) ```bibtex @misc{fish-speech-v1.4, title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis}, author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing}, year={2024}, eprint={2411.01156}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2411.01156}, } ```