PoTaTo 9735644c82 Update for OpenAudio S1 (#986) 10 месяцев назад
..
en 9735644c82 Update for OpenAudio S1 (#986) 10 месяцев назад
ja 9735644c82 Update for OpenAudio S1 (#986) 10 месяцев назад
ko 9735644c82 Update for OpenAudio S1 (#986) 10 месяцев назад
pt 9735644c82 Update for OpenAudio S1 (#986) 10 месяцев назад
stylesheets c0585bff0f Optimize docs 2 лет назад
zh 9735644c82 Update for OpenAudio S1 (#986) 10 месяцев назад
CNAME 6d57066e52 Update pre-commit hook 2 лет назад
README.ja.md 9735644c82 Update for OpenAudio S1 (#986) 10 месяцев назад
README.ko.md 9735644c82 Update for OpenAudio S1 (#986) 10 месяцев назад
README.pt-BR.md 9735644c82 Update for OpenAudio S1 (#986) 10 месяцев назад
README.zh.md 9735644c82 Update for OpenAudio S1 (#986) 10 месяцев назад
requirements.txt c0585bff0f Optimize docs 2 лет назад

README.ja.md

Fish Speech

[English](../README.md) | [简体中文](README.zh.md) | [Portuguese](README.pt-BR.md) | **日本語** | [한국어](README.ko.md)




このコードベースはApache Licenseの下でリリースされ、すべてのモデルウェイトはCC-BY-NC-SA-4.0 Licenseの下でリリースされています。詳細についてはLICENSEをご参照ください。

私たちは名前をOpenAudioに変更したことをお知らせでき、嬉しく思います。これは全く新しいText-to-Speechモデルシリーズになります。

デモはFish Audio Playgroundで利用可能です。

ブログと技術レポートについてはOpenAudioウェブサイトをご覧ください。

機能

OpenAudio-S1 (Fish-Speechの新バージョン)

  1. このモデルはfish-speechが持っていたすべての機能を持っています。

  2. OpenAudio S1は音声合成を強化するための様々な感情、トーン、特別なマーカーをサポートしています:

    (angry) (sad) (disdainful) (excited) (surprised) (satisfied) (unhappy) (anxious) (hysterical) (delighted) (scared) (worried) (indifferent) (upset) (impatient) (nervous) (guilty) (scornful) (frustrated) (depressed) (panicked) (furious) (empathetic) (embarrassed) (reluctant) (disgusted) (keen) (moved) (proud) (relaxed) (grateful) (confident) (interested) (curious) (confused) (joyful) (disapproving) (negative) (denying) (astonished) (serious) (sarcastic) (conciliative) (comforting) (sincere) (sneering) (hesitating) (yielding) (painful) (awkward) (amused)

またトーンマーカーもサポートしています:

(急いだトーン) (叫び) (絶叫) (ささやき) (柔らかいトーン)

サポートされているいくつかの特別なマーカーがあります:

(笑い) (くすくす笑い) (すすり泣き) (大声で泣く) (ため息) (あえぎ) (うめき) (群衆の笑い) (背景の笑い) (観客の笑い)

また、**ハ、ハ、ハ**を使って制御することもでき、あなた自身が探索を待っている他の多くのケースがあります。
  1. OpenAudio S1には以下のサイズが含まれています:
  2. S1 (4B, プロプライエタリ): フルサイズのモデル。
  3. S1-mini (0.5B, オープンソース): S1の蒸留版。

    S1とS1-miniの両方がオンライン人間フィードバック強化学習(RLHF)を組み込んでいます。

  4. 評価

    Seed TTS評価メトリクス(英語、自動評価、OpenAI gpt-4o-transcribeベース、Revai/pyannote-wespeaker-voxceleb-resnet34-LMを使用したスピーカー距離):

    • S1:
      • WER(単語誤り率):0.008
      • CER(文字誤り率):0.004
      • 距離:0.332
    • S1-mini:
      • WER(単語誤り率):0.011
      • CER(文字誤り率):0.005
      • 距離:0.380

免責事項

コードベースの違法な使用について、いかなる責任も負いません。DMCAおよびその他の関連法律に関する現地の法律をご参照ください。

動画

続く予定。

ドキュメント

現在のモデルはファインチューニングをサポートしていないことに注意してください。

クレジット

技術レポート (V1.4)

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}