PoTaTo 9735644c82 Update for OpenAudio S1 (#986)		před 11 měsíci
..
en	9735644c82 Update for OpenAudio S1 (#986)	před 11 měsíci
ja	9735644c82 Update for OpenAudio S1 (#986)	před 11 měsíci
ko	9735644c82 Update for OpenAudio S1 (#986)	před 11 měsíci
pt	9735644c82 Update for OpenAudio S1 (#986)	před 11 měsíci
stylesheets	c0585bff0f Optimize docs	před 2 roky
zh	9735644c82 Update for OpenAudio S1 (#986)	před 11 měsíci
CNAME	6d57066e52 Update pre-commit hook	před 2 roky
README.ja.md	9735644c82 Update for OpenAudio S1 (#986)	před 11 měsíci
README.ko.md	9735644c82 Update for OpenAudio S1 (#986)	před 11 měsíci
README.pt-BR.md	9735644c82 Update for OpenAudio S1 (#986)	před 11 měsíci
README.zh.md	9735644c82 Update for OpenAudio S1 (#986)	před 11 měsíci
requirements.txt	c0585bff0f Optimize docs	před 2 roky

Fish Speech

[English](../README.md) | [简体中文](README.zh.md) | [Portuguese](README.pt-BR.md) | **日本語** | [한국어](README.ko.md)

このコードベースはApache Licenseの下でリリースされ、すべてのモデルウェイトはCC-BY-NC-SA-4.0 Licenseの下でリリースされています。詳細についてはLICENSEをご参照ください。

私たちは名前をOpenAudioに変更したことをお知らせでき、嬉しく思います。これは全く新しいText-to-Speechモデルシリーズになります。

デモはFish Audio Playgroundで利用可能です。

ブログと技術レポートについてはOpenAudioウェブサイトをご覧ください。

機能

OpenAudio-S1 (Fish-Speechの新バージョン)

このモデルはfish-speechが持っていたすべての機能を持っています。
OpenAudio S1は音声合成を強化するための様々な感情、トーン、特別なマーカーをサポートしています：

(angry) (sad) (disdainful) (excited) (surprised) (satisfied) (unhappy) (anxious) (hysterical) (delighted) (scared) (worried) (indifferent) (upset) (impatient) (nervous) (guilty) (scornful) (frustrated) (depressed) (panicked) (furious) (empathetic) (embarrassed) (reluctant) (disgusted) (keen) (moved) (proud) (relaxed) (grateful) (confident) (interested) (curious) (confused) (joyful) (disapproving) (negative) (denying) (astonished) (serious) (sarcastic) (conciliative) (comforting) (sincere) (sneering) (hesitating) (yielding) (painful) (awkward) (amused)

またトーンマーカーもサポートしています：

(急いだトーン) (叫び) (絶叫) (ささやき) (柔らかいトーン)

サポートされているいくつかの特別なマーカーがあります：

(笑い) (くすくす笑い) (すすり泣き) (大声で泣く) (ため息) (あえぎ) (うめき) (群衆の笑い) (背景の笑い) (観客の笑い)

また、**ハ、ハ、ハ**を使って制御することもでき、あなた自身が探索を待っている他の多くのケースがあります。

OpenAudio S1には以下のサイズが含まれています：
S1 (4B, プロプライエタリ): フルサイズのモデル。
S1-mini (0.5B, オープンソース): S1の蒸留版。

S1とS1-miniの両方がオンライン人間フィードバック強化学習（RLHF）を組み込んでいます。
評価

Seed TTS評価メトリクス（英語、自動評価、OpenAI gpt-4o-transcribeベース、Revai/pyannote-wespeaker-voxceleb-resnet34-LMを使用したスピーカー距離）：
- S1:
  - WER（単語誤り率）：0.008
  - CER（文字誤り率）：0.004
  - 距離：0.332
- S1-mini:
  - WER（単語誤り率）：0.011
  - CER（文字誤り率）：0.005
  - 距離：0.380

免責事項

コードベースの違法な使用について、いかなる責任も負いません。DMCAおよびその他の関連法律に関する現地の法律をご参照ください。

動画

続く予定。

ドキュメント

現在のモデルはファインチューニングをサポートしていないことに注意してください。

クレジット

技術レポート (V1.4)

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}

README.ja.md