README.ko.md 5.6 KB

Fish Speech

[English](../README.md) | [简体中文](README.zh.md) | [Portuguese](README.pt-BR.md) | [日本語](README.ja.md) | **한국어**




이 코드베이스는 Apache License 하에 릴리스되며, 모든 모델 가중치는 CC-BY-NC-SA-4.0 License 하에 릴리스됩니다. 자세한 내용은 LICENSE를 참조하세요.

저희는 이름을 OpenAudio로 변경했다고 발표하게 되어 기쁩니다. 이는 완전히 새로운 Text-to-Speech 모델 시리즈가 될 것입니다.

데모는 Fish Audio Playground에서 사용할 수 있습니다.

블로그와 기술 보고서는 OpenAudio 웹사이트를 방문하세요.

기능

OpenAudio-S1 (Fish-Speech의 새 버전)

  1. 이 모델은 fish-speech가 가지고 있던 모든 기능을 가지고 있습니다.

  2. OpenAudio S1은 음성 합성을 향상시키기 위한 다양한 감정, 톤, 특별한 마커를 지원합니다:

    (angry) (sad) (disdainful) (excited) (surprised) (satisfied) (unhappy) (anxious) (hysterical) (delighted) (scared) (worried) (indifferent) (upset) (impatient) (nervous) (guilty) (scornful) (frustrated) (depressed) (panicked) (furious) (empathetic) (embarrassed) (reluctant) (disgusted) (keen) (moved) (proud) (relaxed) (grateful) (confident) (interested) (curious) (confused) (joyful) (disapproving) (negative) (denying) (astonished) (serious) (sarcastic) (conciliative) (comforting) (sincere) (sneering) (hesitating) (yielding) (painful) (awkward) (amused)

또한 톤 마커도 지원합니다:

(급한 톤) (외치기) (비명지르기) (속삭이기) (부드러운 톤)

지원되는 몇 가지 특별한 마커가 있습니다:

(웃음) (킥킥거림) (흐느낌) (큰 소리로 우는 것) (한숨) (헐떡거림) (신음) (군중 웃음) (배경 웃음) (관객 웃음)

또한 **하, 하, 하**를 사용하여 제어할 수도 있으며, 여러분이 직접 탐험할 수 있는 많은 다른 경우들이 있습니다.
  1. OpenAudio S1은 다음 크기를 포함합니다:
  2. S1 (4B, 독점): 전체 크기 모델.
  3. S1-mini (0.5B, 오픈소스): S1의 증류 버전.

    S1과 S1-mini 모두 온라인 인간 피드백 강화학습(RLHF)을 통합하고 있습니다.

  4. 평가

    Seed TTS 평가 메트릭 (영어, 자동 평가, OpenAI gpt-4o-transcribe 기반, Revai/pyannote-wespeaker-voxceleb-resnet34-LM을 사용한 화자 거리):

    • S1:
      • WER (단어 오류율): 0.008
      • CER (문자 오류율): 0.004
      • 거리: 0.332
    • S1-mini:
      • WER (단어 오류율): 0.011
      • CER (문자 오류율): 0.005
      • 거리: 0.380

면책 조항

저희는 코드베이스의 불법적인 사용에 대해 어떠한 책임도 지지 않습니다. DMCA 및 기타 관련 법률에 대한 현지 법률을 참조하세요.

비디오

계속될 예정입니다.

문서

현재 모델은 파인튜닝을 지원하지 않는다는 점에 유의해야 합니다.

크레딧

기술 보고서 (V1.4)

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}