### 자연어 제어
Fish Audio S2를 사용하면 사용자가 자연어를 사용하여 각 문장의 퍼포먼스, 부언어 정보, 감정 및 기타 음성 특성을 제어할 수 있습니다. 짧은 태그를 사용하여 모델의 퍼포먼스를 모호하게 제어하는 것뿐만 아니라 생성된 콘텐츠 전체의 품질을 크게 향상시킵니다.
### 다국어 지원
Fish Audio S2는 음소나 특정 언어의 전처리 없이도 고품질의 다국어 텍스트 음성 변환을 지원합니다. 다음을 포함합니다:
**영어, 중국어, 일본어, 한국어, 아랍어, 독일어, 프랑스어...**
**그리고 더욱 추가될 예정입니다!**
목록은 지속적으로 확대되고 있으며, 최신 릴리스는 [Fish Audio](https://fish.audio/)를 확인하십시오.
### 네이티브 다중 화자 생성
Fish Audio S2를 사용하면 사용자가 여러 화자가 포함된 참조 오디오를 업로드할 수 있으며, 모델은 `<|speaker:i|>` 토큰을 통해 각 화자의 특성을 처리합니다. 이후 화자 ID 토큰을 통해 모델의 퍼포먼스를 제어하여 한 번의 생성으로 여러 화자를 구현할 수 있습니다. 화자마다 개별적으로 참조 오디오를 업로드하고 음성을 생성할 필요가 더 이상 없습니다.
### 다중 턴 대화 생성
모델 컨텍스트의 확장 덕분에, 이전 컨텍스트의 정보를 사용하여 이후에 생성되는 콘텐츠의 표현력을 개선하고 콘텐츠의 자연스러움을 높일 수 있게 되었습니다.
### 빠른 음성 클로닝
Fish Audio S2는 짧은 참조 샘플(보통 10~30초)을 사용한 정확한 음성 클로닝을 지원합니다. 모델은 음색, 말하기 스타일 및 감정적 경향을 포착할 수 있으며, 추가 미세 조정 없이도 사실적이고 일관된 클로닝 음성을 생성할 수 있습니다.
---
## 감사의 인사
- [VITS2 (daniilrobnikov)](https://github.com/daniilrobnikov/vits2)
- [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2)
- [GPT VITS](https://github.com/innnky/gpt-vits)
- [MQTTS](https://github.com/b04901014/MQTTS)
- [GPT Fast](https://github.com/pytorch-labs/gpt-fast)
- [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS)
- [Qwen3](https://github.com/QwenLM/Qwen3)
## 기술 보고서
```bibtex
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}
```