### Controle por Linguagem Natural
O Fish Audio S2 permite que os usuários usem linguagem natural para controlar o desempenho, informações paralinguísticas, emoções e outras características de voz de cada frase, em vez de usar apenas tags curtas para controlar vagamente o desempenho do modelo. Isso aumenta muito a qualidade geral do conteúdo gerado.
### Suporte Multilíngue
O Fish Audio S2 suporta conversão de texto em fala multilíngue de alta qualidade sem a necessidade de fonemas ou pré-processamento específico por idioma. Incluindo:
**Inglês, Chinês, Japonês, Coreano, Árabe, Alemão, Francês...**
**E muito mais!**
A lista está em constante expansão. Verifique a [Fish Audio](https://fish.audio/) para os lançamentos mais recentes.
### Geração Nativa de Múltiplos Locutores
O Fish Audio S2 permite que os usuários carreguem áudio de referência contendo múltiplos locutores, e o modelo processará as características de cada locutor por meio do token `<|speaker:i|>`. Você pode então controlar o desempenho do modelo por meio de tokens de ID de locutor, alcançando múltiplos locutores em uma única geração. Não há mais necessidade de carregar áudio de referência e gerar fala para cada locutor individualmente.
### Geração de Diálogos em Múltiplos Turnos
Graças à expansão do contexto do modelo, nosso modelo agora pode usar as informações das partes anteriores do diálogo para melhorar a expressividade do conteúdo gerado subsequentemente, aumentando assim a naturalidade do conteúdo.
### Clonagem de Voz Rápida
O Fish Audio S2 suporta clonagem de voz precisa usando amostras de referência curtas (geralmente de 10 a 30 segundos). O modelo pode capturar timbre, estilo de fala e tendência emocional, gerando vozes clonadas realistas e consistentes sem ajuste fino adicional.
---
## Agradecimentos
- [VITS2 (daniilrobnikov)](https://github.com/daniilrobnikov/vits2)
- [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2)
- [GPT VITS](https://github.com/innnky/gpt-vits)
- [MQTTS](https://github.com/b04901014/MQTTS)
- [GPT Fast](https://github.com/pytorch-labs/gpt-fast)
- [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS)
- [Qwen3](https://github.com/QwenLM/Qwen3)
## Relatório Técnico
```bibtex
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}
```