[!IMPORTANT] Aviso de Licença Esta base de código é lançada sob a Licença Apache e todos os pesos dos modelos são lançados sob a Licença CC-BY-NC-SA-4.0. Consulte LICENSE para mais detalhes.
[!WARNING] Isenção de Responsabilidade Legal Não assumimos qualquer responsabilidade pelo uso ilegal da base de código. Consulte as leis locais sobre DMCA e outras leis relacionadas.
Síntese de Voz e Clonagem de Voz com Qualidade Humana
FishAudio-S1 é um modelo expressivo de text-to-speech (TTS) e clonagem de voz desenvolvido pela Fish Audio, projetado para gerar fala que soa natural, realista e emocionalmente rica — não robótica, não plana e não restrita à narração estilo estúdio.
FishAudio-S1 foca em como os humanos realmente falam: com emoção, variação, pausas e intenção.
Estamos animados em anunciar que mudamos nossa marca para Fish Audio — introduzindo uma nova série revolucionária de modelos avançados de Text-to-Speech que se baseia na fundação do Fish-Speech.
Temos o orgulho de lançar o FishAudio-S1 (também conhecido como OpenAudio S1) como o primeiro modelo desta série, oferecendo melhorias significativas em qualidade, desempenho e capacidades.
O FishAudio-S1 vem em duas versões: FishAudio-S1 e FishAudio-S1-mini. Ambos os modelos estão agora disponíveis no Fish Audio Playground (para FishAudio-S1) e Hugging Face (para FishAudio-S1-mini).
Visite o site Fish Audio para playground ao vivo e relatório técnico.
| Modelo | Tamanho | Disponibilidade | Descrição |
|---|---|---|---|
| FishAudio-S1 | 4B parâmetros | fish.audio | Modelo flagship com recursos completos, máxima qualidade e estabilidade |
| FishAudio-S1-mini | 0.5B parâmetros | huggingface | Modelo destilado open-source com capacidades principais |
Tanto S1 quanto S1-mini incorporam Aprendizado por Reforço online com Feedback Humano (RLHF).
Aqui estão os documentos oficiais do Fish Speech, siga as instruções para começar facilmente.
Usamos as métricas de avaliação Seed TTS para avaliar o desempenho do modelo, e os resultados mostram que o FishAudio S1 alcança 0.008 WER e 0.004 CER em texto em inglês, que é significativamente melhor que modelos anteriores. (Inglês, avaliação automática, baseada no OpenAI gpt-4o-transcribe, distância do locutor usando Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
| Modelo | Taxa de Erro de Palavra (WER) | Taxa de Erro de Caractere (CER) | Distância do Locutor |
|---|---|---|---|
| S1 | 0.008 | 0.004 | 0.332 |
| S1-mini | 0.011 | 0.005 | 0.380 |
O FishAudio S1 alcançou a classificação #1 no TTS-Arena2, o benchmark para avaliação de text-to-speech:
FishAudio-S1 gera fala que soa natural e conversacional, em vez de robótica ou excessivamente polida. O modelo captura variações sutis em tempo, ênfase e prosódia, evitando o efeito "gravação de estúdio" comum em sistemas TTS tradicionais.
FishAudio S1 é o primeiro modelo TTS a suportar controle de emoção refinado em domínio aberto através de marcadores explícitos de emoção e tom. Agora podemos direcionar precisamente como uma voz soa:
Emoções básicas:
(raivoso) (triste) (animado) (surpreso) (satisfeito) (encantado)
(assustado) (preocupado) (chateado) (nervoso) (frustrado) (deprimido)
(empático) (envergonhado) (enojado) (emocionado) (orgulhoso) (relaxado)
(grato) (confiante) (interessado) (curioso) (confuso) (alegre)
Emoções avançadas:
(desdenhoso) (infeliz) (ansioso) (histérico) (indiferente)
(impaciente) (culpado) (desprezível) (em pânico) (furioso) (relutante)
(entusiasmado) (desaprovador) (negativo) (negando) (espantado) (sério)
(sarcástico) (conciliador) (consolador) (sincero) (escarnecedor)
(hesitante) (cedendo) (doloroso) (constrangido) (divertido)
Marcadores de tom:
(tom apressado) (gritando) (gritando alto) (sussurrando) (tom suave)
Efeitos de áudio especiais:
(rindo) (dando risinhos) (soluçando) (chorando alto) (suspirando) (ofegando)
(gemendo) (risos da multidão) (risos de fundo) (risos da audiência)
Você também pode usar Ha,ha,ha para controlar, há muitos outros casos esperando para serem explorados por você mesmo.
FishAudio-S1 suporta text-to-speech multilíngue de alta qualidade sem exigir fonemas ou pré-processamento específico de idioma.
Idiomas que suportam marcadores de emoção incluem: Inglês, Chinês, Japonês, Alemão, Francês, Espanhol, Coreano, Árabe, Russo, Holandês, Italiano, Polonês e Português.
A lista está em constante expansão, verifique Fish Audio para os últimos lançamentos.
FishAudio-S1 suporta clonagem de voz precisa usando uma amostra de referência curta (tipicamente 10-30 segundos). O modelo captura timbre, estilo de fala e tendências emocionais, produzindo vozes clonadas realistas e consistentes sem ajuste fino adicional.
TTS Zero-shot e Few-shot: Insira uma amostra vocal de 10 a 30 segundos para gerar saída TTS de alta qualidade. Para diretrizes detalhadas, veja Melhores Práticas de Clonagem de Voz.
Suporte Multilíngue e Cross-lingual: Simplesmente copie e cole texto multilíngue na caixa de entrada—não precisa se preocupar com o idioma. Atualmente suporta inglês, japonês, coreano, chinês, francês, alemão, árabe e espanhol.
Sem Dependência de Fonema: O modelo tem fortes capacidades de generalização e não depende de fonemas para TTS. Pode lidar com texto em qualquer script de idioma.
Altamente Preciso: Alcança um baixo CER (Taxa de Erro de Caractere) de cerca de 0.4% e WER (Taxa de Erro de Palavra) de cerca de 0.8% para Seed-TTS Eval.
Rápido: Com aceleração por torch compile, o fator de tempo real é aproximadamente 1:7 em uma GPU Nvidia RTX 4090.
Inferência via WebUI: Apresenta uma interface de usuário baseada em Gradio, fácil de usar e compatível com Chrome, Firefox, Edge e outros navegadores.
Amigável para Implantação: Configure facilmente um servidor de inferência com suporte nativo para Linux e Windows (suporte para macOS em breve), minimizando a perda de desempenho.
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}