Fish Speech

[!IMPORTANT] Aviso de Licença Este repositório e os pesos de modelo associados são lançados sob a FISH AUDIO RESEARCH LICENSE. Consulte LICENSE para obter mais detalhes.

[!WARNING] Isenção de Responsabilidade Legal Não nos responsabilizamos por qualquer uso ilegal do repositório. Consulte as leis locais sobre DMCA e outras leis relacionadas.

Comece Aqui

Aqui estão os documentos oficiais do Fish Speech, siga as instruções para começar facilmente.

Fish Audio S2

O melhor sistema de conversão de texto em fala entre código aberto e código fechado

O Fish Audio S2 é o modelo mais recente desenvolvido pela Fish Audio, projetado para gerar falas que soam naturais, realistas e emocionalmente ricas — não robóticas, não monótonas e não limitadas à narração em estilo de estúdio.

O Fish Audio S2 foca em conversas diárias e diálogos, o que permite a geração nativa de múltiplos falantes e turnos. Também suporta controle por instrução.

A série S2 contém vários modelos, o modelo de código aberto é o S2-Pro, que é o melhor modelo da coleção.

Visite o site da Fish Audio para um playground ao vivo.

Variantes do Modelo

Modelo	Tamanho	Disponibilidade	Descrição
S2-Pro	4B parâmetros	huggingface	Modelo carro-chefe completo com máxima qualidade e estabilidade
S2-Flash	- - - -	fish.audio	Nosso modelo de código fechado com maior velocidade e menor latência

Mais detalhes do modelo podem ser encontrados no relatório técnico.

Destaques

Controle Inline Refinado via Linguagem Natural

O Fish Audio S2 permite controle localizado da geração de fala ao incorporar instruções em linguagem natural diretamente em posições específicas de palavras ou frases no texto. Em vez de depender de um conjunto fixo de tags predefinidas, o S2 aceita descrições textuais livres, como [whisper in small voice], [professional broadcast tone] ou [pitch up], permitindo controle de expressão aberto no nível da palavra.

Suporte Multilíngue

O Fish Audio S2 oferece suporte a conversão de texto em fala multilíngue de alta qualidade sem a necessidade de fonemas ou processamento específico de idioma. Incluindo:

Inglês, Chinês, Japonês, Coreano, Árabe, Alemão, Francês...

E MUITO MAIS!

A lista está em constante expansão, verifique o Fish Audio para os lançamentos mais recentes.

Geração Nativa de Múltiplos Falantes

O Fish Audio S2 permite que os usuários carreguem áudio de referência com vários falantes; o modelo lidará com as características de cada falante por meio do token <|speaker:i|>. Então, você pode controlar o desempenho do modelo com the token de ID do falante, permitindo que uma única geração inclua vários falantes. Você não precisa mais carregar áudios de referência separadamente para cada falante.

Geração de Múltiplos Turnos

Graças à extensão do contexto do modelo, nosso modelo agora pode usar informações anteriores para melhorar a expressividade e a naturalidade dos conteúdos gerados subsequentemente.

Clonagem de Voz Rápida

O Fish Audio S2 suporta clonagem de voz precisa usando uma pequena amostra de referência (tipicamente de 10 a 30 segundos). O modelo captura o timbre, o estilo de fala e as tendências emocionais, produzindo vozes clonadas realistas e consistentes sem ajuste fino adicional.

Créditos

Relatório Técnico

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}

README.pt-BR.md 6.7 KB Verlauf Originalformat