index.md 6.8 KB

Fish Speech

[English](../en/) | [简体中文](../zh/) | **Portuguese** | [日本語](../ja/) | [한국어](../ko/) | [العربية](../ar/)




!!! info "Aviso de Licença"

Este repositório e todos os pesos de modelo associados são lançados sob a **FISH AUDIO RESEARCH LICENSE**. Consulte [LICENSE](https://github.com/fishaudio/fish-speech/blob/main/LICENSE) para mais detalhes.

!!! warning "Isenção de Responsabilidade Legal"

Não nos responsabilizamos por qualquer uso ilegal da base de códigos. Consulte as regulamentações locais sobre DMCA e outras leis relacionadas.

Começar

Esta é a documentação oficial do Fish Speech. Siga as instruções para começar facilmente.

Fish Audio S2

O melhor sistema de texto para fala em código aberto e código fechado

O Fish Audio S2 é o modelo mais recente desenvolvido pela Fish Audio, projetado para gerar fala que soe natural, autêntica e emocionalmente rica — não mecânica, monótona ou confinada à leitura em estúdio.

O Fish Audio S2 foca em conversas cotidianas, suportando geração nativa de múltiplos locutores e múltiplos turnos. Também suporta controle por instruções.

A série S2 inclui vários modelos. O modelo de código aberto é o S2-Pro, que é o modelo mais poderoso da série.

Visite o site da Fish Audio para uma experiência em tempo real.

Variantes do Modelo

Modelo Tamanho Disponibilidade Descrição
S2-Pro 4B Parâmetros huggingface Modelo emblemático completo com a mais alta qualidade e estabilidade
S2-Flash - - - - fish.audio Nosso modelo de código fechado com maior velocidade e menor latência

Para mais detalhes sobre os modelos, consulte o relatório técnico.

Destaques

Controle por Linguagem Natural

O Fish Audio S2 permite que os usuários usem linguagem natural para controlar o desempenho, informações paralinguísticas, emoções e outras características de voz de cada frase, em vez de usar apenas tags curtas para controlar vagamente o desempenho do modelo. Isso aumenta muito a qualidade geral do conteúdo gerado.

Suporte Multilíngue

O Fish Audio S2 suporta conversão de texto em fala multilíngue de alta qualidade sem a necessidade de fonemas ou pré-processamento específico por idioma. Incluindo:

Inglês, Chinês, Japonês, Coreano, Árabe, Alemão, Francês...

E muito mais!

A lista está em constante expansão. Verifique a Fish Audio para os lançamentos mais recentes.

Geração Nativa de Múltiplos Locutores

O Fish Audio S2 permite que os usuários carreguem áudio de referência contendo múltiplos locutores, e o modelo processará as características de cada locutor por meio do token <|speaker:i|>. Você pode então controlar o desempenho do modelo por meio de tokens de ID de locutor, alcançando múltiplos locutores em uma única geração. Não há mais necessidade de carregar áudio de referência e gerar fala para cada locutor individualmente.

Geração de Diálogos em Múltiplos Turnos

Graças à expansão do contexto do modelo, nosso modelo agora pode usar as informações das partes anteriores do diálogo para melhorar a expressividade do conteúdo gerado subsequentemente, aumentando assim a naturalidade do conteúdo.

Clonagem de Voz Rápida

O Fish Audio S2 suporta clonagem de voz precisa usando amostras de referência curtas (geralmente de 10 a 30 segundos). O modelo pode capturar timbre, estilo de fala e tendência emocional, gerando vozes clonadas realistas e consistentes sem ajuste fino adicional.


Agradecimentos

Relatório Técnico

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}