Introdução

!!! warning

 Não nos responsabilizamos por qualquer uso ilegal do código-fonte. Consulte as leis locais sobre DMCA (Digital Millennium Copyright Act) e outras leis relevantes em sua região. <br/>
 Este repositório de código e os modelos são distribuídos sob a licença CC-BY-NC-SA-4.0.

Requisitos

Memória da GPU: 4GB (para inferência), 8GB (para ajuste fino)
Sistema: Linux, Windows

Configuração para Windows

No Windows, usuários avançados podem considerar usar o WSL2 ou Docker para executar o código.

Para Usuários comuns (não-avançados), siga os métodos abaixo para executar o código sem um ambiente Linux (incluindo suporte para torch.compile):

Extraia o arquivo compactado do projeto.
Prepare o ambiente conda:
- Abra o install_env.bat para baixar e iniciar a instalação do miniconda.
- Personalize o download (opcional):
  - **Site espelho:** Para usar um site espelho para downloads mais rápidos, defina USE_MIRROR=true no install_env.bat (padrão). Caso contrário, use USE_MIRROR=false.
  - **Ambiente compilado:** Para baixar a versão de prévia com o ambiente compilado, defina INSTALL_TYPE=preview. Para a versão estável sem ambiente compilado, use INSTALL_TYPE=stable.
Se você escolheu a versão de prévia com ambiente compilado (INSTALL_TYPE=preview), siga para a próxima etapa (opcional):
1. Baixe o compilador LLVM usando os seguintes links:
  - LLVM-17.0.6 (download do site original)
  - LLVM-17.0.6 (download do site espelho)
  - Após baixar o LLVM-17.0.6-win64.exe, clique duas vezes para instalá-lo, escolha um local de instalação apropriado. E durante a instalação, marque a opção Add Path to Current User para adicionar às variáveis de ambiente.
  - Confirme se a instalação foi concluída.
2. Baixe e instale o pacote Microsoft Visual C++ Redistributable para resolver possíveis problemas de .dll ausentes.
  - Download do MSVC++ 14.40.33810.0
3. Baixe e instale o Visual Studio Community Edition para obter as ferramentas de compilação MSVC++, resolvendo as dependências do arquivo de cabeçalho LLVM.
  - Download do Visual Studio
  - Após instalar o Visual Studio Installer, baixe o Visual Studio Community 2022.
  - Clique no botão Modificar, conforme mostrado abaixo, encontre a opção Desenvolvimento para desktop com C++ e marque-a para download.
4. Instale o CUDA Toolkit 12
Clique duas vezes em start.bat para entrar na página da WebUI de configuração de inferência de treinamento do Fish-Speech.
- (Opcional) Se desejar ir direto para a página de inferência, edite o arquivo API_FLAGS.txt no diretório raiz do projeto e modifique as três primeiras linhas da seguinte forma:
```
--infer
# --api
# --listen ...
...
```
- (Opcional) Se preferir iniciar o servidor da API, edite o arquivo API_FLAGS.txt no diretório raiz do projeto e modifique as três primeiras linhas da seguinte forma:
```
# --infer
--api
--listen ...
...
```
(Opcional) Clique duas vezes em run_cmd.bat para entrar na CLI do conda/python deste projeto.

Configuração para Linux

# Crie um ambiente virtual python 3.10, você também pode usar virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech

# Instale o pytorch
pip3 install torch torchvision torchaudio

# Instale o fish-speech
pip3 install -e .

# Para os Usuário do Ubuntu / Debian: Instale o sox
apt install libsox-dev

Histórico de Alterações

02/07/2024: Fish-Speech atualizado para a versão 1.2, removido o Decodificador VITS e aprimorado consideravelmente a capacidade de zero-shot.
10/05/2024: Fish-Speech atualizado para a versão 1.1, implementado o decodificador VITS para reduzir a WER e melhorar a similaridade de timbre.
22/04/2024: Finalizada a versão 1.0 do Fish-Speech, modificados significativamente os modelos VQGAN e LLAMA.
28/12/2023: Adicionado suporte para ajuste fino lora.
27/12/2023: Adicionado suporte para gradient checkpointing, causual sampling e flash-attn.
19/12/2023: Atualizada a interface web e a API HTTP.
18/12/2023: Atualizada a documentação de ajuste fino e exemplos relacionados.
17/12/2023: Atualizado o modelo text2semantic, suportando o modo sem fonemas.
13/12/2023: Versão beta lançada, incluindo o modelo VQGAN e um modelo de linguagem baseado em LLAMA (suporte apenas a fonemas).

index.md 7.0 KB

Geschiedenis Ruwe

Introdução

Requisitos

Configuração para Windows

Configuração para Linux

Histórico de Alterações

Agradecimentos

index.md 7.0 KB Geschiedenis Ruwe

Introdução

Requisitos

Configuração para Windows

Configuração para Linux

Histórico de Alterações

Agradecimentos

index.md 7.0 KB

Geschiedenis Ruwe