!!! warning
Não nos responsabilizamos por qualquer uso ilegal do código-fonte. Consulte as leis locais sobre DMCA (Digital Millennium Copyright Act) e outras leis relevantes em sua região. <br/>
Este repositório de código e os modelos são distribuídos sob a licença CC-BY-NC-SA-4.0.
No Windows, usuários avançados podem considerar usar o WSL2 ou Docker para executar o código.
Para Usuários comuns (não-avançados), siga os métodos abaixo para executar o código sem um ambiente Linux (incluindo suporte para torch.compile):
install_env.bat para baixar e iniciar a instalação do miniconda.USE_MIRROR=true no install_env.bat (padrão). Caso contrário, use USE_MIRROR=false.INSTALL_TYPE=preview. Para a versão estável sem ambiente compilado, use INSTALL_TYPE=stable.INSTALL_TYPE=preview), siga para a próxima etapa (opcional):
LLVM-17.0.6-win64.exe, clique duas vezes para instalá-lo, escolha um local de instalação apropriado. E durante a instalação, marque a opção Add Path to Current User para adicionar às variáveis de ambiente.Modificar, conforme mostrado abaixo, encontre a opção Desenvolvimento para desktop com C++ e marque-a para download.start.bat para entrar na página da WebUI de configuração de inferência de treinamento do Fish-Speech.
API_FLAGS.txt no diretório raiz do projeto e modifique as três primeiras linhas da seguinte forma:
--infer
# --api
# --listen ...
...
API_FLAGS.txt no diretório raiz do projeto e modifique as três primeiras linhas da seguinte forma:
# --infer
--api
--listen ...
...
run_cmd.bat para entrar na CLI do conda/python deste projeto.# Crie um ambiente virtual python 3.10, você também pode usar virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech
# Instale o pytorch
pip3 install torch torchvision torchaudio
# Instale o fish-speech
pip3 install -e .[stable]
# Para os Usuário do Ubuntu / Debian: Instale o sox + ffmpeg
apt install libsox-dev ffmpeg
Instale o NVIDIA Container Toolkit:
Para usar a GPU com Docker para treinamento e inferência de modelos, você precisa instalar o NVIDIA Container Toolkit:
Para usuários Ubuntu:
# Adicione o repositório remoto
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
# Instale o nvidia-container-toolkit
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
# Reinicie o serviço Docker
sudo systemctl restart docker
Para usuários de outras distribuições Linux, consulte o guia de instalação: NVIDIA Container Toolkit Install-guide.
# Baixe a imagem
docker pull fishaudio/fish-speech:latest-dev
# Execute a imagem
docker run -it \
--name fish-speech \
--gpus all \
-p 7860:7860 \
fishaudio/fish-speech:latest-dev \
zsh
# Se precisar usar outra porta, modifique o parâmetro -p para YourPort:7860
Baixe as dependências do modelo
Certifique-se de estar no terminal do contêiner Docker e, em seguida, baixe os modelos necessários vqgan e llama do nosso repositório HuggingFace.
huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
No terminal do contêiner Docker, digite export GRADIO_SERVER_NAME="0.0.0.0" para permitir o acesso externo ao serviço gradio dentro do Docker.
Em seguida, no terminal do contêiner Docker, digite python tools/webui.py para iniciar o serviço WebUI.
Se estiver usando WSL ou MacOS, acesse http://localhost:7860 para abrir a interface WebUI.
Se estiver implantando em um servidor, substitua localhost pelo IP do seu servidor.
lora.gradient checkpointing, causual sampling e flash-attn.text2semantic, suportando o modo sem fonemas.