!!! warning
이 코드베이스의 불법적인 사용에 대해서는 책임을 지지 않습니다. DMCA(Digital Millennium Copyright Act) 및 해당 지역의 관련 법률을 참조하십시오. <br/>
이 코드베이스와 모든 모델은 CC-BY-NC-SA-4.0 라이선스에 따라 배포됩니다.
!!! info "주의"
Windows 전문가가 아닌 사용자는 GUI를 통해 프로젝트를 실행할 것을 강력히 권장합니다. [GUI는 여기에서](https://github.com/AnyaCoder/fish-speech-gui) 확인하세요.
고급 Windows 사용자는 WSL2 또는 Docker를 사용하여 코드베이스를 실행하는 것을 고려할 수 있습니다.
# 파이썬 3.10 가상 환경 생성, virtualenv도 사용할 수 있습니다.
conda create -n fish-speech python=3.10
conda activate fish-speech
# pytorch 설치
pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121
# fish-speech 설치
pip3 install -e .
# (가속 활성화) triton-windows 설치
pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl
pyproject.toml에서 자세한 내용을 확인하세요.
# 파이썬 3.10 가상 환경 생성, virtualenv도 사용할 수 있습니다.
conda create -n fish-speech python=3.10
conda activate fish-speech
# (Ubuntu / Debian 사용자) sox + ffmpeg 설치
apt install libsox-dev ffmpeg
# (Ubuntu / Debian 사용자) pyaudio 설치
apt install build-essential \
cmake \
libasound-dev \
portaudio19-dev \
libportaudio2 \
libportaudiocpp0
# pytorch 설치
pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1
# fish-speech 설치
pip3 install -e .[stable]
MPS에서 추론을 수행하려면 --device mps 플래그를 추가하세요.
추론 속도 비교는 이 PR을 참조하십시오.
!!! warning
Apple Silicon 장치에서는 `compile` 옵션이 공식적으로 지원되지 않으므로 추론 속도가 향상된다는 보장은 없습니다.
# 파이썬 3.10 가상 환경 생성, virtualenv도 사용할 수 있습니다.
conda create -n fish-speech python=3.10
conda activate fish-speech
# pytorch 설치
pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1
# fish-speech 설치
pip install -e .[stable]
NVIDIA Container Toolkit 설치:
Docker에서 모델 훈련 및 추론에 GPU를 사용하려면 NVIDIA Container Toolkit을 설치해야 합니다:
Ubuntu 사용자:
# 저장소 추가
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
# nvidia-container-toolkit 설치
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
# Docker 서비스 재시작
sudo systemctl restart docker
다른 Linux 배포판 사용자는: NVIDIA Container Toolkit 설치 가이드를 참조하십시오.
# 이미지 가져오기
docker pull fishaudio/fish-speech:latest-dev
# 이미지 실행
docker run -it \
--name fish-speech \
--gpus all \
-p 7860:7860 \
fishaudio/fish-speech:latest-dev \
zsh
# 다른 포트를 사용하려면 -p 매개변수를 YourPort:7860으로 수정하세요
모델 종속성 다운로드
Docker 컨테이너 내부의 터미널에서 아래 명령어를 사용하여 필요한 vqgan 및 llama 모델을 Huggingface 리포지토리에서 다운로드합니다.
huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5
Docker 컨테이너 내부의 터미널에서 export GRADIO_SERVER_NAME="0.0.0.0"를 입력하여 Docker 내부에서 Gradio 서비스에 외부 접근을 허용합니다.
이후, 터미널에서 python tools/run_webui.py 명령어를 입력하여 WebUI 서비스를 시작합니다.
WSL 또는 macOS를 사용하는 경우 http://localhost:7860에서 WebUI 인터페이스를 열 수 있습니다.
서버에 배포된 경우, localhost를 서버의 IP로 교체하세요.
lora 파인튜닝 지원 추가.gradient checkpointing, causual sampling, 및 flash-attn 지원 추가.text2semantic 모델 업데이트, 음소 없는 모드 지원.