!!! warning
私たちは、コードベースの違法な使用について一切の責任を負いません。お住まいの地域の DMCA(デジタルミレニアム著作権法)およびその他の関連法を参照してください。 <br/>
このコードベースとモデルは、CC-BY-NC-SA-4.0 ライセンス下でリリースされています。
プロフェッショナルなWindowsユーザーは、WSL2またはDockerを使用してコードベースを実行することを検討してください。
# Python 3.10の仮想環境を作成(virtualenvも使用可能)
conda create -n fish-speech python=3.10
conda activate fish-speech
# PyTorchをインストール
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# fish-speechをインストール
pip3 install -e .
# (アクセラレーションを有効にする) triton-windowsをインストール
pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl
非プロフェッショナルなWindowsユーザーは、Linux環境なしでプロジェクトを実行するための以下の基本的な方法を検討できます(モデルコンパイル機能、つまりtorch.compileを使用可能):
install_env.batをクリックして環境をインストールする。LLVM-17.0.6-win64.exeをダウンロードした後、ダブルクリックしてインストールし、適切なインストール場所を選択し、最も重要なのはAdd Path to Current Userオプションを選択して環境変数を追加することです。Modifyボタンをクリックし、C++によるデスクトップ開発オプションを選択してダウンロード。
start.batをダブルクリックして、トレーニング推論WebUI管理インターフェースを開きます。必要に応じて、以下に示すようにAPI_FLAGSを修正できます。!!! info "オプション"
推論WebUIを起動しますか?
プロジェクトのルートディレクトリにある `API_FLAGS.txt` ファイルを編集し、最初の3行を次のように変更します:
```
--infer
# --api
# --listen ...
...
```
!!! info "オプション"
APIサーバーを起動しますか?
プロジェクトのルートディレクトリにある `API_FLAGS.txt` ファイルを編集し、最初の3行を次のように変更します:
```
# --infer
--api
--listen ...
...
```
!!! info "オプション"
`run_cmd.bat` をダブルクリックして、このプロジェクトの conda/python コマンドライン環境に入ります。
# python 3.10の仮想環境を作成します。virtualenvも使用できます。
conda create -n fish-speech python=3.10
conda activate fish-speech
# pytorchをインストールします。
pip3 install torch torchvision torchaudio
# fish-speechをインストールします。
pip3 install -e .[stable]
# (Ubuntu / Debianユーザー) sox + ffmpegをインストールします。
apt install libsox-dev ffmpeg
NVIDIA Container Toolkit のインストール:
Docker で GPU を使用してモデルのトレーニングと推論を行うには、NVIDIA Container Toolkit をインストールする必要があります:
Ubuntu ユーザーの場合:
# リポジトリの追加
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
# nvidia-container-toolkit のインストール
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
# Docker サービスの再起動
sudo systemctl restart docker
他の Linux ディストリビューションを使用している場合は、以下のインストールガイドを参照してください:NVIDIA Container Toolkit Install-guide。
# イメージのプル
docker pull fishaudio/fish-speech:latest-dev
# イメージの実行
docker run -it \
--name fish-speech \
--gpus all \
-p 7860:7860 \
fishaudio/fish-speech:latest-dev \
zsh
# 他のポートを使用する場合は、-p パラメータを YourPort:7860 に変更してください
モデルの依存関係のダウンロード
Docker コンテナ内のターミナルにいることを確認し、huggingface リポジトリから必要な vqgan と llama モデルをダウンロードします。
huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
Docker コンテナ内のターミナルで、export GRADIO_SERVER_NAME="0.0.0.0" と入力して、外部から Docker 内の gradio サービスにアクセスできるようにします。
次に、Docker コンテナ内のターミナルで python tools/webui.py と入力して WebUI サービスを起動します。
WSL または MacOS の場合は、http://localhost:7860 にアクセスして WebUI インターフェースを開くことができます。
サーバーにデプロイしている場合は、localhost をサーバーの IP に置き換えてください。
lora微調整サポートを追加しました。gradient checkpointing、causual sampling、およびflash-attnサポートを追加しました。text2semanticモデルを更新し、自由音素モードをサポートしました。