介绍

!!! warning 我们不对代码库的任何非法使用承担任何责任. 请参阅您当地关于 DMCA (数字千年法案) 和其他相关法律法规.

此代码库根据 BSD-3-Clause 许可证发布, 所有模型根据 CC-BY-NC-SA-4.0 许可证发布.

要求

GPU 内存: 4GB (用于推理), 16GB (用于微调)
系统: Linux, Windows

~~我们建议 Windows 用户使用 WSL2 或 docker 来运行代码库, 或者使用由社区开发的整合环境.~~

Windows 配置

Windows 专业用户可以考虑 WSL2 或 docker 来运行代码库。

Windows 非专业用户可考虑以下为免 Linux 环境的基础运行方法（附带模型编译功能，即 torch.compile）：

解压项目压缩包。
点击install_env.bat安装环境。
- 可以通过编辑install_env.bat的USE_MIRROR项来决定是否使用镜像站下载。
- 默认为preview, 使用镜像站且使用最新开发版本 torch（唯一激活编译方式）。
- false使用原始站下载环境。true为从镜像站下载稳定版本 torch 和其余环境。
(可跳过，此步为激活编译模型环境)
1. 使用如下链接下载LLVM编译器。
  - LLVM-17.0.6 (原始站点下载)
  - LLVM-17.0.6 (镜像站点下载)
  - 下载完LLVM-17.0.6-win64.exe后，双击进行安装，选择合适的安装位置，最重要的是勾选Add Path to Current User添加环境变量。
  - 确认安装完成。
2. 下载安装Microsoft Visual C++ 可再发行程序包, 解决潜在.dll丢失问题。
  - MSVC++ 14.40.33810.0 下载
双击start.bat, 进入 Fish-Speech 训练推理配置 WebUI 页面。
- 想直接进入推理页面？编辑项目根目录下的API_FLAGS.txt, 前三行修改成如下格式:

   --infer
   # --api
   # --listen ...
   ...

想启动 API 服务器？编辑项目根目录下的API_FLAGS.txt, 前三行修改成如下格式:

   # --infer
   --api
   --listen ...
   ...

(可选)双击run_cmd.bat进入本项目的 conda/python 命令行环境

Linux 配置

# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech

# 安装 pytorch
pip3 install torch torchvision torchaudio

# 安装 fish-speech
pip3 install -e .

# (Ubuntu / Debian 用户) 安装 sox
apt install libsox-dev

更新日志

2024/05/10: 更新了 Fish-Speech 到 1.1 版本，引入了 VITS Decoder 来降低口胡和提高音色相似度.
2024/04/22: 完成了 Fish-Speech 1.0 版本, 大幅修改了 VQGAN 和 LLAMA 模型.
2023/12/28: 添加了 lora 微调支持.
2023/12/27: 添加了 gradient checkpointing, causual sampling 和 flash-attn 支持.
2023/12/19: 更新了 Webui 和 HTTP API.
2023/12/18: 更新了微调文档和相关例子.
2023/12/17: 更新了 text2semantic 模型, 支持无音素模式.
2023/12/13: 测试版发布, 包含 VQGAN 模型和一个基于 LLAMA 的语言模型 (只支持音素).

index.md 4.4 KB

Riwayat Mentahan

介绍

要求

Windows 配置

Linux 配置

更新日志

致谢

index.md 4.4 KB Riwayat Mentahan

介绍

要求

Windows 配置

Linux 配置

更新日志

致谢

index.md 4.4 KB

Riwayat Mentahan