El modelo Fish Audio S2 requiere una gran cantidad de VRAM. Recomendamos usar una GPU con al menos 24GB para la inferencia.
Primero, necesitas descargar los pesos del modelo:
hf download fishaudio/s2-pro --local-dir checkpoints/s2-pro
!!! note Si planeas dejar que el modelo elija aleatoriamente el timbre de voz, puedes omitir este paso.
python fish_speech/models/dac/inference.py \
-i "test.wav" \
--checkpoint-path "checkpoints/s2-pro/codec.pth"
Deberías obtener un fake.npy y un fake.wav.
python fish_speech/models/text2semantic/inference.py \
--text "El texto que quieres convertir" \
--prompt-text "Tu texto de referencia" \
--prompt-tokens "fake.npy" \
# --compile
Este comando creará un archivo codes_N en el directorio de trabajo, donde N es un entero que comienza desde 0.
!!! note
Puede que quieras usar --compile para fusionar kernels CUDA y acelerar la inferencia. Sin embargo, recomendamos usar nuestra optimización de aceleración de inferencia con sglang.
Correspondientemente, si no planeas usar aceleración, puedes comentar el parámetro --compile.
!!! info
Para GPUs que no soportan bf16, puede que necesites usar el parámetro --half.
python fish_speech/models/dac/inference.py \
-i "codes_0.npy" \
Después de eso, obtendrás un archivo fake.wav.
Próximamente.