[!IMPORTANT] Aviso de Licencia Este código y los pesos de modelo asociados se publican bajo la FISH AUDIO RESEARCH LICENSE. Consulta LICENSE para más detalles. Se tomarán acciones ante cualquier violación de la licencia.
[!WARNING] Descargo de Responsabilidad Legal No asumimos ninguna responsabilidad por el uso ilegal de este código. Consulta las leyes locales relacionadas con DMCA y otras normativas aplicables.
Aquí tienes la documentación oficial de Fish Audio S2. Sigue las instrucciones para comenzar fácilmente.
[!IMPORTANT] Para el servidor SGLang, consulta SGLang-Omni README.
Instala y configura Fish-Audio S2 siguiendo las instrucciones aquí: https://speech.fish.audio/install/
Sistema de texto a voz (TTS) multilingüe de última generación, redefiniendo los límites de la generación de voz.
Fish Audio S2 Pro es el modelo multimodal más avanzado desarrollado por Fish Audio. Entrenado con más de 10 millones de horas de datos de audio que abarcan más de 80 idiomas, S2 Pro combina una arquitectura Dual-Autoregressive (Dual-AR) con alineación mediante aprendizaje por refuerzo (RL) para generar voz extremadamente natural, realista y emocionalmente rica, liderando tanto sistemas open-source como closed-source.
La principal fortaleza de S2 Pro es su soporte para control fino a nivel sub-palabra (sub-word level) de prosodia y emoción usando etiquetas en lenguaje natural (por ejemplo [whisper], [excited], [angry]), además de soportar de forma nativa generación multi-speaker y conversaciones multi-turno.
Visita el sitio web de Fish Audio para probarlo en vivo, o lee el informe técnico y el blog para más detalles.
| Modelo | Tamaño | Disponibilidad | Descripción |
|---|---|---|---|
| S2-Pro | 4B parámetros | HuggingFace | Modelo insignia completo con máxima calidad y estabilidad |
Más detalles pueden encontrarse en el informe técnico.
| Benchmark | Fish Audio S2 |
|---|---|
| Seed-TTS Eval — WER (Chino) | 0.54% (mejor global) |
| Seed-TTS Eval — WER (Inglés) | 0.99% (mejor global) |
| Audio Turing Test (con instrucciones) | 0.515 media posterior |
| EmergentTTS-Eval — Tasa de victoria | 81.88% (máximo global) |
| Fish Instruction Benchmark — TAR | 93.3% |
| Fish Instruction Benchmark — Calidad | 4.51 / 5.0 |
| Multilingüe (MiniMax Testset) — Mejor WER | 11 de 24 idiomas |
| Multilingüe (MiniMax Testset) — Mejor SIM | 17 de 24 idiomas |
En Seed-TTS Eval, S2 logra el menor WER entre todos los modelos evaluados, incluyendo sistemas cerrados: Qwen3-TTS (0.77/1.24), MiniMax Speech-02 (0.99/1.90), Seed-TTS (1.12/2.25). En el Audio Turing Test, 0.515 supera a Seed-TTS (0.417) en un 24% y a MiniMax-Speech (0.387) en un 33%. En EmergentTTS-Eval, S2 destaca especialmente en paralingüística (91.61%), preguntas (84.41%) y complejidad sintáctica (83.39%).
S2 Pro aporta un nivel de “alma” sin precedentes a la voz. Usando sintaxis [tag], puedes insertar instrucciones emocionales con precisión en cualquier parte del texto.
[whisper in small voice], [professional broadcast tone], [pitch up]Permite múltiples hablantes usando <|speaker:i|> en una sola generación.
Mantiene contexto para mejorar la naturalidad.
Para usar con SGLang Server, consulta el README correspondiente.
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}
@misc{liao2026fishaudios2technical,
title={Fish Audio S2 Technical Report},
author={Shijia Liao and Yuxuan Wang and Songting Liu and Yifan Cheng and Ruoyi Zhang and Tianyu Li and Shidong Li and Yisheng Zheng and Xingwei Liu and Qingzheng Wang and Zhizhuo Zhou and Jiahua Liu and Xin Chen and Dawei Han},
year={2026},
eprint={2603.08823},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2603.08823},
}