README.es.md 8.9 KB

Fish Speech

[English](../README.md) | [简体中文](docs/README.zh.md) | [Portuguese](docs/README.pt-BR.md) | [日本語](docs/README.ja.md) | [한국어](docs/README.ko.md) | [العربية](docs/README.ar.md) | **Español**




[!IMPORTANT] Aviso de Licencia Este código y los pesos de modelo asociados se publican bajo la FISH AUDIO RESEARCH LICENSE. Consulta LICENSE para más detalles. Se tomarán acciones ante cualquier violación de la licencia.

[!WARNING] Descargo de Responsabilidad Legal No asumimos ninguna responsabilidad por el uso ilegal de este código. Consulta las leyes locales relacionadas con DMCA y otras normativas aplicables.

Inicio Rápido

Para humanos

Aquí tienes la documentación oficial de Fish Audio S2. Sigue las instrucciones para comenzar fácilmente.

[!IMPORTANT] Para el servidor SGLang, consulta SGLang-Omni README.

Para agentes LLM

Instala y configura Fish-Audio S2 siguiendo las instrucciones aquí: https://speech.fish.audio/install/

Fish Audio S2 Pro

Sistema de texto a voz (TTS) multilingüe de última generación, redefiniendo los límites de la generación de voz.

Fish Audio S2 Pro es el modelo multimodal más avanzado desarrollado por Fish Audio. Entrenado con más de 10 millones de horas de datos de audio que abarcan más de 80 idiomas, S2 Pro combina una arquitectura Dual-Autoregressive (Dual-AR) con alineación mediante aprendizaje por refuerzo (RL) para generar voz extremadamente natural, realista y emocionalmente rica, liderando tanto sistemas open-source como closed-source.

La principal fortaleza de S2 Pro es su soporte para control fino a nivel sub-palabra (sub-word level) de prosodia y emoción usando etiquetas en lenguaje natural (por ejemplo [whisper], [excited], [angry]), además de soportar de forma nativa generación multi-speaker y conversaciones multi-turno.

Visita el sitio web de Fish Audio para probarlo en vivo, o lee el informe técnico y el blog para más detalles.

Variantes del modelo

Modelo Tamaño Disponibilidad Descripción
S2-Pro 4B parámetros HuggingFace Modelo insignia completo con máxima calidad y estabilidad

Más detalles pueden encontrarse en el informe técnico.

Resultados de benchmarks

Benchmark Fish Audio S2
Seed-TTS Eval — WER (Chino) 0.54% (mejor global)
Seed-TTS Eval — WER (Inglés) 0.99% (mejor global)
Audio Turing Test (con instrucciones) 0.515 media posterior
EmergentTTS-Eval — Tasa de victoria 81.88% (máximo global)
Fish Instruction Benchmark — TAR 93.3%
Fish Instruction Benchmark — Calidad 4.51 / 5.0
Multilingüe (MiniMax Testset) — Mejor WER 11 de 24 idiomas
Multilingüe (MiniMax Testset) — Mejor SIM 17 de 24 idiomas

En Seed-TTS Eval, S2 logra el menor WER entre todos los modelos evaluados, incluyendo sistemas cerrados: Qwen3-TTS (0.77/1.24), MiniMax Speech-02 (0.99/1.90), Seed-TTS (1.12/2.25). En el Audio Turing Test, 0.515 supera a Seed-TTS (0.417) en un 24% y a MiniMax-Speech (0.387) en un 33%. En EmergentTTS-Eval, S2 destaca especialmente en paralingüística (91.61%), preguntas (84.41%) y complejidad sintáctica (83.39%).

Highlights

Control fino inline mediante lenguaje natural

S2 Pro aporta un nivel de “alma” sin precedentes a la voz. Usando sintaxis [tag], puedes insertar instrucciones emocionales con precisión en cualquier parte del texto.

  • Más de 15,000 tags únicos soportados
  • Soporta descripciones libres como [whisper in small voice], [professional broadcast tone], [pitch up]

Arquitectura Dual-Autoregressive (Dual-AR)

  • Slow AR (4B parámetros): modela la estructura temporal
  • Fast AR (400M parámetros): reconstruye detalles acústicos finos

Alineación mediante RL

  • Usa GRPO
  • Señales de recompensa multidimensionales

Rendimiento extremo en streaming

  • RTF: 0.195
  • TTFA: ~100 ms
  • +3000 tokens/s

Soporte multilingüe robusto

  • Más de 80 idiomas
  • Sin necesidad de phonemes específicos

Generación multi-speaker nativa

Permite múltiples hablantes usando <|speaker:i|> en una sola generación.

Generación multi-turno

Mantiene contexto para mejorar la naturalidad.

Clonación de voz rápida

  • Solo 10–30 segundos de audio
  • Alta fidelidad de timbre y estilo

Para usar con SGLang Server, consulta el README correspondiente.


Créditos

Informe Técnico

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}

@misc{liao2026fishaudios2technical,
      title={Fish Audio S2 Technical Report}, 
      author={Shijia Liao and Yuxuan Wang and Songting Liu and Yifan Cheng and Ruoyi Zhang and Tianyu Li and Shidong Li and Yisheng Zheng and Xingwei Liu and Qingzheng Wang and Zhizhuo Zhou and Jiahua Liu and Xin Chen and Dawei Han},
      year={2026},
      eprint={2603.08823},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2603.08823}, 
}