|
|
vor 3 Wochen | |
|---|---|---|
| .. | ||
| ar | vor 3 Wochen | |
| assets | vor 1 Monat | |
| en | vor 3 Wochen | |
| ja | vor 3 Wochen | |
| ko | vor 3 Wochen | |
| pt | vor 3 Wochen | |
| stylesheets | vor 2 Jahren | |
| zh | vor 3 Wochen | |
| CNAME | vor 2 Jahren | |
| README.ar.md | vor 3 Wochen | |
| README.ja.md | vor 3 Wochen | |
| README.ko.md | vor 3 Wochen | |
| README.pt-BR.md | vor 3 Wochen | |
| README.zh.md | vor 3 Wochen | |
| requirements.txt | vor 2 Jahren | |
[!IMPORTANT] إشعار الترخيص يتم إصدار قاعدة الأكواد هذه وأوزان النماذج المرتبطة بها تحت FISH AUDIO RESEARCH LICENSE. يرجى الرجوع إلى ملف LICENSE لمزيد من التفاصيل.
[!WARNING] إخلاء المسؤولية القانونية نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الأكواد. يرجى الرجوع إلى القوانين المحلية المتعلقة بـ DMCA والقوانين الأخرى ذات الصلة.
هذا هو التوثيق الرسمي لـ Fish Audio S2، يرجى اتباع التعليمات للبدء بسهولة.
[!IMPORTANT] إذا كنت ترغب في استخدام خادم SGLang، فيرجى الرجوع إلى SGLang-Omni README.
يرجى قراءة https://speech.fish.audio/ar/install/ أولاً، وتثبيت وتكوين Fish Audio S2 وفقاً للوثائق.
نظام تحويل النص إلى كلام (TTS) متعدد اللغات الرائد في الصناعة، والذي يعيد تعريف حدود توليد الصوت.
Fish Audio S2 Pro هو أحدث طراز متعدد الوسائط تم تطويره بواسطة Fish Audio. تم تدريبه على أكثر من 10 ملايين ساعة من البيانات الصوتية الهائلة، التي تغطي أكثر من 80 لغة حول العالم. من خلال بنية ثنائية الانحدار الذاتي (Dual-AR) المبتكرة وتقنية توافق التعلم التعزيزي (RL)، يمكن لـ S2 Pro توليد كلام يتمتع بإحساس طبيعي وواقعي وعمق عاطفي كبير، مما يجعله رائداً في المنافسة بين الأنظمة المفتوحة والمغلقة المصدر.
تكمن القوة الضاربة لـ S2 Pro في دعمه للتحكم الدقيق للغاية في النبرة والعاطفة على مستوى ما دون الكلمة (Sub-word Level) من خلال وسوم اللغة الطبيعية (مثل [whisper] و [excited] و [angry]) ، مع دعم أصلي لتوليد متحدثين متعددين وحوارات متعددة الجولات بسياق طويل جداً.
تفضل بزيارة موقع Fish Audio الرسمي الآن لتجربة العرض المباشر، أو اقرأ تقريرنا الفني ومقال المدونة للتعرف على المزيد.
| النموذج | الحجم | التوفر | الوصف |
|---|---|---|---|
| S2-Pro | 4 مليار معلمة | HuggingFace | النموذج الرائد كامل الميزات، مع أعلى جودة واستقرار |
لمزيد من التفاصيل حول النماذج، يرجى مراجعة التقرير الفني.
| الاختبار | Fish Audio S2 |
|---|---|
| Seed-TTS Eval — WER (الصينية) | 0.54% (الأفضل إجمالاً) |
| Seed-TTS Eval — WER (الإنجليزية) | 0.99% (الأفضل إجمالاً) |
| Audio Turing Test (مع التعليمات) | 0.515 متوسط خلفي (Posterior mean) |
| EmergentTTS-Eval — معدل الفوز | 81.88% (الأعلى إجمالاً) |
| Fish Instruction Benchmark — TAR | 93.3% |
| Fish Instruction Benchmark — الجودة | 4.51 / 5.0 |
| متعدد اللغات (MiniMax Testset) — أفضل WER | 11 لغة من أصل 24 |
| متعدد اللغات (MiniMax Testset) — أفضل SIM | 17 لغة من أصل 24 |
في تقييم Seed-TTS، حقق S2 أقل معدل خطأ في الكلمات (WER) بين جميع النماذج التي تم تقييمها (بما في ذلك الأنظمة مغلقة المصدر): Qwen3-TTS (0.77/1.24)، و MiniMax Speech-02 (0.99/1.90)، و Seed-TTS (1.12/2.25). وفي اختبار Audio Turing Test، سجل S2 قيمة 0.515 بزيادة قدرها 24% مقارنة بـ Seed-TTS (0.417) و 33% مقارنة بـ MiniMax-Speech (0.387). وفي EmergentTTS-Eval، تميز S2 بشكل خاص في أبعاد مثل اللغويات المصاحبة (معدل فوز 91.61%)، والجمل الاستفهامية (84.41%)، والتعقيد النحوي (83.39%).
يمنح S2 Pro الصوت "روحاً" لا مثيل لها. من خلال صيغة [tag] البسيطة، يمكنك تضمين تعليمات عاطفية بدقة في أي موضع من النص.
[whisper in small voice] (همس بصوت منخفض)، أو [professional broadcast tone] (نبرة إذاعية احترافية)، أو [pitch up] (رفع طبقة الصوت).[pause] [emphasis] [laughing] [inhale] [chuckle] [tsk] [singing] [excited] [laughing tone] [interrupting] [chuckling] [excited tone] [volume up] [echo] [angry] [low volume] [sigh] [low voice] [whisper] [screaming] [shouting] [loud] [surprised] [short pause] [exhale] [delight] [panting] [audience laughter] [with strong accent] [volume down] [clearing throat] [sad] [moaning] [shocked]يعتمد S2 Pro بنية Dual-AR بنظام "رئيسي-تابع"، تتكون من Decoder-only Transformer وترميز صوتي RVQ (10 قواميس أكواد، بمعدل إطارات يبلغ حوالي 21 هرتز):
يحقق هذا التصغير غير المتماثل أقصى درجات الدقة الصوتية مع زيادة سرعة الاستدلال بشكل كبير.
يستخدم S2 Pro تقنية Group Relative Policy Optimization (GRPO) للتوافق بعد التدريب. نستخدم نفس مجموعة النماذج المستخدمة في تنظيف البيانات وتصنيفها مباشرة كنماذج مكافأة (Reward Model)، مما يحل بشكل مثالي مشكلة عدم التطابق بين توزيع بيانات ما قبل التدريب وأهداف ما بعد التدريب.
نظراً لأن بنية Dual-AR تتماثل هيكلياً مع بنية LLM القياسية، فإن S2 Pro يدعم أصلاً جميع ميزات تسريع الاستدلال في SGLang، بما في ذلك الدفعات المستمرة (Continuous Batching)، و Paged KV Cache، و CUDA Graph، والتخزين المؤقت للبادئة القائم على RadixAttention.
أداء وحدة معالجة رسومات NVIDIA H200 واحدة:
يدعم S2 Pro أكثر من 80 لغة، مما يتيح تركيباً عالياً الجودة دون الحاجة إلى وحدات صوتية (phonemes) أو معالجة محددة لكل لغة:
يسمح Fish Audio S2 للمستخدمين بتحميل عينة مرجعية تحتوي على متحدثين متعددين، وسيقوم النموذج بمعالجة ميزات كل متحدث عبر وسم <|speaker:i|>. بعد ذلك، يمكنك التحكم في أداء النموذج عبر وسم معرف المتحدث، مما يتيح لتوليد واحد أن يتضمن متحدثين متعددين. لم تعد هناك حاجة لتحميل عينة مرجعية منفصلة وتوليد صوت لكل متحدث على حدة كما كان في السابق.
بفضل توسيع سياق النموذج، يمكن لنموذجنا الآن الاستفادة من المعلومات السابقة لتحسين التعبير في المحتوى المولد لاحقاً، مما يعزز من طبيعية المحتوى.
يدعم Fish Audio S2 استنساخاً دقيقاً للصوت باستخدام عينات مرجعية قصيرة (عادةً 10-30 ثانية). يلتقط النموذج نبرة الصوت وأسلوب الكلام والميول العاطفية، مما يولد أصواتاً مستنسخة واقعية ومتسقة دون الحاجة إلى ضبط دقيق إضافي. لاستخدام خادم SGLang، يرجى الرجوع إلى SGLang-Omni README.
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}
@misc{liao2026fishaudios2technical,
title={Fish Audio S2 Technical Report},
author={Shijia Liao and Yuxuan Wang and Songting Liu and Yifan Cheng and Ruoyi Zhang and Tianyu Li and Shidong Li and Yisheng Zheng and Xingwei Liu and Qingzheng Wang and Zhizhuo Zhou and Jiahua Liu and Xin Chen and Dawei Han},
year={2026},
eprint={2603.08823},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2603.08823},
}