Valentin Schröter cccad3e098 Docker overhaul. (#1100)		10 maanden geleden
..
ar	cccad3e098 Docker overhaul. (#1100)	10 maanden geleden
assets	9efa2087bd Update README.md for OpenAudio-S1 (#998)	1 jaar geleden
en	cccad3e098 Docker overhaul. (#1100)	10 maanden geleden
ja	cccad3e098 Docker overhaul. (#1100)	10 maanden geleden
ko	cccad3e098 Docker overhaul. (#1100)	10 maanden geleden
pt	cccad3e098 Docker overhaul. (#1100)	10 maanden geleden
stylesheets	c0585bff0f Optimize docs	2 jaren geleden
zh	cccad3e098 Docker overhaul. (#1100)	10 maanden geleden
CNAME	6d57066e52 Update pre-commit hook	2 jaren geleden
README.ar.md	67335275cb Fix README.md link typo (#1104)	10 maanden geleden
README.ja.md	67335275cb Fix README.md link typo (#1104)	10 maanden geleden
README.ko.md	67335275cb Fix README.md link typo (#1104)	10 maanden geleden
README.pt-BR.md	67335275cb Fix README.md link typo (#1104)	10 maanden geleden
README.zh.md	67335275cb Fix README.md link typo (#1104)	10 maanden geleden
requirements.txt	c0585bff0f Optimize docs	2 jaren geleden

Fish Speech

[!IMPORTANT] إشعار الترخيص
يتم إصدار قاعدة الكود هذه تحت رخصة Apache ويتم إصدار جميع أوزان النماذج تحت رخصة CC-BY-NC-SA-4.0. يرجى الرجوع إلى LICENSE لمزيد من التفاصيل.

[!WARNING] إخلاء المسؤولية القانونية
نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الكود. يرجى الرجوع إلى القوانين المحلية حول DMCA والقوانين الأخرى ذات الصلة.

ابدأ من هنا

هنا هي الوثائق الرسمية لـ Fish Speech، اتبع التعليمات للبدء بسهولة.

🎉 الإعلان

نحن متحمسون للإعلان عن إعادة تسمية علامتنا التجارية إلى OpenAudio — تقديم سلسلة جديدة ثورية من نماذج تحويل النص إلى كلام المتقدمة التي تبني على أساس Fish-Speech.

نحن فخورون بإطلاق OpenAudio-S1 كأول نموذج في هذه السلسلة، يقدم تحسينات كبيرة في الجودة والأداء والقدرات.

يأتي OpenAudio-S1 في إصدارين: OpenAudio-S1 و OpenAudio-S1-mini. كلا النموذجين متاحان الآن على Fish Audio Playground (لـ OpenAudio-S1) و Hugging Face (لـ OpenAudio-S1-mini).

قم بزيارة موقع OpenAudio للمدونة والتقرير التقني.

النقاط البارزة ✨

جودة TTS ممتازة

نستخدم مقاييس تقييم Seed TTS لتقييم أداء النموذج، وتظهر النتائج أن OpenAudio S1 يحقق 0.008 WER و 0.004 CER على النص الإنجليزي، وهو أفضل بكثير من النماذج السابقة. (الإنجليزية، التقييم التلقائي، بناءً على OpenAI gpt-4o-transcribe، مسافة المتحدث باستخدام Revai/pyannote-wespeaker-voxceleb-resnet34-LM)

النموذج	معدل خطأ الكلمات (WER)	معدل خطأ الأحرف (CER)	مسافة المتحدث
S1	0.008	0.004	0.332
S1-mini	0.011	0.005	0.380

أفضل نموذج في TTS-Arena2 🏆

حقق OpenAudio S1 المرتبة الأولى في TTS-Arena2، المعيار لتقييم تحويل النص إلى كلام:

التحكم في الكلام

يدعم OpenAudio S1 مجموعة متنوعة من العلامات العاطفية والنبرة والخاصة لتعزيز تركيب الكلام:

المشاعر الأساسية:

(غاضب) (حزين) (متحمس) (مندهش) (راضي) (مسرور) 
(خائف) (قلق) (منزعج) (عصبي) (محبط) (مكتئب)
(متعاطف) (محرج) (مشمئز) (متأثر) (فخور) (مسترخي)
(ممتن) (واثق) (مهتم) (فضولي) (مرتبك) (مبتهج)

المشاعر المتقدمة:

(محتقر) (غير سعيد) (قلق) (هستيري) (غير مبال) 
(نافد الصبر) (مذنب) (ازدرائي) (مذعور) (غاضب) (مترد)
(متحمس) (غير موافق) (سلبي) (منكر) (مندهش) (جدي)
(ساخر) (مصالح) (مواسي) (صادق) (ساخر)
(متردد) (مستسلم) (مؤلم) (محرج) (مسلي)

علامات النبرة:

(بنبرة مستعجلة) (صراخ) (صراخ) (همس) (نبرة ناعمة)

تأثيرات صوتية خاصة:

(ضحك) (قهقهة) (نشيج) (بكاء بصوت عالٍ) (تنهد) (لهاث)
(أنين) (ضحك الجمهور) (ضحك الخلفية) (ضحك الجمهور)

يمكنك أيضًا استخدام ها،ها،ها للتحكم، هناك العديد من الحالات الأخرى في انتظار استكشافك بنفسك.

(الدعم للإنجليزية والصينية واليابانية الآن، والمزيد من اللغات قادم قريبًا!)

نوعان من النماذج

النموذج	الحجم	التوفر	الميزات
S1	4 مليار معامل	متاح على fish.audio	النموذج الرئيسي كامل الميزات
S1-mini	0.5 مليار معامل	متاح على Hugging Face hf space	إصدار مقطر بالقدرات الأساسية

كل من S1 و S1-mini يدمجان التعلم المعزز عبر الإنترنت من ردود الفعل البشرية (RLHF).

الميزات

TTS بدون عينات وبعينات قليلة: أدخل عينة صوتية من 10 إلى 30 ثانية لإنتاج مخرجات TTS عالية الجودة. للإرشادات التفصيلية، راجع أفضل ممارسات استنساخ الصوت.
الدعم متعدد اللغات وعبر اللغات: ببساطة انسخ والصق النص متعدد اللغات في مربع الإدخال—لا حاجة للقلق بشأن اللغة. يدعم حاليًا الإنجليزية واليابانية والكورية والصينية والفرنسية والألمانية والعربية والإسبانية.
لا يعتمد على الصوتيات: النموذج لديه قدرات تعميم قوية ولا يعتمد على الصوتيات لـ TTS. يمكنه التعامل مع النص في أي نص لغوي.
دقيق للغاية: يحقق معدل خطأ أحرف منخفض (CER) حوالي 0.4% ومعدل خطأ كلمات (WER) حوالي 0.8% لـ Seed-TTS Eval.
سريع: مع تسريع fish-tech، عامل الوقت الحقيقي حوالي 1:5 على كمبيوتر محمول Nvidia RTX 4060 و 1:15 على Nvidia RTX 4090.
استنتاج WebUI: يتميز بواجهة ويب سهلة الاستخدام قائمة على Gradio متوافقة مع Chrome وFirefox وEdge والمتصفحات الأخرى.
استنتاج GUI: يوفر واجهة رسومية PyQt6 تعمل بسلاسة مع خادم API. يدعم Linux وWindows وmacOS. راجع GUI.
صديق للنشر: قم بإعداد خادم استنتاج بسهولة مع دعم أصلي لـ Linux وWindows (MacOS قادم قريبًا)، مما يقلل من فقدان السرعة.

الوسائط والعروض التوضيحية

### **وسائل التواصل الاجتماعي**

### **العروض التوضيحية التفاعلية**

### **عروض الفيديو**

### **عينات الصوت**

ستتوفر عينات صوتية عالية الجودة قريبًا، تُظهر قدراتنا في TTS متعدد اللغات عبر لغات ومشاعر مختلفة.

الوثائق

الاعتمادات

التقرير التقني (V1.4)

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}

README.ar.md