Whale and Dolphin 02d4adcb1d [fix]: fix docker push problem (#1121)		5 месяцев назад
..
ar	781bf1cd7a Finetune support of OpenAudio-S1 (#1115)	5 месяцев назад
assets	9efa2087bd Update README.md for OpenAudio-S1 (#998)	10 месяцев назад
en	781bf1cd7a Finetune support of OpenAudio-S1 (#1115)	5 месяцев назад
ja	781bf1cd7a Finetune support of OpenAudio-S1 (#1115)	5 месяцев назад
ko	781bf1cd7a Finetune support of OpenAudio-S1 (#1115)	5 месяцев назад
pt	781bf1cd7a Finetune support of OpenAudio-S1 (#1115)	5 месяцев назад
stylesheets	c0585bff0f Optimize docs	2 лет назад
zh	781bf1cd7a Finetune support of OpenAudio-S1 (#1115)	5 месяцев назад
CNAME	6d57066e52 Update pre-commit hook	2 лет назад
README.ar.md	02d4adcb1d [fix]: fix docker push problem (#1121)	5 месяцев назад
README.ja.md	02d4adcb1d [fix]: fix docker push problem (#1121)	5 месяцев назад
README.ko.md	02d4adcb1d [fix]: fix docker push problem (#1121)	5 месяцев назад
README.pt-BR.md	02d4adcb1d [fix]: fix docker push problem (#1121)	5 месяцев назад
README.zh.md	02d4adcb1d [fix]: fix docker push problem (#1121)	5 месяцев назад
requirements.txt	c0585bff0f Optimize docs	2 лет назад

Fish Speech

[!IMPORTANT] إشعار الترخيص
تم إصدار قاعدة الكود هذه بموجب ترخيص Apache وتم إصدار جميع أوزان النموذج بموجب ترخيص CC-BY-NC-SA-4.0. يرجى الرجوع إلى LICENSE لمزيد من التفاصيل.

[!WARNING] إخلاء المسؤولية القانوني
نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الكود. يرجى الرجوع إلى القوانين المحلية الخاصة بك فيما يتعلق بقانون الألفية الجديدة لحقوق طبع ونشر المواد الرقمية والقوانين الأخرى ذات الصلة.

ابدأ هنا

فيما يلي المستندات الرسمية لـ Fish Speech، اتبع التعليمات للبدء بسهولة.

🎉 إعلان

يسعدنا أن نعلن أننا قمنا بإعادة تسمية العلامة التجارية إلى OpenAudio — تقديم سلسلة جديدة ثورية من نماذج تحويل النص إلى كلام المتقدمة التي تبني على أساس Fish-Speech.

نحن فخورون بإصدار OpenAudio-S1 كنموذج أول في هذه السلسلة، حيث يوفر تحسينات كبيرة في الجودة والأداء والقدرات.

يأتي OpenAudio-S1 في نسختين: OpenAudio-S1 و OpenAudio-S1-mini. كلا النموذجين متاحان الآن على Fish Audio Playground (لـ OpenAudio-S1) و Hugging Face (لـ OpenAudio-S1-mini).

قم بزيارة موقع OpenAudio للمدونة والتقرير التقني.

أبرز المميزات ✨

جودة TTS ممتازة

نستخدم مقاييس تقييم Seed TTS لتقييم أداء النموذج، وتظهر النتائج أن OpenAudio S1 يحقق 0.008 WER و 0.004 CER على النص الإنجليزي، وهو أفضل بشكل ملحوظ من النماذج السابقة. (الإنجليزية، التقييم التلقائي، بناءً على OpenAI gpt-4o-transcribe، مسافة المتحدث باستخدام Revai/pyannote-wespeaker-voxceleb-resnet34-LM)

النموذج	معدل الخطأ في الكلمات (WER)	معدل الخطأ في الأحرف (CER)	مسافة المتحدث
S1	0.008	0.004	0.332
S1-mini	0.011	0.005	0.380

أفضل نموذج في TTS-Arena2 🏆

حقق OpenAudio S1 المركز الأول على TTS-Arena2، المعيار لتقييم تحويل النص إلى كلام:

التحكم في الكلام

يدعم OpenAudio S1 مجموعة متنوعة من العلامات العاطفية والنبرة والعلامات الخاصة لتعزيز تخليق الكلام:

العواطف الأساسية:

(غاضب) (حزين) (متحمس) (مندهش) (راضي) (مسرور) 
(خائف) (قلق) (منزعج) (متوتر) (محبط) (مكتئب)
(متعاطف) (محرج) (مشمئز) (متحرك) (فخور) (مرتاح)
(ممتن) (واثق) (مهتم) (فضولي) (مرتبك) (مبتهج)

العواطف المتقدمة:

(محتقر) (غير سعيد) (قلق) (هستيري) (غير مبال) 
(غير صبور) (مذنب) (ساخر) (ذعر) (غاضب) (متردد)
(متحمس) (غير موافق) (سلبي) (نافي) (مندهش) (جاد)
(ساخر) (مصالح) (مريح) (صادق) (ساخر)
(متردد) (مستسلم) (مؤلم) (محرج) (مسلي)

علامات النبرة:

(بنبرة مستعجلة) (يصرخ) (يصرخ) (يهمهم) (بنبرة ناعمة)

تأثيرات صوتية خاصة:

(يضحك) (يقهقه) (ينتحب) (يبكي بصوت عال) (يتنهد) (يلهث)
(يئن) (ضحك الجمهور) (ضحك في الخلفية) (ضحك الجمهور)

يمكنك أيضًا استخدام Ha,ha,ha للتحكم، وهناك العديد من الحالات الأخرى التي تنتظر استكشافها بنفسك.

(الدعم متاح للإنجليزية والصينية واليابانية الآن، والمزيد من اللغات قريبًا!)

نوعان من النماذج

النموذج	الحجم	التوفر	الميزات
S1	4B معامل	متوفر على fish.audio	النموذج الرئيسي كامل الميزات
S1-mini	0.5B معامل	متوفر على huggingface hf space	نسخة مقطرة بالقدرات الأساسية

كلا النموذجين S1 و S1-mini يتضمنان التعلم المعزز من التغذية الراجعة البشرية (RLHF) عبر الإنترنت.

الميزات

TTS بدون عينات وقليل العينات: أدخل عينة صوتية مدتها 10 إلى 30 ثانية لتوليد مخرجات TTS عالية الجودة. للحصول على إرشادات مفصلة، راجع أفضل ممارسات استنساخ الصوت.
الدعم متعدد اللغات وعبر اللغات: ما عليك سوى نسخ ولصق النص متعدد اللغات في مربع الإدخال — لا داعي للقلق بشأن اللغة. يدعم حاليًا الإنجليزية واليابانية والكورية والصينية والفرنسية والألمانية والعربية والإسبانية.
لا يعتمد على الفونيمات: يتمتع النموذج بقدرات تعميم قوية ولا يعتمد على الفونيمات لـ TTS. يمكنه التعامل مع النص بأي لغة نصية.
دقيق للغاية: يحقق معدل خطأ في الأحرف (CER) حوالي 0.4٪ ومعدل خطأ في الكلمات (WER) حوالي 0.8٪ لـ Seed-TTS Eval.
سريع: مع التسريع بواسطة torch compile، فإن عامل الوقت الحقيقي هو حوالي 1:7 على بطاقة Nvidia RTX 4090 GPU.
استدلال WebUI: يتميز بواجهة ويب سهلة الاستخدام تعتمد على Gradio متوافقة مع Chrome و Firefox و Edge والمتصفحات الأخرى.
سهولة النشر: يمكنك إعداد خادم استدلال بسهولة مع دعم أصلي لأنظمة Linux و Windows (دعم macOS قريبًا)، مما يقلل من فقدان الأداء.

وسائل الإعلام والعروض التوضيحية

### **وسائل التواصل الاجتماعي**

### **العروض التوضيحية التفاعلية**

### **عروض الفيديو**

الاعتمادات

التقرير التقني (V1.4)

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}

README.ar.md