helena d3df50503b Docs/readme (#1140)		6 месяцев назад
..
ar	781bf1cd7a Finetune support of OpenAudio-S1 (#1115)	8 месяцев назад
assets	d3df50503b Docs/readme (#1140)	6 месяцев назад
en	781bf1cd7a Finetune support of OpenAudio-S1 (#1115)	8 месяцев назад
ja	781bf1cd7a Finetune support of OpenAudio-S1 (#1115)	8 месяцев назад
ko	781bf1cd7a Finetune support of OpenAudio-S1 (#1115)	8 месяцев назад
pt	781bf1cd7a Finetune support of OpenAudio-S1 (#1115)	8 месяцев назад
stylesheets	c0585bff0f Optimize docs	2 лет назад
zh	781bf1cd7a Finetune support of OpenAudio-S1 (#1115)	8 месяцев назад
CNAME	6d57066e52 Update pre-commit hook	2 лет назад
README.ar.md	d3df50503b Docs/readme (#1140)	6 месяцев назад
README.ja.md	d3df50503b Docs/readme (#1140)	6 месяцев назад
README.ko.md	d3df50503b Docs/readme (#1140)	6 месяцев назад
README.pt-BR.md	d3df50503b Docs/readme (#1140)	6 месяцев назад
README.zh.md	d3df50503b Docs/readme (#1140)	6 месяцев назад
requirements.txt	c0585bff0f Optimize docs	2 лет назад

Fish Speech

[!IMPORTANT] إشعار الترخيص تم إصدار قاعدة الكود هذه بموجب ترخيص Apache وتم إصدار جميع أوزان النموذج بموجب ترخيص CC-BY-NC-SA-4.0. يرجى الرجوع إلى LICENSE لمزيد من التفاصيل.

[!WARNING] إخلاء المسؤولية القانوني نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الكود. يرجى الرجوع إلى القوانين المحلية الخاصة بك فيما يتعلق بقانون الألفية الجديدة لحقوق طبع ونشر المواد الرقمية والقوانين الأخرى ذات الصلة.

FishAudio-S1

تحويل النص إلى كلام واستنساخ الصوت بجودة تحاكي الإنسان

FishAudio-S1 هو نموذج معبر لتحويل النص إلى كلام (TTS) واستنساخ الصوت طورته Fish Audio، مصمم لتوليد كلام يبدو طبيعيًا وواقعيًا وغنيًا عاطفيًا — ليس آليًا، وليس مسطحًا، وغير مقيد بأسلوب السرد الاستوديو.

يركز FishAudio-S1 على كيفية تحدث البشر فعليًا: بعاطفة وتنوع وتوقفات ونية.

إعلان 🎉

يسعدنا أن نعلن أننا قمنا بإعادة تسمية العلامة التجارية إلى Fish Audio — تقديم سلسلة جديدة ثورية من نماذج تحويل النص إلى كلام المتقدمة التي تبني على أساس Fish-Speech.

نحن فخورون بإصدار FishAudio-S1 (المعروف أيضًا باسم OpenAudio S1) كنموذج أول في هذه السلسلة، حيث يوفر تحسينات كبيرة في الجودة والأداء والقدرات.

يأتي FishAudio-S1 في نسختين: FishAudio-S1 و FishAudio-S1-mini. كلا النموذجين متاحان الآن على Fish Audio Playground (لـ FishAudio-S1) و Hugging Face (لـ FishAudio-S1-mini).

قم بزيارة موقع Fish Audio للـ playground المباشر والتقرير التقني.

متغيرات النموذج

النموذج	الحجم	التوفر	الوصف
FishAudio-S1	4B معامل	fish.audio	النموذج الرئيسي كامل الميزات مع أقصى جودة واستقرار
FishAudio-S1-mini	0.5B معامل	huggingface	نموذج مقطر مفتوح المصدر بالقدرات الأساسية

كلا النموذجين S1 و S1-mini يتضمنان التعلم المعزز من التغذية الراجعة البشرية (RLHF) عبر الإنترنت.

ابدأ هنا

فيما يلي المستندات الرسمية لـ Fish Speech، اتبع التعليمات للبدء بسهولة.

أبرز المميزات

جودة TTS ممتازة

نستخدم مقاييس تقييم Seed TTS لتقييم أداء النموذج، وتظهر النتائج أن FishAudio S1 يحقق 0.008 WER و 0.004 CER على النص الإنجليزي، وهو أفضل بشكل ملحوظ من النماذج السابقة. (الإنجليزية، التقييم التلقائي، بناءً على OpenAI gpt-4o-transcribe، مسافة المتحدث باستخدام Revai/pyannote-wespeaker-voxceleb-resnet34-LM)

النموذج	معدل الخطأ في الكلمات (WER)	معدل الخطأ في الأحرف (CER)	مسافة المتحدث
S1	0.008	0.004	0.332
S1-mini	0.011	0.005	0.380

أفضل نموذج في TTS-Arena2 🏆

حقق FishAudio S1 المركز الأول على TTS-Arena2، المعيار لتقييم تحويل النص إلى كلام:

كلام يشبه الإنسان حقًا

يولد FishAudio-S1 كلامًا يبدو طبيعيًا ومحادثيًا بدلاً من الآلي أو المصقول بشكل مفرط. يلتقط النموذج التنوعات الدقيقة في التوقيت والتأكيد والنبرة، متجنبًا تأثير "التسجيل الاستوديو" الشائع في أنظمة TTS التقليدية.

التحكم في العواطف والتعبيرية

FishAudio S1 هو أول نموذج TTS يدعم التحكم الدقيق في العواطف في المجال المفتوح من خلال علامات العاطفة والنبرة الصريحة. يمكننا الآن توجيه كيفية صوت الصوت بدقة:

العواطف الأساسية:

(غاضب) (حزين) (متحمس) (مندهش) (راضي) (مسرور)
(خائف) (قلق) (منزعج) (متوتر) (محبط) (مكتئب)
(متعاطف) (محرج) (مشمئز) (متحرك) (فخور) (مرتاح)
(ممتن) (واثق) (مهتم) (فضولي) (مرتبك) (مبتهج)

العواطف المتقدمة:

(محتقر) (غير سعيد) (قلق) (هستيري) (غير مبال)
(غير صبور) (مذنب) (ساخر) (ذعر) (غاضب) (متردد)
(متحمس) (غير موافق) (سلبي) (نافي) (مندهش) (جاد)
(ساخر) (مصالح) (مريح) (صادق) (ساخر)
(متردد) (مستسلم) (مؤلم) (محرج) (مسلي)

علامات النبرة:

(بنبرة مستعجلة) (يصرخ) (يصرخ) (يهمهم) (بنبرة ناعمة)

تأثيرات صوتية خاصة:

(يضحك) (يقهقه) (ينتحب) (يبكي بصوت عال) (يتنهد) (يلهث)
(يئن) (ضحك الجمهور) (ضحك في الخلفية) (ضحك الجمهور)

يمكنك أيضًا استخدام Ha,ha,ha للتحكم، وهناك العديد من الحالات الأخرى التي تنتظر استكشافها بنفسك.

دعم متعدد اللغات

يدعم FishAudio-S1 تحويل النص إلى كلام متعدد اللغات عالي الجودة دون الحاجة إلى الفونيمات أو المعالجة المسبقة الخاصة باللغة.

اللغات التي تدعم علامات العاطفة تشمل: الإنجليزية، الصينية، اليابانية، الألمانية، الفرنسية، الإسبانية، الكورية، العربية، الروسية، الهولندية، الإيطالية، البولندية، والبرتغالية.

القائمة في توسع مستمر، تحقق من Fish Audio لأحدث الإصدارات.

استنساخ الصوت السريع

يدعم FishAudio-S1 استنساخ الصوت الدقيق باستخدام عينة مرجعية قصيرة (عادة 10-30 ثانية). يلتقط النموذج الجرس وأسلوب الكلام والميول العاطفية، مما ينتج أصواتًا مستنسخة واقعية ومتسقة دون ضبط دقيق إضافي.

الميزات

TTS بدون عينات وقليل العينات: أدخل عينة صوتية مدتها 10 إلى 30 ثانية لتوليد مخرجات TTS عالية الجودة. للحصول على إرشادات مفصلة، راجع أفضل ممارسات استنساخ الصوت.
الدعم متعدد اللغات وعبر اللغات: ما عليك سوى نسخ ولصق النص متعدد اللغات في مربع الإدخال — لا داعي للقلق بشأن اللغة. يدعم حاليًا الإنجليزية واليابانية والكورية والصينية والفرنسية والألمانية والعربية والإسبانية.
لا يعتمد على الفونيمات: يتمتع النموذج بقدرات تعميم قوية ولا يعتمد على الفونيمات لـ TTS. يمكنه التعامل مع النص بأي لغة نصية.
دقيق للغاية: يحقق معدل خطأ في الأحرف (CER) حوالي 0.4٪ ومعدل خطأ في الكلمات (WER) حوالي 0.8٪ لـ Seed-TTS Eval.
سريع: مع التسريع بواسطة torch compile، فإن عامل الوقت الحقيقي هو حوالي 1:7 على بطاقة Nvidia RTX 4090 GPU.
استدلال WebUI: يتميز بواجهة ويب سهلة الاستخدام تعتمد على Gradio متوافقة مع Chrome و Firefox و Edge والمتصفحات الأخرى.
سهولة النشر: يمكنك إعداد خادم استدلال بسهولة مع دعم أصلي لأنظمة Linux و Windows (دعم macOS قريبًا)، مما يقلل من فقدان الأداء.

وسائل الإعلام والعروض التوضيحية

### **وسائل التواصل الاجتماعي**

### **العروض التوضيحية التفاعلية**

### **عروض الفيديو**

الاعتمادات

التقرير التقني (V1.4)

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}

README.ar.md