Fish Speech

!!! info "تنبيه الترخيص"

يتم إصدار قاعدة الأكواد هذه وأوزان النماذج المرتبطة بها بموجب رخصة **FISH AUDIO RESEARCH LICENSE**. يرجى الرجوع إلى [LICENSE](https://github.com/fishaudio/fish-speech/blob/main/LICENSE) لمزيد من التفاصيل.

!!! warning "إخلاء المسؤولية القانونية"

نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الأكواد. يرجى مراجعة القوانين المحلية المتعلقة بـ DMCA والقوانين الأخرى ذات الصلة.

ابدأ من هنا

هذا هو الوثائق الرسمية لـ Fish Speech. يرجى اتباع التعليمات للبدء بسهولة.

Fish Audio S2

أفضل نظام لتحويل النص إلى كلام في كل من المصادر المفتوحة والمغلقة

Fish Audio S2 هو أحدث نموذج تم تطويره بواسطة Fish Audio، وهو مصمم لتوليد كلام يبدو طبيعيًا وأصليًا وغنيًا بالعاطفة — غير ميكانيكي أو مسطح أو مقتصر على القراءة بأسلوب الاستوديو.

يركز Fish Audio S2 على المحادثات اليومية، ويدعم توليد المتحدثين المتعددين الأصليين وتوليد الحوارات متعددة الأدوار. كما يدعم التحكم التعليمي.

تتضمن سلسلة S2 نماذج متعددة. النموذج المفتوح المصدر هو S2-Pro، وهو أقوى نموذج في السلسلة.

يرجى زيارة موقع Fish Audio لتجربة فورية.

متغيرات النموذج

النموذج	الحجم	التوفر	الوصف
S2-Pro	4B معاملات	huggingface	نموذج رائد بكامل الميزات مع أعلى جودة واستقرار
S2-Flash	- - - -	fish.audio	نموذجنا المغلق المصدر بسرعات أعلى وزمن وصول أقل

لمزيد من التفاصيل حول النماذج ، يرجى مراجعة التقرير الفني.

أبرز المميزات

التحكم باللغة الطبيعية

يسمح Fish Audio S2 للمستخدمين باستخدام اللغة الطبيعية للتحكم في أداء كل جملة ، والمعلومات غير اللفظية ، والعواطف ، والمزيد من خصائص الصوت ، بدلاً من مجرد استخدام علامات قصيرة للتحكم بشكل غامض في أداء النموذج. يؤدي ذلك إلى تحسين الجودة الإجمالية للمحتوى المولّد بشكل كبير.

دعم لغات متعددة

يدعم Fish Audio S2 تحويل النص إلى كلام متعدد اللغات بجودة عالية دون الحاجة إلى وحدات صوتية أو معالجة مسبقة خاصة باللغة. يشمل ذلك:

الإنجليزية ، الصينية ، اليابانية ، الكورية ، العربية ، الألمانية ، الفرنسية ...

والمزيد في المستقبل!

القائمة تتوسع باستمرار ، يرجى التحقق من Fish Audio للحصول على أحدث الإصدارات.

توليد المتحدثين المتعددين الأصليين

يسمح Fish Audio S2 للمستخدمين بتحميل عينات صوتية مرجعية تحتوي على متحدثين متعددين ، وسيقوم النموذج بمعالجة خصائص كل متحدث من خلال رمز <|speaker:i|>. بعد ذلك ، يمكنك التحكم في أداء النموذج عبر رموز معرف المتحدث ، مما يحقق تعدد المتحدثين في عملية توليد واحدة. لا داعي بعد الآن لتحميل أصوات مرجعية وتوليد كلام لكل متحدث على حدة.

توليد الحوارات متعددة الأدوار

بفضل توسيع سياق النموذج ، يمكن لنموذجنا الآن استخدام معلومات السياق السابق لتحسين التعبير عن المحتوى المولّد لاحقًا ، وبالتالي زيادة طبيعية المحتوى.

استنساخ الصوت السريع

يدعم Fish Audio S2 استنساخ الصوت الدقيق باستخدام عينات مرجعية قصيرة (عادة 10-30 ثانية). يمكن للنموذج التقاط نبرة الصوت وأسلوب التحدث والميل العاطفي ، وتوليد أصوات مستنسخة واقعية ومتسقة دون ضبط دقيق إضافي.

شكر وتقدير

التقرير الفني

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}

index.md 8.0 KB Geçmiş Ham