Leng Yue daa9b4f31c S2 beta (#1164)		hai 1 mes
..
ar	daa9b4f31c S2 beta (#1164)	hai 1 mes
assets	daa9b4f31c S2 beta (#1164)	hai 1 mes
en	daa9b4f31c S2 beta (#1164)	hai 1 mes
ja	daa9b4f31c S2 beta (#1164)	hai 1 mes
ko	daa9b4f31c S2 beta (#1164)	hai 1 mes
pt	daa9b4f31c S2 beta (#1164)	hai 1 mes
stylesheets	c0585bff0f Optimize docs	%!s(int64=2) %!d(string=hai) anos
zh	daa9b4f31c S2 beta (#1164)	hai 1 mes
CNAME	6d57066e52 Update pre-commit hook	%!s(int64=2) %!d(string=hai) anos
README.ar.md	daa9b4f31c S2 beta (#1164)	hai 1 mes
README.ja.md	daa9b4f31c S2 beta (#1164)	hai 1 mes
README.ko.md	daa9b4f31c S2 beta (#1164)	hai 1 mes
README.pt-BR.md	daa9b4f31c S2 beta (#1164)	hai 1 mes
README.zh.md	daa9b4f31c S2 beta (#1164)	hai 1 mes
requirements.txt	c0585bff0f Optimize docs	%!s(int64=2) %!d(string=hai) anos

Fish Speech

[!IMPORTANT] إشعار الترخيص يتم إصدار هذا المشروع وأوزان النماذج المرتبطة به بموجب رخصة FISH AUDIO RESEARCH LICENSE. يرجى الرجوع إلى LICENSE لمزيد من التفاصيل.

[!WARNING] إخلاء المسؤولية القانونية نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لهذا المشروع. يرجى الرجوع إلى القوانين المحلية المتعلقة بحقوق الطبع والنشر الرقمية (DMCA) والقوانين الأخرى ذات الصلة.

ابدأ من هنا

هذه الوثائق الرسمية لـ Fish Speech، اتبع التعليمات للبدء بسهولة.

Fish Audio S2

أفضل نظام لتحويل النص إلى كلام بين الأنظمة مفتوحة المصدر ومغلقة المصدر

Fish Audio S2 هو أحدث نموذج طورته Fish Audio، صُمم لإنتاج كلام يبدو طبيعياً وواقعياً وغنياً بالعواطف — ليس آلياً، ولا مسطحاً، ولا يقتصر على أسلوب السرد في الاستوديوهات.

يركز Fish Audio S2 على المحادثات والحوارات اليومية، مما يتيح توليد أصوات لمتحدثين متعددين وجلسات حوارية متعددة الأدوار بشكل أصلي. كما يدعم التحكم عبر التعليمات.

تحتوي سلسلة S2 على نماذج متعددة، النموذج مفتوح المصدر هو S2-Pro، وهو الأفضل في المجموعة.

تفضل بزيارة موقع Fish Audio لتجربة مباشرة.

إصدارات النموذج

النموذج	الحجم	التوفر	الوصف
S2-Pro	4B معايير	huggingface	نموذج رائد كامل الميزات بأعلى جودة واستقرار
S2-Flash	- - - -	fish.audio	نموذجنا مغلق المصدر بسرعة أكبر وتأخير أقل

يمكن العثور على مزيد من التفاصيل حول النموذج في التقرير التقني.

أبرز المميزات

تحكم مضمّن دقيق عبر اللغة الطبيعية

يتيح Fish Audio S2 تحكمًا موضعيًا في توليد الكلام من خلال تضمين تعليمات باللغة الطبيعية مباشرة عند مواقع كلمات أو عبارات محددة داخل النص. وبدلًا من الاعتماد على مجموعة ثابتة من الوسوم المُعرّفة مسبقًا، يقبل S2 أوصافًا نصية حرة مثل [whisper in small voice] أو [professional broadcast tone] أو [pitch up]، مما يتيح تحكمًا مفتوحًا في التعبير على مستوى الكلمة.

دعم لغات متعددة

يدعم Fish Audio S2 تحويل النص إلى كلام بجودة عالية ولغات متعددة دون الحاجة إلى رموز صوتية أو معالجة مسبقة خاصة بكل لغة. بما في ذلك:

الإنجليزية، الصينية، اليابانية، الكورية، العربية، الألمانية، الفرنسية...

وأكثر من ذلك بكثير!

القائمة في توسع مستمر، تحقق من Fish Audio لمعرفة أحدث الإصدارات.

توليد أصلي لمتحدثين متعددين

يسمح Fish Audio S2 للمستخدمين برفع صوت مرجعي يحتوي على متحدثين متعددين، وسيتعامل النموذج مع ميزات كل متحدث عبر رمز <|speaker:i|>. يمكنك بعد ذلك التحكم في أداء النموذج باستخدام رمز معرف المتحدث، مما يسمح بتوليد واحد يتضمن متحدثين متعددين. لم تعد بحاجة لرفع ملفات مرجعية منفصلة لكل متحدث.

توليد حوارات متعددة الأدوار

بفضل توسيع سياق النموذج، يمكن لنموذجنا الآن استخدام المعلومات السابقة لتحسين التعبير في المحتوى المولد لاحقاً، مما يزيد من طبيعية المحتوى.

استنساخ صوت سريع

يدعم Fish Audio S2 استنساخ الصوت بدقة باستخدام عينة مرجعية قصيرة (عادةً 10-30 ثانية). يلتقط النموذج نبرة الصوت، وأسلوب التحدث، والميول العاطفية، مما ينتج أصواتاً مستنسخة واقعية ومتسقة دون الحاجة إلى ضبط دقيق إضافي.

شكر وتقدير

التقرير التقني

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}

README.ar.md