|
|
3 месяцев назад | |
|---|---|---|
| .. | ||
| ar | 5 месяцев назад | |
| assets | 3 месяцев назад | |
| en | 5 месяцев назад | |
| ja | 5 месяцев назад | |
| ko | 5 месяцев назад | |
| pt | 5 месяцев назад | |
| stylesheets | 2 лет назад | |
| zh | 5 месяцев назад | |
| CNAME | 2 лет назад | |
| README.ar.md | 3 месяцев назад | |
| README.ja.md | 3 месяцев назад | |
| README.ko.md | 3 месяцев назад | |
| README.pt-BR.md | 3 месяцев назад | |
| README.zh.md | 3 месяцев назад | |
| requirements.txt | 2 лет назад | |
[!IMPORTANT] إشعار الترخيص تم إصدار قاعدة الكود هذه بموجب ترخيص Apache وتم إصدار جميع أوزان النموذج بموجب ترخيص CC-BY-NC-SA-4.0. يرجى الرجوع إلى LICENSE لمزيد من التفاصيل.
[!WARNING] إخلاء المسؤولية القانوني نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الكود. يرجى الرجوع إلى القوانين المحلية الخاصة بك فيما يتعلق بقانون الألفية الجديدة لحقوق طبع ونشر المواد الرقمية والقوانين الأخرى ذات الصلة.
تحويل النص إلى كلام واستنساخ الصوت بجودة تحاكي الإنسان
FishAudio-S1 هو نموذج معبر لتحويل النص إلى كلام (TTS) واستنساخ الصوت طورته Fish Audio، مصمم لتوليد كلام يبدو طبيعيًا وواقعيًا وغنيًا عاطفيًا — ليس آليًا، وليس مسطحًا، وغير مقيد بأسلوب السرد الاستوديو.
يركز FishAudio-S1 على كيفية تحدث البشر فعليًا: بعاطفة وتنوع وتوقفات ونية.
يسعدنا أن نعلن أننا قمنا بإعادة تسمية العلامة التجارية إلى Fish Audio — تقديم سلسلة جديدة ثورية من نماذج تحويل النص إلى كلام المتقدمة التي تبني على أساس Fish-Speech.
نحن فخورون بإصدار FishAudio-S1 (المعروف أيضًا باسم OpenAudio S1) كنموذج أول في هذه السلسلة، حيث يوفر تحسينات كبيرة في الجودة والأداء والقدرات.
يأتي FishAudio-S1 في نسختين: FishAudio-S1 و FishAudio-S1-mini. كلا النموذجين متاحان الآن على Fish Audio Playground (لـ FishAudio-S1) و Hugging Face (لـ FishAudio-S1-mini).
قم بزيارة موقع Fish Audio للـ playground المباشر والتقرير التقني.
| النموذج | الحجم | التوفر | الوصف |
|---|---|---|---|
| FishAudio-S1 | 4B معامل | fish.audio | النموذج الرئيسي كامل الميزات مع أقصى جودة واستقرار |
| FishAudio-S1-mini | 0.5B معامل | huggingface | نموذج مقطر مفتوح المصدر بالقدرات الأساسية |
كلا النموذجين S1 و S1-mini يتضمنان التعلم المعزز من التغذية الراجعة البشرية (RLHF) عبر الإنترنت.
فيما يلي المستندات الرسمية لـ Fish Speech، اتبع التعليمات للبدء بسهولة.
نستخدم مقاييس تقييم Seed TTS لتقييم أداء النموذج، وتظهر النتائج أن FishAudio S1 يحقق 0.008 WER و 0.004 CER على النص الإنجليزي، وهو أفضل بشكل ملحوظ من النماذج السابقة. (الإنجليزية، التقييم التلقائي، بناءً على OpenAI gpt-4o-transcribe، مسافة المتحدث باستخدام Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
| النموذج | معدل الخطأ في الكلمات (WER) | معدل الخطأ في الأحرف (CER) | مسافة المتحدث |
|---|---|---|---|
| S1 | 0.008 | 0.004 | 0.332 |
| S1-mini | 0.011 | 0.005 | 0.380 |
حقق FishAudio S1 المركز الأول على TTS-Arena2، المعيار لتقييم تحويل النص إلى كلام:
يولد FishAudio-S1 كلامًا يبدو طبيعيًا ومحادثيًا بدلاً من الآلي أو المصقول بشكل مفرط. يلتقط النموذج التنوعات الدقيقة في التوقيت والتأكيد والنبرة، متجنبًا تأثير "التسجيل الاستوديو" الشائع في أنظمة TTS التقليدية.
FishAudio S1 هو أول نموذج TTS يدعم التحكم الدقيق في العواطف في المجال المفتوح من خلال علامات العاطفة والنبرة الصريحة. يمكننا الآن توجيه كيفية صوت الصوت بدقة:
العواطف الأساسية:
(غاضب) (حزين) (متحمس) (مندهش) (راضي) (مسرور)
(خائف) (قلق) (منزعج) (متوتر) (محبط) (مكتئب)
(متعاطف) (محرج) (مشمئز) (متحرك) (فخور) (مرتاح)
(ممتن) (واثق) (مهتم) (فضولي) (مرتبك) (مبتهج)
العواطف المتقدمة:
(محتقر) (غير سعيد) (قلق) (هستيري) (غير مبال)
(غير صبور) (مذنب) (ساخر) (ذعر) (غاضب) (متردد)
(متحمس) (غير موافق) (سلبي) (نافي) (مندهش) (جاد)
(ساخر) (مصالح) (مريح) (صادق) (ساخر)
(متردد) (مستسلم) (مؤلم) (محرج) (مسلي)
علامات النبرة:
(بنبرة مستعجلة) (يصرخ) (يصرخ) (يهمهم) (بنبرة ناعمة)
تأثيرات صوتية خاصة:
(يضحك) (يقهقه) (ينتحب) (يبكي بصوت عال) (يتنهد) (يلهث)
(يئن) (ضحك الجمهور) (ضحك في الخلفية) (ضحك الجمهور)
يمكنك أيضًا استخدام Ha,ha,ha للتحكم، وهناك العديد من الحالات الأخرى التي تنتظر استكشافها بنفسك.
يدعم FishAudio-S1 تحويل النص إلى كلام متعدد اللغات عالي الجودة دون الحاجة إلى الفونيمات أو المعالجة المسبقة الخاصة باللغة.
اللغات التي تدعم علامات العاطفة تشمل: الإنجليزية، الصينية، اليابانية، الألمانية، الفرنسية، الإسبانية، الكورية، العربية، الروسية، الهولندية، الإيطالية، البولندية، والبرتغالية.
القائمة في توسع مستمر، تحقق من Fish Audio لأحدث الإصدارات.
يدعم FishAudio-S1 استنساخ الصوت الدقيق باستخدام عينة مرجعية قصيرة (عادة 10-30 ثانية). يلتقط النموذج الجرس وأسلوب الكلام والميول العاطفية، مما ينتج أصواتًا مستنسخة واقعية ومتسقة دون ضبط دقيق إضافي.
TTS بدون عينات وقليل العينات: أدخل عينة صوتية مدتها 10 إلى 30 ثانية لتوليد مخرجات TTS عالية الجودة. للحصول على إرشادات مفصلة، راجع أفضل ممارسات استنساخ الصوت.
الدعم متعدد اللغات وعبر اللغات: ما عليك سوى نسخ ولصق النص متعدد اللغات في مربع الإدخال — لا داعي للقلق بشأن اللغة. يدعم حاليًا الإنجليزية واليابانية والكورية والصينية والفرنسية والألمانية والعربية والإسبانية.
لا يعتمد على الفونيمات: يتمتع النموذج بقدرات تعميم قوية ولا يعتمد على الفونيمات لـ TTS. يمكنه التعامل مع النص بأي لغة نصية.
دقيق للغاية: يحقق معدل خطأ في الأحرف (CER) حوالي 0.4٪ ومعدل خطأ في الكلمات (WER) حوالي 0.8٪ لـ Seed-TTS Eval.
سريع: مع التسريع بواسطة torch compile، فإن عامل الوقت الحقيقي هو حوالي 1:7 على بطاقة Nvidia RTX 4090 GPU.
استدلال WebUI: يتميز بواجهة ويب سهلة الاستخدام تعتمد على Gradio متوافقة مع Chrome و Firefox و Edge والمتصفحات الأخرى.
سهولة النشر: يمكنك إعداد خادم استدلال بسهولة مع دعم أصلي لأنظمة Linux و Windows (دعم macOS قريبًا)، مما يقلل من فقدان الأداء.
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}