|
|
6 maanden geleden | |
|---|---|---|
| .. | ||
| ar | 6 maanden geleden | |
| assets | 10 maanden geleden | |
| en | 6 maanden geleden | |
| ja | 6 maanden geleden | |
| ko | 6 maanden geleden | |
| pt | 6 maanden geleden | |
| stylesheets | 2 jaren geleden | |
| zh | 6 maanden geleden | |
| CNAME | 2 jaren geleden | |
| README.ar.md | 6 maanden geleden | |
| README.ja.md | 6 maanden geleden | |
| README.ko.md | 6 maanden geleden | |
| README.pt-BR.md | 6 maanden geleden | |
| README.zh.md | 6 maanden geleden | |
| requirements.txt | 2 jaren geleden | |
[!IMPORTANT] إشعار الترخيص
يتم إصدار قاعدة الكود هذه تحت رخصة Apache ويتم إصدار جميع أوزان النماذج تحت رخصة CC-BY-NC-SA-4.0. يرجى الرجوع إلى LICENSE لمزيد من التفاصيل.[!WARNING] إخلاء المسؤولية القانونية
نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الكود. يرجى الرجوع إلى القوانين المحلية حول DMCA والقوانين الأخرى ذات الصلة.
هنا هي الوثائق الرسمية لـ Fish Speech، اتبع التعليمات للبدء بسهولة.
نحن متحمسون للإعلان عن إعادة تسمية علامتنا التجارية إلى OpenAudio — تقديم سلسلة جديدة ثورية من نماذج تحويل النص إلى كلام المتقدمة التي تبني على أساس Fish-Speech.
نحن فخورون بإطلاق OpenAudio-S1 كأول نموذج في هذه السلسلة، يقدم تحسينات كبيرة في الجودة والأداء والقدرات.
يأتي OpenAudio-S1 في إصدارين: OpenAudio-S1 و OpenAudio-S1-mini. كلا النموذجين متاحان الآن على Fish Audio Playground (لـ OpenAudio-S1) و Hugging Face (لـ OpenAudio-S1-mini).
قم بزيارة موقع OpenAudio للمدونة والتقرير التقني.
نستخدم مقاييس تقييم Seed TTS لتقييم أداء النموذج، وتظهر النتائج أن OpenAudio S1 يحقق 0.008 WER و 0.004 CER على النص الإنجليزي، وهو أفضل بكثير من النماذج السابقة. (الإنجليزية، التقييم التلقائي، بناءً على OpenAI gpt-4o-transcribe، مسافة المتحدث باستخدام Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
| النموذج | معدل خطأ الكلمات (WER) | معدل خطأ الأحرف (CER) | مسافة المتحدث |
|---|---|---|---|
| S1 | 0.008 | 0.004 | 0.332 |
| S1-mini | 0.011 | 0.005 | 0.380 |
حقق OpenAudio S1 المرتبة الأولى في TTS-Arena2، المعيار لتقييم تحويل النص إلى كلام:
يدعم OpenAudio S1 مجموعة متنوعة من العلامات العاطفية والنبرة والخاصة لتعزيز تركيب الكلام:
المشاعر الأساسية:
(غاضب) (حزين) (متحمس) (مندهش) (راضي) (مسرور)
(خائف) (قلق) (منزعج) (عصبي) (محبط) (مكتئب)
(متعاطف) (محرج) (مشمئز) (متأثر) (فخور) (مسترخي)
(ممتن) (واثق) (مهتم) (فضولي) (مرتبك) (مبتهج)
المشاعر المتقدمة:
(محتقر) (غير سعيد) (قلق) (هستيري) (غير مبال)
(نافد الصبر) (مذنب) (ازدرائي) (مذعور) (غاضب) (مترد)
(متحمس) (غير موافق) (سلبي) (منكر) (مندهش) (جدي)
(ساخر) (مصالح) (مواسي) (صادق) (ساخر)
(متردد) (مستسلم) (مؤلم) (محرج) (مسلي)
علامات النبرة:
(بنبرة مستعجلة) (صراخ) (صراخ) (همس) (نبرة ناعمة)
تأثيرات صوتية خاصة:
(ضحك) (قهقهة) (نشيج) (بكاء بصوت عالٍ) (تنهد) (لهاث)
(أنين) (ضحك الجمهور) (ضحك الخلفية) (ضحك الجمهور)
يمكنك أيضًا استخدام ها،ها،ها للتحكم، هناك العديد من الحالات الأخرى في انتظار استكشافك بنفسك.
(الدعم للإنجليزية والصينية واليابانية الآن، والمزيد من اللغات قادم قريبًا!)
| النموذج | الحجم | التوفر | الميزات |
|---|---|---|---|
| S1 | 4 مليار معامل | متاح على fish.audio | النموذج الرئيسي كامل الميزات |
| S1-mini | 0.5 مليار معامل | متاح على Hugging Face hf space | إصدار مقطر بالقدرات الأساسية |
كل من S1 و S1-mini يدمجان التعلم المعزز عبر الإنترنت من ردود الفعل البشرية (RLHF).
TTS بدون عينات وبعينات قليلة: أدخل عينة صوتية من 10 إلى 30 ثانية لإنتاج مخرجات TTS عالية الجودة. للإرشادات التفصيلية، راجع أفضل ممارسات استنساخ الصوت.
الدعم متعدد اللغات وعبر اللغات: ببساطة انسخ والصق النص متعدد اللغات في مربع الإدخال—لا حاجة للقلق بشأن اللغة. يدعم حاليًا الإنجليزية واليابانية والكورية والصينية والفرنسية والألمانية والعربية والإسبانية.
لا يعتمد على الصوتيات: النموذج لديه قدرات تعميم قوية ولا يعتمد على الصوتيات لـ TTS. يمكنه التعامل مع النص في أي نص لغوي.
دقيق للغاية: يحقق معدل خطأ أحرف منخفض (CER) حوالي 0.4% ومعدل خطأ كلمات (WER) حوالي 0.8% لـ Seed-TTS Eval.
سريع: مع تسريع fish-tech، عامل الوقت الحقيقي حوالي 1:5 على كمبيوتر محمول Nvidia RTX 4060 و 1:15 على Nvidia RTX 4090.
استنتاج WebUI: يتميز بواجهة ويب سهلة الاستخدام قائمة على Gradio متوافقة مع Chrome وFirefox وEdge والمتصفحات الأخرى.
استنتاج GUI: يوفر واجهة رسومية PyQt6 تعمل بسلاسة مع خادم API. يدعم Linux وWindows وmacOS. راجع GUI.
صديق للنشر: قم بإعداد خادم استنتاج بسهولة مع دعم أصلي لـ Linux وWindows (MacOS قادم قريبًا)، مما يقلل من فقدان السرعة.
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}