7 mesi fa · 5a89fe56cb
--- a/README.md
+++ b/README.md
@@ -1,7 +1,7 @@
 
				 <div align="center">
			
 
				 <h1>Fish Speech</h1>
			
 
				 
			
 
				-**English** | [简体中文](docs/README.zh.md) | [Portuguese](docs/README.pt-BR.md) | [日本語](docs/README.ja.md) | [한국어](docs/README.ko.md) <br>
			
 
				+**English** | [简体中文](docs/README.zh.md) | [Portuguese](docs/README.pt-BR.md) | [日本語](docs/README.ja.md) | [한국어](docs/README.ko.md) | [العربية](docs/README.ar.md) <br>
			
 
				 
			
 
				 <a href="https://www.producthunt.com/posts/fish-speech-1-4?embed=true&utm_source=badge-featured&utm_medium=badge&utm_souce=badge-fish&#0045;speech&#0045;1&#0045;4" target="_blank">
			
 
				     <img src="https://api.producthunt.com/widgets/embed-image/v1/featured.svg?post_id=488440&theme=light" alt="Fish&#0032;Speech&#0032;1&#0046;4 - Open&#0045;Source&#0032;Multilingual&#0032;Text&#0045;to&#0045;Speech&#0032;with&#0032;Voice&#0032;Cloning | Product Hunt" style="width: 250px; height: 54px;" width="250" height="54" />
			
@@ -51,7 +51,12 @@
 
				 > **Legal Disclaimer**  
			
 
				 > We do not hold any responsibility for any illegal usage of the codebase. Please refer to your local laws about DMCA and other related laws.
			
 
				 
			
 
				----
			
 
				+## Start Here
			
 
				+
			
 
				+Here are the official documents for Fish Speech, follow the instructions to get started easily.
			
 
				+
			
 
				+- [Installation](https://speech.fish.audio/install/)
			
 
				+- [Inference](https://speech.fish.audio/inference/)
			
 
				 
			
 
				 ## 🎉 Announcement
			
 
				 
			
@@ -177,11 +182,6 @@ Both S1 and S1-mini incorporate online Reinforcement Learning from Human Feedbac
 
				 
			
 
				 ---
			
 
				 
			
 
				-## Documents
			
 
				-
			
 
				-- [Build Envrionment](docs/en/install.md)
			
 
				-- [Inference](docs/en/inference.md)
			
 
				-
			
 
				 ## Credits
			
 
				 
			
 
				 - [VITS2 (daniilrobnikov)](https://github.com/daniilrobnikov/vits2)
			
--- a/docs/README.ar.md
+++ b/docs/README.ar.md
@@ -0,0 +1,210 @@
 
				+<div align="center">
			
 
				+<h1>Fish Speech</h1>
			
 
				+
			
 
				+[English](../README.md) | [简体中文](README.zh.md) | [Portuguese](README.pt-BR.md) | [日本語](README.ja.md) | [한국어](README.ko.md) | **العربية** <br>
			
 
				+
			
 
				+<a href="https://www.producthunt.com/posts/fish-speech-1-4?embed=true&utm_source=badge-featured&utm_medium=badge&utm_souce=badge-fish&#0045;speech&#0045;1&#0045;4" target="_blank">
			
 
				+    <img src="https://api.producthunt.com/widgets/embed-image/v1/featured.svg?post_id=488440&theme=light" alt="Fish&#0032;Speech&#0032;1&#0046;4 - Open&#0045;Source&#0032;Multilingual&#0032;Text&#0045;to&#0045;Speech&#0032;with&#0032;Voice&#0032;Cloning | Product Hunt" style="width: 250px; height: 54px;" width="250" height="54" />
			
 
				+</a>
			
 
				+<a href="https://trendshift.io/repositories/7014" target="_blank">
			
 
				+    <img src="https://trendshift.io/api/badge/repositories/7014" alt="fishaudio%2Ffish-speech | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/>
			
 
				+</a>
			
 
				+<br>
			
 
				+</div>
			
 
				+<br>
			
 
				+
			
 
				+<div align="center">
			
 
				+    <img src="https://count.getloli.com/get/@fish-speech?theme=asoul" /><br>
			
 
				+</div>
			
 
				+
			
 
				+<br>
			
 
				+
			
 
				+<div align="center">
			
 
				+    <a target="_blank" href="https://discord.gg/Es5qTB9BcN">
			
 
				+        <img alt="Discord" src="https://img.shields.io/discord/1214047546020728892?color=%23738ADB&label=Discord&logo=discord&logoColor=white&style=flat-square"/>
			
 
				+    </a>
			
 
				+    <a target="_blank" href="https://hub.docker.com/r/fishaudio/fish-speech">
			
 
				+        <img alt="Docker" src="https://img.shields.io/docker/pulls/fishaudio/fish-speech?style=flat-square&logo=docker"/>
			
 
				+    </a>
			
 
				+    <a target="_blank" href="https://pd.qq.com/s/bwxia254o">
			
 
				+      <img alt="QQ Channel" src="https://img.shields.io/badge/QQ-blue?logo=tencentqq">
			
 
				+    </a>
			
 
				+</div>
			
 
				+
			
 
				+<div align="center">
			
 
				+    <a target="_blank" href="https://huggingface.co/spaces/TTS-AGI/TTS-Arena-V2">
			
 
				+      <img alt="TTS-Arena2 Score" src="https://img.shields.io/badge/TTS_Arena2-Rank_%231-gold?style=flat-square&logo=trophy&logoColor=white">
			
 
				+    </a>
			
 
				+    <a target="_blank" href="https://huggingface.co/spaces/fishaudio/fish-speech-1">
			
 
				+        <img alt="Huggingface" src="https://img.shields.io/badge/🤗%20-space%20demo-yellow"/>
			
 
				+    </a>
			
 
				+    <a target="_blank" href="https://huggingface.co/fishaudio/openaudio-s1-mini">
			
 
				+        <img alt="HuggingFace Model" src="https://img.shields.io/badge/🤗%20-models-orange"/>
			
 
				+    </a>
			
 
				+</div>
			
 
				+
			
 
				+> [!IMPORTANT]
			
 
				+> **إشعار الترخيص**  
			
 
				+> يتم إصدار قاعدة الكود هذه تحت **رخصة Apache** ويتم إصدار جميع أوزان النماذج تحت **رخصة CC-BY-NC-SA-4.0**. يرجى الرجوع إلى [LICENSE](../LICENSE) لمزيد من التفاصيل.
			
 
				+
			
 
				+> [!WARNING]
			
 
				+> **إخلاء المسؤولية القانونية**  
			
 
				+> نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الكود. يرجى الرجوع إلى القوانين المحلية حول DMCA والقوانين الأخرى ذات الصلة.
			
 
				+
			
 
				+## ابدأ من هنا
			
 
				+
			
 
				+هنا هي الوثائق الرسمية لـ Fish Speech، اتبع التعليمات للبدء بسهولة.
			
 
				+
			
 
				+- [التثبيت](https://speech.fish.audio/ar/install/)
			
 
				+- [الاستنتاج](https://speech.fish.audio/ar/inference/)
			
 
				+
			
 
				+## 🎉 الإعلان
			
 
				+
			
 
				+نحن متحمسون للإعلان عن إعادة تسمية علامتنا التجارية إلى **OpenAudio** — تقديم سلسلة جديدة ثورية من نماذج تحويل النص إلى كلام المتقدمة التي تبني على أساس Fish-Speech.
			
 
				+
			
 
				+نحن فخورون بإطلاق **OpenAudio-S1** كأول نموذج في هذه السلسلة، يقدم تحسينات كبيرة في الجودة والأداء والقدرات.
			
 
				+
			
 
				+يأتي OpenAudio-S1 في إصدارين: **OpenAudio-S1** و **OpenAudio-S1-mini**. كلا النموذجين متاحان الآن على [Fish Audio Playground](https://fish.audio) (لـ **OpenAudio-S1**) و [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini) (لـ **OpenAudio-S1-mini**).
			
 
				+
			
 
				+قم بزيارة [موقع OpenAudio](https://openaudio.com/blogs/s1) للمدونة والتقرير التقني.
			
 
				+
			
 
				+## النقاط البارزة ✨
			
 
				+
			
 
				+### **جودة TTS ممتازة**
			
 
				+
			
 
				+نستخدم مقاييس تقييم Seed TTS لتقييم أداء النموذج، وتظهر النتائج أن OpenAudio S1 يحقق **0.008 WER** و **0.004 CER** على النص الإنجليزي، وهو أفضل بكثير من النماذج السابقة. (الإنجليزية، التقييم التلقائي، بناءً على OpenAI gpt-4o-transcribe، مسافة المتحدث باستخدام Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
			
 
				+
			
 
				+| النموذج | معدل خطأ الكلمات (WER) | معدل خطأ الأحرف (CER) | مسافة المتحدث |
			
 
				+|-------|----------------------|---------------------------|------------------|
			
 
				+| **S1** | **0.008**  | **0.004**  | **0.332** |
			
 
				+| **S1-mini** | **0.011** | **0.005** | **0.380** |
			
 
				+
			
 
				+### **أفضل نموذج في TTS-Arena2** 🏆
			
 
				+
			
 
				+حقق OpenAudio S1 **المرتبة الأولى** في [TTS-Arena2](https://arena.speechcolab.org/)، المعيار لتقييم تحويل النص إلى كلام:
			
 
				+
			
 
				+<div align="center">
			
 
				+    <img src="assets/Elo.jpg" alt="TTS-Arena2 Ranking" style="width: 75%;" />
			
 
				+</div>
			
 
				+
			
 
				+### **التحكم في الكلام**
			
 
				+يدعم OpenAudio S1 **مجموعة متنوعة من العلامات العاطفية والنبرة والخاصة** لتعزيز تركيب الكلام:
			
 
				+
			
 
				+- **المشاعر الأساسية**:
			
 
				+```
			
 
				+(غاضب) (حزين) (متحمس) (مندهش) (راضي) (مسرور) 
			
 
				+(خائف) (قلق) (منزعج) (عصبي) (محبط) (مكتئب)
			
 
				+(متعاطف) (محرج) (مشمئز) (متأثر) (فخور) (مسترخي)
			
 
				+(ممتن) (واثق) (مهتم) (فضولي) (مرتبك) (مبتهج)
			
 
				+```
			
 
				+
			
 
				+- **المشاعر المتقدمة**:
			
 
				+```
			
 
				+(محتقر) (غير سعيد) (قلق) (هستيري) (غير مبال) 
			
 
				+(نافد الصبر) (مذنب) (ازدرائي) (مذعور) (غاضب) (مترد)
			
 
				+(متحمس) (غير موافق) (سلبي) (منكر) (مندهش) (جدي)
			
 
				+(ساخر) (مصالح) (مواسي) (صادق) (ساخر)
			
 
				+(متردد) (مستسلم) (مؤلم) (محرج) (مسلي)
			
 
				+```
			
 
				+
			
 
				+- **علامات النبرة**:
			
 
				+```
			
 
				+(بنبرة مستعجلة) (صراخ) (صراخ) (همس) (نبرة ناعمة)
			
 
				+```
			
 
				+
			
 
				+- **تأثيرات صوتية خاصة**:
			
 
				+```
			
 
				+(ضحك) (قهقهة) (نشيج) (بكاء بصوت عالٍ) (تنهد) (لهاث)
			
 
				+(أنين) (ضحك الجمهور) (ضحك الخلفية) (ضحك الجمهور)
			
 
				+```
			
 
				+
			
 
				+يمكنك أيضًا استخدام ها،ها،ها للتحكم، هناك العديد من الحالات الأخرى في انتظار استكشافك بنفسك.
			
 
				+
			
 
				+(الدعم للإنجليزية والصينية واليابانية الآن، والمزيد من اللغات قادم قريبًا!)
			
 
				+
			
 
				+### **نوعان من النماذج**
			
 
				+
			
 
				+| النموذج | الحجم | التوفر | الميزات |
			
 
				+|-------|------|--------------|----------|
			
 
				+| **S1** | 4 مليار معامل | متاح على [fish.audio](https://fish.audio) | النموذج الرئيسي كامل الميزات |
			
 
				+| **S1-mini** | 0.5 مليار معامل | متاح على Hugging Face [hf space](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini) | إصدار مقطر بالقدرات الأساسية |
			
 
				+
			
 
				+كل من S1 و S1-mini يدمجان التعلم المعزز عبر الإنترنت من ردود الفعل البشرية (RLHF).
			
 
				+
			
 
				+## **الميزات**
			
 
				+
			
 
				+1. **TTS بدون عينات وبعينات قليلة:** أدخل عينة صوتية من 10 إلى 30 ثانية لإنتاج مخرجات TTS عالية الجودة. **للإرشادات التفصيلية، راجع [أفضل ممارسات استنساخ الصوت](https://docs.fish.audio/text-to-speech/voice-clone-best-practices).**
			
 
				+
			
 
				+2. **الدعم متعدد اللغات وعبر اللغات:** ببساطة انسخ والصق النص متعدد اللغات في مربع الإدخال—لا حاجة للقلق بشأن اللغة. يدعم حاليًا الإنجليزية واليابانية والكورية والصينية والفرنسية والألمانية والعربية والإسبانية.
			
 
				+
			
 
				+3. **لا يعتمد على الصوتيات:** النموذج لديه قدرات تعميم قوية ولا يعتمد على الصوتيات لـ TTS. يمكنه التعامل مع النص في أي نص لغوي.
			
 
				+
			
 
				+4. **دقيق للغاية:** يحقق معدل خطأ أحرف منخفض (CER) حوالي 0.4% ومعدل خطأ كلمات (WER) حوالي 0.8% لـ Seed-TTS Eval.
			
 
				+
			
 
				+5. **سريع:** مع تسريع fish-tech، عامل الوقت الحقيقي حوالي 1:5 على كمبيوتر محمول Nvidia RTX 4060 و 1:15 على Nvidia RTX 4090.
			
 
				+
			
 
				+6. **استنتاج WebUI:** يتميز بواجهة ويب سهلة الاستخدام قائمة على Gradio متوافقة مع Chrome وFirefox وEdge والمتصفحات الأخرى.
			
 
				+
			
 
				+7. **استنتاج GUI:** يوفر واجهة رسومية PyQt6 تعمل بسلاسة مع خادم API. يدعم Linux وWindows وmacOS. [راجع GUI](https://github.com/AnyaCoder/fish-speech-gui).
			
 
				+
			
 
				+8. **صديق للنشر:** قم بإعداد خادم استنتاج بسهولة مع دعم أصلي لـ Linux وWindows (MacOS قادم قريبًا)، مما يقلل من فقدان السرعة.
			
 
				+
			
 
				+## **الوسائط والعروض التوضيحية**
			
 
				+
			
 
				+<div align="center">
			
 
				+
			
 
				+### **وسائل التواصل الاجتماعي**
			
 
				+<a href="https://x.com/FishAudio/status/1929915992299450398" target="_blank">
			
 
				+    <img src="https://img.shields.io/badge/𝕏-Latest_Demo-black?style=for-the-badge&logo=x&logoColor=white" alt="أحدث عرض توضيحي على X" />
			
 
				+</a>
			
 
				+
			
 
				+### **العروض التوضيحية التفاعلية**
			
 
				+<a href="https://fish.audio" target="_blank">
			
 
				+    <img src="https://img.shields.io/badge/Fish_Audio-Try_OpenAudio_S1-blue?style=for-the-badge" alt="جرب OpenAudio S1" />
			
 
				+</a>
			
 
				+<a href="https://huggingface.co/spaces/fishaudio/openaudio-s1-mini" target="_blank">
			
 
				+    <img src="https://img.shields.io/badge/Hugging_Face-Try_S1_Mini-yellow?style=for-the-badge" alt="جرب S1 Mini" />
			
 
				+</a>
			
 
				+
			
 
				+### **عروض الفيديو**
			
 
				+
			
 
				+<a href="https://www.youtube.com/watch?v=SYuPvd7m06A" target="_blank">
			
 
				+    <img src="../docs/assets/Thumbnail.jpg" alt="OpenAudio S1 Video" style="width: 50%;" />
			
 
				+</a>
			
 
				+
			
 
				+### **عينات الصوت**
			
 
				+<div style="margin: 20px 0;">
			
 
				+    <em>ستتوفر عينات صوتية عالية الجودة قريبًا، تُظهر قدراتنا في TTS متعدد اللغات عبر لغات ومشاعر مختلفة.</em>
			
 
				+</div>
			
 
				+
			
 
				+</div>
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## الوثائق
			
 
				+
			
 
				+- [بناء البيئة](ar/install.md)
			
 
				+- [الاستنتاج](ar/inference.md)
			
 
				+
			
 
				+## الاعتمادات
			
 
				+
			
 
				+- [VITS2 (daniilrobnikov)](https://github.com/daniilrobnikov/vits2)
			
 
				+- [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2)
			
 
				+- [GPT VITS](https://github.com/innnky/gpt-vits)
			
 
				+- [MQTTS](https://github.com/b04901014/MQTTS)
			
 
				+- [GPT Fast](https://github.com/pytorch-labs/gpt-fast)
			
 
				+- [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS)
			
 
				+- [Qwen3](https://github.com/QwenLM/Qwen3)
			
 
				+
			
 
				+## التقرير التقني (V1.4)
			
 
				+```bibtex
			
 
				+@misc{fish-speech-v1.4,
			
 
				+      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
			
 
				+      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
			
 
				+      year={2024},
			
 
				+      eprint={2411.01156},
			
 
				+      archivePrefix={arXiv},
			
 
				+      primaryClass={cs.SD},
			
 
				+      url={https://arxiv.org/abs/2411.01156},
			
 
				+}
			
 
				+```
			
--- a/docs/README.ja.md
+++ b/docs/README.ja.md
@@ -51,7 +51,12 @@
 
				 > **法的免責事項**  
			
 
				 > 私たちはコードベースの不法な使用について一切の責任を負いません。DMCA及びその他の関連法律について、現地の法律をご参照ください。
			
 
				 
			
 
				----
			
 
				+## はじめに
			
 
				+
			
 
				+こちらは Fish Speech の公式ドキュメントです。手順に従って簡単に始めることができます。
			
 
				+
			
 
				+- [インストール](https://speech.fish.audio/ja/install/)
			
 
				+- [推論](https://speech.fish.audio/ja/inference/)
			
 
				 
			
 
				 ## 🎉 発表
			
 
				 
			
--- a/docs/README.ko.md
+++ b/docs/README.ko.md
@@ -51,7 +51,12 @@
 
				 > **법적 면책조항**  
			
 
				 > 저희는 코드베이스의 불법적인 사용에 대해 어떠한 책임도 지지 않습니다. DMCA 및 기타 관련 법률에 대한 현지 법률을 참조하세요.
			
 
				 
			
 
				----
			
 
				+## 시작하기
			
 
				+
			
 
				+여기는 Fish Speech의 공식 문서입니다. 지침을 따라 쉽게 시작하세요.
			
 
				+
			
 
				+- [설치](https://speech.fish.audio/ko/install/)
			
 
				+- [추론](https://speech.fish.audio/ko/inference/)
			
 
				 
			
 
				 ## 🎉 발표
			
 
				 
			
--- a/docs/README.pt-BR.md
+++ b/docs/README.pt-BR.md
@@ -51,7 +51,12 @@
 
				 > **Isenção de Responsabilidade Legal**  
			
 
				 > Não assumimos qualquer responsabilidade pelo uso ilegal da base de código. Consulte as leis locais sobre DMCA e outras leis relacionadas.
			
 
				 
			
 
				----
			
 
				+## Comece Aqui
			
 
				+
			
 
				+Aqui estão os documentos oficiais do Fish Speech, siga as instruções para começar facilmente.
			
 
				+
			
 
				+- [Instalação](https://speech.fish.audio/pt/install/)
			
 
				+- [Inferência](https://speech.fish.audio/pt/inference/)
			
 
				 
			
 
				 ## 🎉 Anúncio
			
 
				 
			
--- a/docs/README.zh.md
+++ b/docs/README.zh.md
@@ -51,7 +51,12 @@
 
				 > **法律免责声明**  
			
 
				 > 我们不对代码库的任何非法使用承担责任。请参考您当地关于 DMCA 和其他相关法律的法规。
			
 
				 
			
 
				----
			
 
				+## 开始使用
			
 
				+
			
 
				+这里是 Fish Speech 的官方文档，按照说明轻松开始使用。
			
 
				+
			
 
				+- [安装](https://speech.fish.audio/zh/install/)
			
 
				+- [推理](https://speech.fish.audio/zh/inference/)
			
 
				 
			
 
				 ## 🎉 公告
			
 
				 
			
--- a/docs/ar/index.md
+++ b/docs/ar/index.md
@@ -0,0 +1,160 @@
 
				+# OpenAudio (سابقاً Fish-Speech)
			
 
				+
			
 
				+<div align="center">
			
 
				+
			
 
				+<div align="center">
			
 
				+
			
 
				+<img src="../assets/openaudio.jpg" alt="OpenAudio" style="display: block; margin: 0 auto; width: 35%;"/>
			
 
				+
			
 
				+</div>
			
 
				+
			
 
				+<strong>سلسلة نماذج تحويل النص إلى كلام المتقدمة</strong>
			
 
				+
			
 
				+<div>
			
 
				+<a target="_blank" href="https://discord.gg/Es5qTB9BcN">
			
 
				+<img alt="Discord" src="https://img.shields.io/discord/1214047546020728892?color=%23738ADB&label=Discord&logo=discord&logoColor=white&style=flat-square"/>
			
 
				+</a>
			
 
				+<a target="_blank" href="http://qm.qq.com/cgi-bin/qm/qr?_wv=1027&k=jCKlUP7QgSm9kh95UlBoYv6s1I-Apl1M&authKey=xI5ttVAp3do68IpEYEalwXSYZFdfxZSkah%2BctF5FIMyN2NqAa003vFtLqJyAVRfF&noverify=0&group_code=593946093">
			
 
				+<img alt="QQ" src="https://img.shields.io/badge/QQ Group-%2312B7F5?logo=tencent-qq&logoColor=white&style=flat-square"/>
			
 
				+</a>
			
 
				+<a target="_blank" href="https://hub.docker.com/r/fishaudio/fish-speech">
			
 
				+<img alt="Docker" src="https://img.shields.io/docker/pulls/fishaudio/fish-speech?style=flat-square&logo=docker"/>
			
 
				+</a>
			
 
				+</div>
			
 
				+
			
 
				+<strong>جربه الآن:</strong> <a href="https://fish.audio">Fish Audio Playground</a> | <strong>تعلم المزيد:</strong> <a href="https://openaudio.com">موقع OpenAudio</a>
			
 
				+
			
 
				+</div>
			
 
				+
			
 
				+---
			
 
				+
			
 
				+!!! note "إشعار الترخيص"
			
 
				+    يتم إصدار قاعدة الكود هذه تحت **رخصة Apache** ويتم إصدار جميع أوزان النماذج تحت **رخصة CC-BY-NC-SA-4.0**. يرجى الرجوع إلى [LICENSE](LICENSE) لمزيد من التفاصيل.
			
 
				+
			
 
				+!!! warning "إخلاء المسؤولية القانونية"
			
 
				+    نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الكود. يرجى الرجوع إلى القوانين المحلية حول DMCA والقوانين الأخرى ذات الصلة.
			
 
				+
			
 
				+## **المقدمة**
			
 
				+
			
 
				+نحن متحمسون للإعلان عن إعادة تسمية علامتنا التجارية إلى **OpenAudio** - تقديم سلسلة جديدة من نماذج تحويل النص إلى كلام المتقدمة التي تبني على أساس Fish-Speech مع تحسينات كبيرة وقدرات جديدة.
			
 
				+
			
 
				+**Openaudio-S1-mini**: [المدونة](https://openaudio.com/blogs/s1); [الفيديو](https://www.youtube.com/watch?v=SYuPvd7m06A); [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini);
			
 
				+
			
 
				+**Fish-Speech v1.5**: [الفيديو](https://www.bilibili.com/video/BV1EKiDYBE4o/); [Hugging Face](https://huggingface.co/fishaudio/fish-speech-1.5);
			
 
				+
			
 
				+## **النقاط البارزة**
			
 
				+
			
 
				+### **جودة TTS ممتازة**
			
 
				+
			
 
				+نستخدم مقاييس تقييم Seed TTS لتقييم أداء النموذج، وتظهر النتائج أن OpenAudio S1 يحقق **0.008 WER** و **0.004 CER** على النص الإنجليزي، وهو أفضل بكثير من النماذج السابقة. (الإنجليزية، التقييم التلقائي، بناءً على OpenAI gpt-4o-transcribe، مسافة المتحدث باستخدام Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
			
 
				+
			
 
				+| النموذج | معدل خطأ الكلمات (WER) | معدل خطأ الأحرف (CER) | مسافة المتحدث |
			
 
				+|:-----:|:--------------------:|:-------------------------:|:----------------:|
			
 
				+| **S1** | **0.008** | **0.004** | **0.332** |
			
 
				+| **S1-mini** | **0.011** | **0.005** | **0.380** |
			
 
				+
			
 
				+### **أفضل نموذج في TTS-Arena2**
			
 
				+
			
 
				+حقق OpenAudio S1 **المرتبة الأولى** في [TTS-Arena2](https://arena.speechcolab.org/)، المعيار لتقييم تحويل النص إلى كلام:
			
 
				+
			
 
				+<div align="center">
			
 
				+    <img src="../assets/Elo.jpg" alt="TTS-Arena2 Ranking" style="width: 75%;" />
			
 
				+</div>
			
 
				+
			
 
				+### **التحكم في الكلام**
			
 
				+يدعم OpenAudio S1 **مجموعة متنوعة من العلامات العاطفية والنبرة والخاصة** لتعزيز تركيب الكلام:
			
 
				+
			
 
				+- **المشاعر الأساسية**:
			
 
				+```
			
 
				+(غاضب) (حزين) (متحمس) (مندهش) (راضي) (مسرور) 
			
 
				+(خائف) (قلق) (منزعج) (عصبي) (محبط) (مكتئب)
			
 
				+(متعاطف) (محرج) (مشمئز) (متأثر) (فخور) (مسترخي)
			
 
				+(ممتن) (واثق) (مهتم) (فضولي) (مرتبك) (مبتهج)
			
 
				+```
			
 
				+
			
 
				+- **المشاعر المتقدمة**:
			
 
				+```
			
 
				+(محتقر) (غير سعيد) (قلق) (هستيري) (غير مبال) 
			
 
				+(نافد الصبر) (مذنب) (ازدرائي) (مذعور) (غاضب) (مترد)
			
 
				+(متحمس) (غير موافق) (سلبي) (منكر) (مندهش) (جدي)
			
 
				+(ساخر) (مصالح) (مواسي) (صادق) (ساخر)
			
 
				+(متردد) (مستسلم) (مؤلم) (محرج) (مسلي)
			
 
				+```
			
 
				+
			
 
				+(الدعم للإنجليزية والصينية واليابانية الآن، والمزيد من اللغات قادم قريبًا!)
			
 
				+
			
 
				+- **علامات النبرة**:
			
 
				+```
			
 
				+(بنبرة مستعجلة) (صراخ) (صراخ) (همس) (نبرة ناعمة)
			
 
				+```
			
 
				+
			
 
				+- **تأثيرات صوتية خاصة**:
			
 
				+```
			
 
				+(ضحك) (قهقهة) (نشيج) (بكاء بصوت عالٍ) (تنهد) (لهاث)
			
 
				+(أنين) (ضحك الجمهور) (ضحك الخلفية) (ضحك الجمهور)
			
 
				+```
			
 
				+
			
 
				+يمكنك أيضًا استخدام ها،ها،ها للتحكم، هناك العديد من الحالات الأخرى في انتظار استكشافك بنفسك.
			
 
				+
			
 
				+### **نوعان من النماذج**
			
 
				+
			
 
				+نقدم متغيرين من النماذج لتناسب الاحتياجات المختلفة:
			
 
				+
			
 
				+- **OpenAudio S1 (4 مليار معامل)**: نموذجنا الرئيسي كامل الميزات المتاح على [fish.audio](https://fish.audio)، يقدم أعلى جودة لتركيب الكلام مع جميع الميزات المتقدمة.
			
 
				+
			
 
				+- **OpenAudio S1-mini (0.5 مليار معامل)**: إصدار مقطر بالقدرات الأساسية، متاح على [Hugging Face Space](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini)، محسن للاستنتاج الأسرع مع الحفاظ على الجودة الممتازة.
			
 
				+
			
 
				+كل من S1 و S1-mini يدمجان التعلم المعزز عبر الإنترنت من ردود الفعل البشرية (RLHF).
			
 
				+
			
 
				+## **الميزات**
			
 
				+
			
 
				+1. **TTS بدون عينات وبعينات قليلة:** أدخل عينة صوتية من 10 إلى 30 ثانية لإنتاج مخرجات TTS عالية الجودة. **للإرشادات التفصيلية، راجع [أفضل ممارسات استنساخ الصوت](https://docs.fish.audio/text-to-speech/voice-clone-best-practices).**
			
 
				+
			
 
				+2. **الدعم متعدد اللغات وعبر اللغات:** ببساطة انسخ والصق النص متعدد اللغات في مربع الإدخال—لا حاجة للقلق بشأن اللغة. يدعم حاليًا الإنجليزية واليابانية والكورية والصينية والفرنسية والألمانية والعربية والإسبانية.
			
 
				+
			
 
				+3. **لا يعتمد على الصوتيات:** النموذج لديه قدرات تعميم قوية ولا يعتمد على الصوتيات لـ TTS. يمكنه التعامل مع النص في أي نص لغوي.
			
 
				+
			
 
				+4. **دقيق للغاية:** يحقق معدل خطأ أحرف منخفض (CER) حوالي 0.4% ومعدل خطأ كلمات (WER) حوالي 0.8% لـ Seed-TTS Eval.
			
 
				+
			
 
				+5. **سريع:** مع تسريع torch compile، عامل الوقت الحقيقي حوالي 1:7 على GPU Nvidia RTX 4090.
			
 
				+
			
 
				+6. **استنتاج WebUI:** يتميز بواجهة ويب سهلة الاستخدام قائمة على Gradio متوافقة مع Chrome وFirefox وEdge والمتصفحات الأخرى.
			
 
				+
			
 
				+7. **استنتاج GUI:** يوفر واجهة رسومية PyQt6 تعمل بسلاسة مع خادم API. يدعم Linux وWindows وmacOS. [راجع GUI](https://github.com/AnyaCoder/fish-speech-gui).
			
 
				+
			
 
				+8. **صديق للنشر:** قم بإعداد خادم استنتاج بسهولة مع دعم أصلي لـ Linux وWindows (MacOS قادم قريبًا)، مما يقلل من فقدان السرعة.
			
 
				+
			
 
				+## **الوسائط والعروض التوضيحية**
			
 
				+
			
 
				+<!-- <div align="center"> -->
			
 
				+
			
 
				+<h3><strong>وسائل التواصل الاجتماعي</strong></h3>
			
 
				+<a href="https://x.com/FishAudio/status/1929915992299450398" target="_blank">
			
 
				+    <img src="https://img.shields.io/badge/𝕏-أحدث_عرض_توضيحي-black?style=for-the-badge&logo=x&logoColor=white" alt="أحدث عرض توضيحي على X" />
			
 
				+</a>
			
 
				+
			
 
				+<h3><strong>العروض التوضيحية التفاعلية</strong></h3>
			
 
				+
			
 
				+<a href="https://fish.audio" target="_blank">
			
 
				+    <img src="https://img.shields.io/badge/Fish_Audio-جرب_OpenAudio_S1-blue?style=for-the-badge" alt="جرب OpenAudio S1" />
			
 
				+</a>
			
 
				+<a href="https://huggingface.co/spaces/fishaudio/openaudio-s1-mini" target="_blank">
			
 
				+    <img src="https://img.shields.io/badge/Hugging_Face-جرب_S1_Mini-yellow?style=for-the-badge" alt="جرب S1 Mini" />
			
 
				+</a>
			
 
				+
			
 
				+<h3><strong>عروض الفيديو</strong></h3>
			
 
				+<div align="center">
			
 
				+<iframe width="560" height="315" src="https://www.youtube.com/embed/SYuPvd7m06A" title="OpenAudio S1 Video" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>
			
 
				+</div>
			
 
				+
			
 
				+## **الوثائق**
			
 
				+
			
 
				+### البداية السريعة
			
 
				+- [بناء البيئة](install.md) - إعداد بيئة التطوير الخاصة بك
			
 
				+- [دليل الاستنتاج](inference.md) - تشغيل النموذج وإنتاج الكلام
			
 
				+
			
 
				+## **المجتمع والدعم**
			
 
				+
			
 
				+- **Discord:** انضم إلى [مجتمع Discord](https://discord.gg/Es5qTB9BcN) الخاص بنا
			
 
				+- **الموقع:** قم بزيارة [OpenAudio.com](https://openaudio.com) للحصول على آخر التحديثات
			
 
				+- **جرب عبر الإنترنت:** [Fish Audio Playground](https://fish.audio)
			
--- a/docs/ar/inference.md
+++ b/docs/ar/inference.md
@@ -0,0 +1,102 @@
 
				+# الاستنتاج
			
 
				+
			
 
				+نظرًا لأن نموذج vocoder قد تغير، تحتاج إلى VRAM أكثر من ذي قبل، يُنصح بـ 12GB للاستنتاج السلس.
			
 
				+
			
 
				+ندعم سطر الأوامر و HTTP API و WebUI للاستنتاج، يمكنك اختيار أي طريقة تفضلها.
			
 
				+
			
 
				+## تحميل الأوزان
			
 
				+
			
 
				+أولاً تحتاج إلى تحميل أوزان النموذج:
			
 
				+
			
 
				+```bash
			
 
				+huggingface-cli download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini
			
 
				+```
			
 
				+
			
 
				+## استنتاج سطر الأوامر
			
 
				+
			
 
				+!!! note
			
 
				+    إذا كنت تخطط لترك النموذج يختار نبرة صوت عشوائياً، يمكنك تخطي هذه الخطوة.
			
 
				+
			
 
				+### 1. الحصول على رموز VQ من الصوت المرجعي
			
 
				+
			
 
				+```bash
			
 
				+python fish_speech/models/dac/inference.py \
			
 
				+    -i "ref_audio_name.wav" \
			
 
				+    --checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth"
			
 
				+```
			
 
				+
			
 
				+يجب أن تحصل على `fake.npy` و `fake.wav`.
			
 
				+
			
 
				+### 2. إنتاج الرموز الدلالية من النص:
			
 
				+
			
 
				+```bash
			
 
				+python fish_speech/models/text2semantic/inference.py \
			
 
				+    --text "النص الذي تريد تحويله" \
			
 
				+    --prompt-text "النص المرجعي الخاص بك" \
			
 
				+    --prompt-tokens "fake.npy" \
			
 
				+    --compile
			
 
				+```
			
 
				+
			
 
				+هذا الأمر سينشئ ملف `codes_N` في دليل العمل، حيث N هو عدد صحيح يبدأ من 0.
			
 
				+
			
 
				+!!! note
			
 
				+    قد ترغب في استخدام `--compile` لدمج نوى CUDA للاستنتاج الأسرع (~15 رمز/ثانية -> ~150 رمز/ثانية، على GPU RTX 4090).
			
 
				+    وفقاً لذلك، إذا كنت لا تخطط لاستخدام التسريع، يمكنك التعليق على معامل `--compile`.
			
 
				+
			
 
				+!!! info
			
 
				+    بالنسبة لوحدات GPU التي لا تدعم bf16، قد تحتاج إلى استخدام معامل `--half`.
			
 
				+
			
 
				+### 3. إنتاج الأصوات من الرموز الدلالية:
			
 
				+
			
 
				+!!! warning "تحذير مستقبلي"
			
 
				+    لقد احتفظنا بإمكانية الوصول إلى الواجهة من المسار الأصلي (tools/vqgan/inference.py)، لكن هذه الواجهة قد تُزال في الإصدارات اللاحقة، لذا يرجى تغيير الكود الخاص بك في أقرب وقت ممكن.
			
 
				+
			
 
				+```bash
			
 
				+python fish_speech/models/dac/inference.py \
			
 
				+    -i "codes_0.npy"
			
 
				+```
			
 
				+
			
 
				+## استنتاج HTTP API
			
 
				+
			
 
				+نوفر HTTP API للاستنتاج. يمكنك استخدام الأمر التالي لبدء الخادم:
			
 
				+
			
 
				+```bash
			
 
				+python -m tools.api_server \
			
 
				+    --listen 0.0.0.0:8080 \
			
 
				+    --llama-checkpoint-path "checkpoints/openaudio-s1-mini" \
			
 
				+    --decoder-checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth" \
			
 
				+    --decoder-config-name modded_dac_vq
			
 
				+```
			
 
				+
			
 
				+> إذا كنت تريد تسريع الاستنتاج، يمكنك إضافة معامل `--compile`.
			
 
				+
			
 
				+بعد ذلك، يمكنك عرض واختبار API على http://127.0.0.1:8080/.
			
 
				+
			
 
				+## استنتاج GUI 
			
 
				+[تحميل العميل](https://github.com/AnyaCoder/fish-speech-gui/releases)
			
 
				+
			
 
				+## استنتاج WebUI
			
 
				+
			
 
				+يمكنك بدء WebUI باستخدام الأمر التالي:
			
 
				+
			
 
				+```bash
			
 
				+python -m tools.run_webui \
			
 
				+    --llama-checkpoint-path "checkpoints/openaudio-s1-mini" \
			
 
				+    --decoder-checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth" \
			
 
				+    --decoder-config-name modded_dac_vq
			
 
				+```
			
 
				+
			
 
				+أو ببساطة
			
 
				+
			
 
				+```bash
			
 
				+python -m tools.run_webui
			
 
				+```
			
 
				+> إذا كنت تريد تسريع الاستنتاج، يمكنك إضافة معامل `--compile`.
			
 
				+
			
 
				+!!! note
			
 
				+    يمكنك حفظ ملف التسمية وملف الصوت المرجعي مسبقاً في مجلد `references` في الدليل الرئيسي (الذي تحتاج إلى إنشاؤه بنفسك)، بحيث يمكنك استدعاؤها مباشرة في WebUI.
			
 
				+
			
 
				+!!! note
			
 
				+    يمكنك استخدام متغيرات بيئة Gradio، مثل `GRADIO_SHARE`، `GRADIO_SERVER_PORT`، `GRADIO_SERVER_NAME` لتكوين WebUI.
			
 
				+
			
 
				+استمتع!
			
--- a/docs/ar/install.md
+++ b/docs/ar/install.md
@@ -0,0 +1,43 @@
 
				+## متطلبات النظام
			
 
				+
			
 
				+- ذاكرة GPU: 12GB (للاستنتاج)
			
 
				+- النظام: Linux، WSL
			
 
				+
			
 
				+## الإعداد
			
 
				+
			
 
				+أولاً تحتاج إلى تثبيت pyaudio و sox، والتي تُستخدم لمعالجة الصوت.
			
 
				+
			
 
				+``` bash
			
 
				+apt install portaudio19-dev libsox-dev ffmpeg
			
 
				+```
			
 
				+
			
 
				+### Conda
			
 
				+
			
 
				+```bash
			
 
				+conda create -n fish-speech python=3.12
			
 
				+conda activate fish-speech
			
 
				+
			
 
				+pip install -e .
			
 
				+```
			
 
				+
			
 
				+### UV
			
 
				+
			
 
				+```bash
			
 
				+uv sync --python 3.12
			
 
				+```
			
 
				+
			
 
				+### دعم Intel Arc XPU
			
 
				+
			
 
				+```bash
			
 
				+conda create -n fish-speech python=3.12
			
 
				+conda activate fish-speech
			
 
				+
			
 
				+conda install libstdcxx -c conda-forge
			
 
				+
			
 
				+pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/xpu
			
 
				+
			
 
				+pip install -e .
			
 
				+```
			
 
				+
			
 
				+!!! warning
			
 
				+    خيار `compile` غير مدعوم على Windows و macOS، إذا كنت تريد التشغيل مع compile، تحتاج إلى تثبيت triton بنفسك.
			
--- a/mkdocs.yml
+++ b/mkdocs.yml
@@ -69,6 +69,7 @@ plugins:
 
				         - ja
			
 
				         - pt
			
 
				         - ko
			
 
				+        - ar
			
 
				   - i18n:
			
 
				       docs_structure: folder
			
 
				       languages:
			
@@ -104,6 +105,13 @@ plugins:
 
				             - 소개: ko/index.md
			
 
				             - 설치: ko/install.md
			
 
				             - 추론: ko/inference.md
			
 
				+        - locale: ar
			
 
				+          name: العربية
			
 
				+          build: true
			
 
				+          nav:
			
 
				+            - مقدمة: ar/index.md
			
 
				+            - التثبيت: ar/install.md
			
 
				+            - الاستنتاج: ar/inference.md
			
 
				 
			
 
				 markdown_extensions:
			
 
				   - pymdownx.highlight: