Sfoglia il codice sorgente

[docs]:update README and add Arabic docs (#1064)

Whale and Dolphin 7 mesi fa
parent
commit
5a89fe56cb
10 ha cambiato i file con 554 aggiunte e 11 eliminazioni
  1. 7 7
      README.md
  2. 210 0
      docs/README.ar.md
  3. 6 1
      docs/README.ja.md
  4. 6 1
      docs/README.ko.md
  5. 6 1
      docs/README.pt-BR.md
  6. 6 1
      docs/README.zh.md
  7. 160 0
      docs/ar/index.md
  8. 102 0
      docs/ar/inference.md
  9. 43 0
      docs/ar/install.md
  10. 8 0
      mkdocs.yml

+ 7 - 7
README.md

@@ -1,7 +1,7 @@
 <div align="center">
 <h1>Fish Speech</h1>
 
-**English** | [简体中文](docs/README.zh.md) | [Portuguese](docs/README.pt-BR.md) | [日本語](docs/README.ja.md) | [한국어](docs/README.ko.md) <br>
+**English** | [简体中文](docs/README.zh.md) | [Portuguese](docs/README.pt-BR.md) | [日本語](docs/README.ja.md) | [한국어](docs/README.ko.md) | [العربية](docs/README.ar.md) <br>
 
 <a href="https://www.producthunt.com/posts/fish-speech-1-4?embed=true&utm_source=badge-featured&utm_medium=badge&utm_souce=badge-fish&#0045;speech&#0045;1&#0045;4" target="_blank">
     <img src="https://api.producthunt.com/widgets/embed-image/v1/featured.svg?post_id=488440&theme=light" alt="Fish&#0032;Speech&#0032;1&#0046;4 - Open&#0045;Source&#0032;Multilingual&#0032;Text&#0045;to&#0045;Speech&#0032;with&#0032;Voice&#0032;Cloning | Product Hunt" style="width: 250px; height: 54px;" width="250" height="54" />
@@ -51,7 +51,12 @@
 > **Legal Disclaimer**  
 > We do not hold any responsibility for any illegal usage of the codebase. Please refer to your local laws about DMCA and other related laws.
 
----
+## Start Here
+
+Here are the official documents for Fish Speech, follow the instructions to get started easily.
+
+- [Installation](https://speech.fish.audio/install/)
+- [Inference](https://speech.fish.audio/inference/)
 
 ## 🎉 Announcement
 
@@ -177,11 +182,6 @@ Both S1 and S1-mini incorporate online Reinforcement Learning from Human Feedbac
 
 ---
 
-## Documents
-
-- [Build Envrionment](docs/en/install.md)
-- [Inference](docs/en/inference.md)
-
 ## Credits
 
 - [VITS2 (daniilrobnikov)](https://github.com/daniilrobnikov/vits2)

+ 210 - 0
docs/README.ar.md

@@ -0,0 +1,210 @@
+<div align="center">
+<h1>Fish Speech</h1>
+
+[English](../README.md) | [简体中文](README.zh.md) | [Portuguese](README.pt-BR.md) | [日本語](README.ja.md) | [한국어](README.ko.md) | **العربية** <br>
+
+<a href="https://www.producthunt.com/posts/fish-speech-1-4?embed=true&utm_source=badge-featured&utm_medium=badge&utm_souce=badge-fish&#0045;speech&#0045;1&#0045;4" target="_blank">
+    <img src="https://api.producthunt.com/widgets/embed-image/v1/featured.svg?post_id=488440&theme=light" alt="Fish&#0032;Speech&#0032;1&#0046;4 - Open&#0045;Source&#0032;Multilingual&#0032;Text&#0045;to&#0045;Speech&#0032;with&#0032;Voice&#0032;Cloning | Product Hunt" style="width: 250px; height: 54px;" width="250" height="54" />
+</a>
+<a href="https://trendshift.io/repositories/7014" target="_blank">
+    <img src="https://trendshift.io/api/badge/repositories/7014" alt="fishaudio%2Ffish-speech | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/>
+</a>
+<br>
+</div>
+<br>
+
+<div align="center">
+    <img src="https://count.getloli.com/get/@fish-speech?theme=asoul" /><br>
+</div>
+
+<br>
+
+<div align="center">
+    <a target="_blank" href="https://discord.gg/Es5qTB9BcN">
+        <img alt="Discord" src="https://img.shields.io/discord/1214047546020728892?color=%23738ADB&label=Discord&logo=discord&logoColor=white&style=flat-square"/>
+    </a>
+    <a target="_blank" href="https://hub.docker.com/r/fishaudio/fish-speech">
+        <img alt="Docker" src="https://img.shields.io/docker/pulls/fishaudio/fish-speech?style=flat-square&logo=docker"/>
+    </a>
+    <a target="_blank" href="https://pd.qq.com/s/bwxia254o">
+      <img alt="QQ Channel" src="https://img.shields.io/badge/QQ-blue?logo=tencentqq">
+    </a>
+</div>
+
+<div align="center">
+    <a target="_blank" href="https://huggingface.co/spaces/TTS-AGI/TTS-Arena-V2">
+      <img alt="TTS-Arena2 Score" src="https://img.shields.io/badge/TTS_Arena2-Rank_%231-gold?style=flat-square&logo=trophy&logoColor=white">
+    </a>
+    <a target="_blank" href="https://huggingface.co/spaces/fishaudio/fish-speech-1">
+        <img alt="Huggingface" src="https://img.shields.io/badge/🤗%20-space%20demo-yellow"/>
+    </a>
+    <a target="_blank" href="https://huggingface.co/fishaudio/openaudio-s1-mini">
+        <img alt="HuggingFace Model" src="https://img.shields.io/badge/🤗%20-models-orange"/>
+    </a>
+</div>
+
+> [!IMPORTANT]
+> **إشعار الترخيص**  
+> يتم إصدار قاعدة الكود هذه تحت **رخصة Apache** ويتم إصدار جميع أوزان النماذج تحت **رخصة CC-BY-NC-SA-4.0**. يرجى الرجوع إلى [LICENSE](../LICENSE) لمزيد من التفاصيل.
+
+> [!WARNING]
+> **إخلاء المسؤولية القانونية**  
+> نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الكود. يرجى الرجوع إلى القوانين المحلية حول DMCA والقوانين الأخرى ذات الصلة.
+
+## ابدأ من هنا
+
+هنا هي الوثائق الرسمية لـ Fish Speech، اتبع التعليمات للبدء بسهولة.
+
+- [التثبيت](https://speech.fish.audio/ar/install/)
+- [الاستنتاج](https://speech.fish.audio/ar/inference/)
+
+## 🎉 الإعلان
+
+نحن متحمسون للإعلان عن إعادة تسمية علامتنا التجارية إلى **OpenAudio** — تقديم سلسلة جديدة ثورية من نماذج تحويل النص إلى كلام المتقدمة التي تبني على أساس Fish-Speech.
+
+نحن فخورون بإطلاق **OpenAudio-S1** كأول نموذج في هذه السلسلة، يقدم تحسينات كبيرة في الجودة والأداء والقدرات.
+
+يأتي OpenAudio-S1 في إصدارين: **OpenAudio-S1** و **OpenAudio-S1-mini**. كلا النموذجين متاحان الآن على [Fish Audio Playground](https://fish.audio) (لـ **OpenAudio-S1**) و [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini) (لـ **OpenAudio-S1-mini**).
+
+قم بزيارة [موقع OpenAudio](https://openaudio.com/blogs/s1) للمدونة والتقرير التقني.
+
+## النقاط البارزة ✨
+
+### **جودة TTS ممتازة**
+
+نستخدم مقاييس تقييم Seed TTS لتقييم أداء النموذج، وتظهر النتائج أن OpenAudio S1 يحقق **0.008 WER** و **0.004 CER** على النص الإنجليزي، وهو أفضل بكثير من النماذج السابقة. (الإنجليزية، التقييم التلقائي، بناءً على OpenAI gpt-4o-transcribe، مسافة المتحدث باستخدام Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
+
+| النموذج | معدل خطأ الكلمات (WER) | معدل خطأ الأحرف (CER) | مسافة المتحدث |
+|-------|----------------------|---------------------------|------------------|
+| **S1** | **0.008**  | **0.004**  | **0.332** |
+| **S1-mini** | **0.011** | **0.005** | **0.380** |
+
+### **أفضل نموذج في TTS-Arena2** 🏆
+
+حقق OpenAudio S1 **المرتبة الأولى** في [TTS-Arena2](https://arena.speechcolab.org/)، المعيار لتقييم تحويل النص إلى كلام:
+
+<div align="center">
+    <img src="assets/Elo.jpg" alt="TTS-Arena2 Ranking" style="width: 75%;" />
+</div>
+
+### **التحكم في الكلام**
+يدعم OpenAudio S1 **مجموعة متنوعة من العلامات العاطفية والنبرة والخاصة** لتعزيز تركيب الكلام:
+
+- **المشاعر الأساسية**:
+```
+(غاضب) (حزين) (متحمس) (مندهش) (راضي) (مسرور) 
+(خائف) (قلق) (منزعج) (عصبي) (محبط) (مكتئب)
+(متعاطف) (محرج) (مشمئز) (متأثر) (فخور) (مسترخي)
+(ممتن) (واثق) (مهتم) (فضولي) (مرتبك) (مبتهج)
+```
+
+- **المشاعر المتقدمة**:
+```
+(محتقر) (غير سعيد) (قلق) (هستيري) (غير مبال) 
+(نافد الصبر) (مذنب) (ازدرائي) (مذعور) (غاضب) (مترد)
+(متحمس) (غير موافق) (سلبي) (منكر) (مندهش) (جدي)
+(ساخر) (مصالح) (مواسي) (صادق) (ساخر)
+(متردد) (مستسلم) (مؤلم) (محرج) (مسلي)
+```
+
+- **علامات النبرة**:
+```
+(بنبرة مستعجلة) (صراخ) (صراخ) (همس) (نبرة ناعمة)
+```
+
+- **تأثيرات صوتية خاصة**:
+```
+(ضحك) (قهقهة) (نشيج) (بكاء بصوت عالٍ) (تنهد) (لهاث)
+(أنين) (ضحك الجمهور) (ضحك الخلفية) (ضحك الجمهور)
+```
+
+يمكنك أيضًا استخدام ها،ها،ها للتحكم، هناك العديد من الحالات الأخرى في انتظار استكشافك بنفسك.
+
+(الدعم للإنجليزية والصينية واليابانية الآن، والمزيد من اللغات قادم قريبًا!)
+
+### **نوعان من النماذج**
+
+| النموذج | الحجم | التوفر | الميزات |
+|-------|------|--------------|----------|
+| **S1** | 4 مليار معامل | متاح على [fish.audio](https://fish.audio) | النموذج الرئيسي كامل الميزات |
+| **S1-mini** | 0.5 مليار معامل | متاح على Hugging Face [hf space](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini) | إصدار مقطر بالقدرات الأساسية |
+
+كل من S1 و S1-mini يدمجان التعلم المعزز عبر الإنترنت من ردود الفعل البشرية (RLHF).
+
+## **الميزات**
+
+1. **TTS بدون عينات وبعينات قليلة:** أدخل عينة صوتية من 10 إلى 30 ثانية لإنتاج مخرجات TTS عالية الجودة. **للإرشادات التفصيلية، راجع [أفضل ممارسات استنساخ الصوت](https://docs.fish.audio/text-to-speech/voice-clone-best-practices).**
+
+2. **الدعم متعدد اللغات وعبر اللغات:** ببساطة انسخ والصق النص متعدد اللغات في مربع الإدخال—لا حاجة للقلق بشأن اللغة. يدعم حاليًا الإنجليزية واليابانية والكورية والصينية والفرنسية والألمانية والعربية والإسبانية.
+
+3. **لا يعتمد على الصوتيات:** النموذج لديه قدرات تعميم قوية ولا يعتمد على الصوتيات لـ TTS. يمكنه التعامل مع النص في أي نص لغوي.
+
+4. **دقيق للغاية:** يحقق معدل خطأ أحرف منخفض (CER) حوالي 0.4% ومعدل خطأ كلمات (WER) حوالي 0.8% لـ Seed-TTS Eval.
+
+5. **سريع:** مع تسريع fish-tech، عامل الوقت الحقيقي حوالي 1:5 على كمبيوتر محمول Nvidia RTX 4060 و 1:15 على Nvidia RTX 4090.
+
+6. **استنتاج WebUI:** يتميز بواجهة ويب سهلة الاستخدام قائمة على Gradio متوافقة مع Chrome وFirefox وEdge والمتصفحات الأخرى.
+
+7. **استنتاج GUI:** يوفر واجهة رسومية PyQt6 تعمل بسلاسة مع خادم API. يدعم Linux وWindows وmacOS. [راجع GUI](https://github.com/AnyaCoder/fish-speech-gui).
+
+8. **صديق للنشر:** قم بإعداد خادم استنتاج بسهولة مع دعم أصلي لـ Linux وWindows (MacOS قادم قريبًا)، مما يقلل من فقدان السرعة.
+
+## **الوسائط والعروض التوضيحية**
+
+<div align="center">
+
+### **وسائل التواصل الاجتماعي**
+<a href="https://x.com/FishAudio/status/1929915992299450398" target="_blank">
+    <img src="https://img.shields.io/badge/𝕏-Latest_Demo-black?style=for-the-badge&logo=x&logoColor=white" alt="أحدث عرض توضيحي على X" />
+</a>
+
+### **العروض التوضيحية التفاعلية**
+<a href="https://fish.audio" target="_blank">
+    <img src="https://img.shields.io/badge/Fish_Audio-Try_OpenAudio_S1-blue?style=for-the-badge" alt="جرب OpenAudio S1" />
+</a>
+<a href="https://huggingface.co/spaces/fishaudio/openaudio-s1-mini" target="_blank">
+    <img src="https://img.shields.io/badge/Hugging_Face-Try_S1_Mini-yellow?style=for-the-badge" alt="جرب S1 Mini" />
+</a>
+
+### **عروض الفيديو**
+
+<a href="https://www.youtube.com/watch?v=SYuPvd7m06A" target="_blank">
+    <img src="../docs/assets/Thumbnail.jpg" alt="OpenAudio S1 Video" style="width: 50%;" />
+</a>
+
+### **عينات الصوت**
+<div style="margin: 20px 0;">
+    <em>ستتوفر عينات صوتية عالية الجودة قريبًا، تُظهر قدراتنا في TTS متعدد اللغات عبر لغات ومشاعر مختلفة.</em>
+</div>
+
+</div>
+
+---
+
+## الوثائق
+
+- [بناء البيئة](ar/install.md)
+- [الاستنتاج](ar/inference.md)
+
+## الاعتمادات
+
+- [VITS2 (daniilrobnikov)](https://github.com/daniilrobnikov/vits2)
+- [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2)
+- [GPT VITS](https://github.com/innnky/gpt-vits)
+- [MQTTS](https://github.com/b04901014/MQTTS)
+- [GPT Fast](https://github.com/pytorch-labs/gpt-fast)
+- [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS)
+- [Qwen3](https://github.com/QwenLM/Qwen3)
+
+## التقرير التقني (V1.4)
+```bibtex
+@misc{fish-speech-v1.4,
+      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
+      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
+      year={2024},
+      eprint={2411.01156},
+      archivePrefix={arXiv},
+      primaryClass={cs.SD},
+      url={https://arxiv.org/abs/2411.01156},
+}
+```

+ 6 - 1
docs/README.ja.md

@@ -51,7 +51,12 @@
 > **法的免責事項**  
 > 私たちはコードベースの不法な使用について一切の責任を負いません。DMCA及びその他の関連法律について、現地の法律をご参照ください。
 
----
+## はじめに
+
+こちらは Fish Speech の公式ドキュメントです。手順に従って簡単に始めることができます。
+
+- [インストール](https://speech.fish.audio/ja/install/)
+- [推論](https://speech.fish.audio/ja/inference/)
 
 ## 🎉 発表
 

+ 6 - 1
docs/README.ko.md

@@ -51,7 +51,12 @@
 > **법적 면책조항**  
 > 저희는 코드베이스의 불법적인 사용에 대해 어떠한 책임도 지지 않습니다. DMCA 및 기타 관련 법률에 대한 현지 법률을 참조하세요.
 
----
+## 시작하기
+
+여기는 Fish Speech의 공식 문서입니다. 지침을 따라 쉽게 시작하세요.
+
+- [설치](https://speech.fish.audio/ko/install/)
+- [추론](https://speech.fish.audio/ko/inference/)
 
 ## 🎉 발표
 

+ 6 - 1
docs/README.pt-BR.md

@@ -51,7 +51,12 @@
 > **Isenção de Responsabilidade Legal**  
 > Não assumimos qualquer responsabilidade pelo uso ilegal da base de código. Consulte as leis locais sobre DMCA e outras leis relacionadas.
 
----
+## Comece Aqui
+
+Aqui estão os documentos oficiais do Fish Speech, siga as instruções para começar facilmente.
+
+- [Instalação](https://speech.fish.audio/pt/install/)
+- [Inferência](https://speech.fish.audio/pt/inference/)
 
 ## 🎉 Anúncio
 

+ 6 - 1
docs/README.zh.md

@@ -51,7 +51,12 @@
 > **法律免责声明**  
 > 我们不对代码库的任何非法使用承担责任。请参考您当地关于 DMCA 和其他相关法律的法规。
 
----
+## 开始使用
+
+这里是 Fish Speech 的官方文档,按照说明轻松开始使用。
+
+- [安装](https://speech.fish.audio/zh/install/)
+- [推理](https://speech.fish.audio/zh/inference/)
 
 ## 🎉 公告
 

+ 160 - 0
docs/ar/index.md

@@ -0,0 +1,160 @@
+# OpenAudio (سابقاً Fish-Speech)
+
+<div align="center">
+
+<div align="center">
+
+<img src="../assets/openaudio.jpg" alt="OpenAudio" style="display: block; margin: 0 auto; width: 35%;"/>
+
+</div>
+
+<strong>سلسلة نماذج تحويل النص إلى كلام المتقدمة</strong>
+
+<div>
+<a target="_blank" href="https://discord.gg/Es5qTB9BcN">
+<img alt="Discord" src="https://img.shields.io/discord/1214047546020728892?color=%23738ADB&label=Discord&logo=discord&logoColor=white&style=flat-square"/>
+</a>
+<a target="_blank" href="http://qm.qq.com/cgi-bin/qm/qr?_wv=1027&k=jCKlUP7QgSm9kh95UlBoYv6s1I-Apl1M&authKey=xI5ttVAp3do68IpEYEalwXSYZFdfxZSkah%2BctF5FIMyN2NqAa003vFtLqJyAVRfF&noverify=0&group_code=593946093">
+<img alt="QQ" src="https://img.shields.io/badge/QQ Group-%2312B7F5?logo=tencent-qq&logoColor=white&style=flat-square"/>
+</a>
+<a target="_blank" href="https://hub.docker.com/r/fishaudio/fish-speech">
+<img alt="Docker" src="https://img.shields.io/docker/pulls/fishaudio/fish-speech?style=flat-square&logo=docker"/>
+</a>
+</div>
+
+<strong>جربه الآن:</strong> <a href="https://fish.audio">Fish Audio Playground</a> | <strong>تعلم المزيد:</strong> <a href="https://openaudio.com">موقع OpenAudio</a>
+
+</div>
+
+---
+
+!!! note "إشعار الترخيص"
+    يتم إصدار قاعدة الكود هذه تحت **رخصة Apache** ويتم إصدار جميع أوزان النماذج تحت **رخصة CC-BY-NC-SA-4.0**. يرجى الرجوع إلى [LICENSE](LICENSE) لمزيد من التفاصيل.
+
+!!! warning "إخلاء المسؤولية القانونية"
+    نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الكود. يرجى الرجوع إلى القوانين المحلية حول DMCA والقوانين الأخرى ذات الصلة.
+
+## **المقدمة**
+
+نحن متحمسون للإعلان عن إعادة تسمية علامتنا التجارية إلى **OpenAudio** - تقديم سلسلة جديدة من نماذج تحويل النص إلى كلام المتقدمة التي تبني على أساس Fish-Speech مع تحسينات كبيرة وقدرات جديدة.
+
+**Openaudio-S1-mini**: [المدونة](https://openaudio.com/blogs/s1); [الفيديو](https://www.youtube.com/watch?v=SYuPvd7m06A); [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini);
+
+**Fish-Speech v1.5**: [الفيديو](https://www.bilibili.com/video/BV1EKiDYBE4o/); [Hugging Face](https://huggingface.co/fishaudio/fish-speech-1.5);
+
+## **النقاط البارزة**
+
+### **جودة TTS ممتازة**
+
+نستخدم مقاييس تقييم Seed TTS لتقييم أداء النموذج، وتظهر النتائج أن OpenAudio S1 يحقق **0.008 WER** و **0.004 CER** على النص الإنجليزي، وهو أفضل بكثير من النماذج السابقة. (الإنجليزية، التقييم التلقائي، بناءً على OpenAI gpt-4o-transcribe، مسافة المتحدث باستخدام Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
+
+| النموذج | معدل خطأ الكلمات (WER) | معدل خطأ الأحرف (CER) | مسافة المتحدث |
+|:-----:|:--------------------:|:-------------------------:|:----------------:|
+| **S1** | **0.008** | **0.004** | **0.332** |
+| **S1-mini** | **0.011** | **0.005** | **0.380** |
+
+### **أفضل نموذج في TTS-Arena2**
+
+حقق OpenAudio S1 **المرتبة الأولى** في [TTS-Arena2](https://arena.speechcolab.org/)، المعيار لتقييم تحويل النص إلى كلام:
+
+<div align="center">
+    <img src="../assets/Elo.jpg" alt="TTS-Arena2 Ranking" style="width: 75%;" />
+</div>
+
+### **التحكم في الكلام**
+يدعم OpenAudio S1 **مجموعة متنوعة من العلامات العاطفية والنبرة والخاصة** لتعزيز تركيب الكلام:
+
+- **المشاعر الأساسية**:
+```
+(غاضب) (حزين) (متحمس) (مندهش) (راضي) (مسرور) 
+(خائف) (قلق) (منزعج) (عصبي) (محبط) (مكتئب)
+(متعاطف) (محرج) (مشمئز) (متأثر) (فخور) (مسترخي)
+(ممتن) (واثق) (مهتم) (فضولي) (مرتبك) (مبتهج)
+```
+
+- **المشاعر المتقدمة**:
+```
+(محتقر) (غير سعيد) (قلق) (هستيري) (غير مبال) 
+(نافد الصبر) (مذنب) (ازدرائي) (مذعور) (غاضب) (مترد)
+(متحمس) (غير موافق) (سلبي) (منكر) (مندهش) (جدي)
+(ساخر) (مصالح) (مواسي) (صادق) (ساخر)
+(متردد) (مستسلم) (مؤلم) (محرج) (مسلي)
+```
+
+(الدعم للإنجليزية والصينية واليابانية الآن، والمزيد من اللغات قادم قريبًا!)
+
+- **علامات النبرة**:
+```
+(بنبرة مستعجلة) (صراخ) (صراخ) (همس) (نبرة ناعمة)
+```
+
+- **تأثيرات صوتية خاصة**:
+```
+(ضحك) (قهقهة) (نشيج) (بكاء بصوت عالٍ) (تنهد) (لهاث)
+(أنين) (ضحك الجمهور) (ضحك الخلفية) (ضحك الجمهور)
+```
+
+يمكنك أيضًا استخدام ها،ها،ها للتحكم، هناك العديد من الحالات الأخرى في انتظار استكشافك بنفسك.
+
+### **نوعان من النماذج**
+
+نقدم متغيرين من النماذج لتناسب الاحتياجات المختلفة:
+
+- **OpenAudio S1 (4 مليار معامل)**: نموذجنا الرئيسي كامل الميزات المتاح على [fish.audio](https://fish.audio)، يقدم أعلى جودة لتركيب الكلام مع جميع الميزات المتقدمة.
+
+- **OpenAudio S1-mini (0.5 مليار معامل)**: إصدار مقطر بالقدرات الأساسية، متاح على [Hugging Face Space](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini)، محسن للاستنتاج الأسرع مع الحفاظ على الجودة الممتازة.
+
+كل من S1 و S1-mini يدمجان التعلم المعزز عبر الإنترنت من ردود الفعل البشرية (RLHF).
+
+## **الميزات**
+
+1. **TTS بدون عينات وبعينات قليلة:** أدخل عينة صوتية من 10 إلى 30 ثانية لإنتاج مخرجات TTS عالية الجودة. **للإرشادات التفصيلية، راجع [أفضل ممارسات استنساخ الصوت](https://docs.fish.audio/text-to-speech/voice-clone-best-practices).**
+
+2. **الدعم متعدد اللغات وعبر اللغات:** ببساطة انسخ والصق النص متعدد اللغات في مربع الإدخال—لا حاجة للقلق بشأن اللغة. يدعم حاليًا الإنجليزية واليابانية والكورية والصينية والفرنسية والألمانية والعربية والإسبانية.
+
+3. **لا يعتمد على الصوتيات:** النموذج لديه قدرات تعميم قوية ولا يعتمد على الصوتيات لـ TTS. يمكنه التعامل مع النص في أي نص لغوي.
+
+4. **دقيق للغاية:** يحقق معدل خطأ أحرف منخفض (CER) حوالي 0.4% ومعدل خطأ كلمات (WER) حوالي 0.8% لـ Seed-TTS Eval.
+
+5. **سريع:** مع تسريع torch compile، عامل الوقت الحقيقي حوالي 1:7 على GPU Nvidia RTX 4090.
+
+6. **استنتاج WebUI:** يتميز بواجهة ويب سهلة الاستخدام قائمة على Gradio متوافقة مع Chrome وFirefox وEdge والمتصفحات الأخرى.
+
+7. **استنتاج GUI:** يوفر واجهة رسومية PyQt6 تعمل بسلاسة مع خادم API. يدعم Linux وWindows وmacOS. [راجع GUI](https://github.com/AnyaCoder/fish-speech-gui).
+
+8. **صديق للنشر:** قم بإعداد خادم استنتاج بسهولة مع دعم أصلي لـ Linux وWindows (MacOS قادم قريبًا)، مما يقلل من فقدان السرعة.
+
+## **الوسائط والعروض التوضيحية**
+
+<!-- <div align="center"> -->
+
+<h3><strong>وسائل التواصل الاجتماعي</strong></h3>
+<a href="https://x.com/FishAudio/status/1929915992299450398" target="_blank">
+    <img src="https://img.shields.io/badge/𝕏-أحدث_عرض_توضيحي-black?style=for-the-badge&logo=x&logoColor=white" alt="أحدث عرض توضيحي على X" />
+</a>
+
+<h3><strong>العروض التوضيحية التفاعلية</strong></h3>
+
+<a href="https://fish.audio" target="_blank">
+    <img src="https://img.shields.io/badge/Fish_Audio-جرب_OpenAudio_S1-blue?style=for-the-badge" alt="جرب OpenAudio S1" />
+</a>
+<a href="https://huggingface.co/spaces/fishaudio/openaudio-s1-mini" target="_blank">
+    <img src="https://img.shields.io/badge/Hugging_Face-جرب_S1_Mini-yellow?style=for-the-badge" alt="جرب S1 Mini" />
+</a>
+
+<h3><strong>عروض الفيديو</strong></h3>
+<div align="center">
+<iframe width="560" height="315" src="https://www.youtube.com/embed/SYuPvd7m06A" title="OpenAudio S1 Video" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>
+</div>
+
+## **الوثائق**
+
+### البداية السريعة
+- [بناء البيئة](install.md) - إعداد بيئة التطوير الخاصة بك
+- [دليل الاستنتاج](inference.md) - تشغيل النموذج وإنتاج الكلام
+
+## **المجتمع والدعم**
+
+- **Discord:** انضم إلى [مجتمع Discord](https://discord.gg/Es5qTB9BcN) الخاص بنا
+- **الموقع:** قم بزيارة [OpenAudio.com](https://openaudio.com) للحصول على آخر التحديثات
+- **جرب عبر الإنترنت:** [Fish Audio Playground](https://fish.audio)

+ 102 - 0
docs/ar/inference.md

@@ -0,0 +1,102 @@
+# الاستنتاج
+
+نظرًا لأن نموذج vocoder قد تغير، تحتاج إلى VRAM أكثر من ذي قبل، يُنصح بـ 12GB للاستنتاج السلس.
+
+ندعم سطر الأوامر و HTTP API و WebUI للاستنتاج، يمكنك اختيار أي طريقة تفضلها.
+
+## تحميل الأوزان
+
+أولاً تحتاج إلى تحميل أوزان النموذج:
+
+```bash
+huggingface-cli download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini
+```
+
+## استنتاج سطر الأوامر
+
+!!! note
+    إذا كنت تخطط لترك النموذج يختار نبرة صوت عشوائياً، يمكنك تخطي هذه الخطوة.
+
+### 1. الحصول على رموز VQ من الصوت المرجعي
+
+```bash
+python fish_speech/models/dac/inference.py \
+    -i "ref_audio_name.wav" \
+    --checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth"
+```
+
+يجب أن تحصل على `fake.npy` و `fake.wav`.
+
+### 2. إنتاج الرموز الدلالية من النص:
+
+```bash
+python fish_speech/models/text2semantic/inference.py \
+    --text "النص الذي تريد تحويله" \
+    --prompt-text "النص المرجعي الخاص بك" \
+    --prompt-tokens "fake.npy" \
+    --compile
+```
+
+هذا الأمر سينشئ ملف `codes_N` في دليل العمل، حيث N هو عدد صحيح يبدأ من 0.
+
+!!! note
+    قد ترغب في استخدام `--compile` لدمج نوى CUDA للاستنتاج الأسرع (~15 رمز/ثانية -> ~150 رمز/ثانية، على GPU RTX 4090).
+    وفقاً لذلك، إذا كنت لا تخطط لاستخدام التسريع، يمكنك التعليق على معامل `--compile`.
+
+!!! info
+    بالنسبة لوحدات GPU التي لا تدعم bf16، قد تحتاج إلى استخدام معامل `--half`.
+
+### 3. إنتاج الأصوات من الرموز الدلالية:
+
+!!! warning "تحذير مستقبلي"
+    لقد احتفظنا بإمكانية الوصول إلى الواجهة من المسار الأصلي (tools/vqgan/inference.py)، لكن هذه الواجهة قد تُزال في الإصدارات اللاحقة، لذا يرجى تغيير الكود الخاص بك في أقرب وقت ممكن.
+
+```bash
+python fish_speech/models/dac/inference.py \
+    -i "codes_0.npy"
+```
+
+## استنتاج HTTP API
+
+نوفر HTTP API للاستنتاج. يمكنك استخدام الأمر التالي لبدء الخادم:
+
+```bash
+python -m tools.api_server \
+    --listen 0.0.0.0:8080 \
+    --llama-checkpoint-path "checkpoints/openaudio-s1-mini" \
+    --decoder-checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth" \
+    --decoder-config-name modded_dac_vq
+```
+
+> إذا كنت تريد تسريع الاستنتاج، يمكنك إضافة معامل `--compile`.
+
+بعد ذلك، يمكنك عرض واختبار API على http://127.0.0.1:8080/.
+
+## استنتاج GUI 
+[تحميل العميل](https://github.com/AnyaCoder/fish-speech-gui/releases)
+
+## استنتاج WebUI
+
+يمكنك بدء WebUI باستخدام الأمر التالي:
+
+```bash
+python -m tools.run_webui \
+    --llama-checkpoint-path "checkpoints/openaudio-s1-mini" \
+    --decoder-checkpoint-path "checkpoints/openaudio-s1-mini/codec.pth" \
+    --decoder-config-name modded_dac_vq
+```
+
+أو ببساطة
+
+```bash
+python -m tools.run_webui
+```
+> إذا كنت تريد تسريع الاستنتاج، يمكنك إضافة معامل `--compile`.
+
+!!! note
+    يمكنك حفظ ملف التسمية وملف الصوت المرجعي مسبقاً في مجلد `references` في الدليل الرئيسي (الذي تحتاج إلى إنشاؤه بنفسك)، بحيث يمكنك استدعاؤها مباشرة في WebUI.
+
+!!! note
+    يمكنك استخدام متغيرات بيئة Gradio، مثل `GRADIO_SHARE`، `GRADIO_SERVER_PORT`، `GRADIO_SERVER_NAME` لتكوين WebUI.
+
+استمتع!

+ 43 - 0
docs/ar/install.md

@@ -0,0 +1,43 @@
+## متطلبات النظام
+
+- ذاكرة GPU: 12GB (للاستنتاج)
+- النظام: Linux، WSL
+
+## الإعداد
+
+أولاً تحتاج إلى تثبيت pyaudio و sox، والتي تُستخدم لمعالجة الصوت.
+
+``` bash
+apt install portaudio19-dev libsox-dev ffmpeg
+```
+
+### Conda
+
+```bash
+conda create -n fish-speech python=3.12
+conda activate fish-speech
+
+pip install -e .
+```
+
+### UV
+
+```bash
+uv sync --python 3.12
+```
+
+### دعم Intel Arc XPU
+
+```bash
+conda create -n fish-speech python=3.12
+conda activate fish-speech
+
+conda install libstdcxx -c conda-forge
+
+pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/xpu
+
+pip install -e .
+```
+
+!!! warning
+    خيار `compile` غير مدعوم على Windows و macOS، إذا كنت تريد التشغيل مع compile، تحتاج إلى تثبيت triton بنفسك.

+ 8 - 0
mkdocs.yml

@@ -69,6 +69,7 @@ plugins:
         - ja
         - pt
         - ko
+        - ar
   - i18n:
       docs_structure: folder
       languages:
@@ -104,6 +105,13 @@ plugins:
             - 소개: ko/index.md
             - 설치: ko/install.md
             - 추론: ko/inference.md
+        - locale: ar
+          name: العربية
+          build: true
+          nav:
+            - مقدمة: ar/index.md
+            - التثبيت: ar/install.md
+            - الاستنتاج: ar/inference.md
 
 markdown_extensions:
   - pymdownx.highlight: