Kaynağa Gözat

Docs/readme (#1140)

* update readme: brand

* update readme: sync languages
helena 3 ay önce
ebeveyn
işleme
d3df50503b
7 değiştirilmiş dosya ile 329 ekleme ve 190 silme
  1. 51 28
      README.md
  2. 57 34
      docs/README.ar.md
  3. 55 32
      docs/README.ja.md
  4. 56 32
      docs/README.ko.md
  5. 55 32
      docs/README.pt-BR.md
  6. 55 32
      docs/README.zh.md
  7. BIN
      docs/assets/Thumbnail.jpg

+ 51 - 28
README.md

@@ -50,47 +50,68 @@
 > **Legal Disclaimer**  
 > We do not hold any responsibility for any illegal usage of the codebase. Please refer to your local laws about DMCA and other related laws.
 
-## Start Here
+## FishAudio-S1  
+**True human-like Text-to-Speech and Voice Cloning**
 
-Here are the official documents for Fish Speech, follow the instructions to get started easily.
+FishAudio-S1 is an expressive text-to-speech (TTS) and voice cloning model developed by [Fish Audio](https://fish.audio/), designed to generate speech that sounds natural, realistic, and emotionally rich — not robotic, not flat, and not constrained to studio-style narration.
 
-- [Installation](https://speech.fish.audio/install/)
-- [Finetune](https://speech.fish.audio/finetune/)
-- [Inference](https://speech.fish.audio/inference/)
-- [Samples](https://speech.fish.audio/samples/)
+FishAudio-S1 focuses on how humans actually speak: with emotion, variation, pauses, and intent.
+
+### Announcement 🎉
 
-## 🎉 Announcement
+We are excited to announce that we have rebranded to **Fish Audio** — introducing a revolutionary new series of advanced Text-to-Speech models that builds upon the foundation of Fish-Speech.
 
-We are excited to announce that we have rebranded to **OpenAudio** — introducing a revolutionary new series of advanced Text-to-Speech models that builds upon the foundation of Fish-Speech.
+We are proud to release **FishAudio-S1** (also known as OpenAudio S1) as the first model in this series, delivering significant improvements in quality, performance, and capabilities.
 
-We are proud to release **OpenAudio-S1** as the first model in this series, delivering significant improvements in quality, performance, and capabilities.
+FishAudio-S1 comes in two versions: **FishAudio-S1** and **FishAudio-S1-mini**. Both models are now available on [Fish Audio Playground](https://fish.audio) (for **FishAudio-S1**) and [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini) (for **FishAudio-S1-mini**).
 
-OpenAudio-S1 comes in two versions: **OpenAudio-S1** and **OpenAudio-S1-mini**. Both models are now available on [Fish Audio Playground](https://fish.audio) (for **OpenAudio-S1**) and [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini) (for **OpenAudio-S1-mini**).
+Visit the [Fish Audio website](https://fish.audio/) for live playground tech report.
 
-Visit the [OpenAudio website](https://openaudio.com/blogs/s1) for blog & tech report.
+### Model Variants
 
-## Highlights ✨
+| Model | Size | Availability | Description |
+|------|------|-------------|-------------|
+| FishAudio-S1 | 4B parameters | [fish.audio](https://fish.audio/) | Full-featured flagship model with maximum quality and stability |
+| FishAudio-S1-mini | 0.5B parameters | [huggingface](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini) | Open-source distilled model with core capabilities |
+
+Both S1 and S1-mini incorporate online Reinforcement Learning from Human Feedback (RLHF).
+
+### Start Here
+
+Here are the official documents for Fish Speech, follow the instructions to get started easily.
+
+- [Installation](https://speech.fish.audio/install/)
+- [Finetune](https://speech.fish.audio/finetune/)
+- [Inference](https://speech.fish.audio/inference/)
+- [Samples](https://speech.fish.audio/samples/)
+
+## Highlights
 
 ### **Excellent TTS quality**
 
-We use Seed TTS Eval Metrics to evaluate the model performance, and the results show that OpenAudio S1 achieves **0.008 WER** and **0.004 CER** on English text, which is significantly better than previous models. (English, auto eval, based on OpenAI gpt-4o-transcribe, speaker distance using Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
+We use Seed TTS Eval Metrics to evaluate the model performance, and the results show that FishAudio S1 achieves **0.008 WER** and **0.004 CER** on English text, which is significantly better than previous models. (English, auto eval, based on OpenAI gpt-4o-transcribe, speaker distance using Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
 
 | Model | Word Error Rate (WER) | Character Error Rate (CER) | Speaker Distance |
 |-------|----------------------|---------------------------|------------------|
 | **S1** | **0.008**  | **0.004**  | **0.332** |
 | **S1-mini** | **0.011** | **0.005** | **0.380** |
 
+
 ### **Best Model in TTS-Arena2** 🏆
 
-OpenAudio S1 has achieved the **#1 ranking** on [TTS-Arena2](https://arena.speechcolab.org/), the benchmark for text-to-speech evaluation:
+FishAudio S1 has achieved the **#1 ranking** on [TTS-Arena2](https://arena.speechcolab.org/), the benchmark for text-to-speech evaluation:
 
 <div align="center">
     <img src="docs/assets/Elo.jpg" alt="TTS-Arena2 Ranking" style="width: 75%;" />
 </div>
 
-### **Speech Control**
+### True Human-Like Speech
 
-OpenAudio S1 **supports a variety of emotional, tone, and special markers** to enhance speech synthesis:
+FishAudio-S1 generates speech that sounds natural and conversational rather than robotic or overly polished. The model captures subtle variations in timing, emphasis, and prosody, avoiding the “studio recording” effect common in traditional TTS systems.
+
+### **Emotion Control and Expressiveness**
+
+FishAudio S1 is the first TTS model to support **open-domain fine-grained emotion control** through explicit emotion and tone markers. We can now precisely steer how a voice sounds:
 
 - **Basic emotions**:
 ```
@@ -122,16 +143,18 @@ OpenAudio S1 **supports a variety of emotional, tone, and special markers** to e
 
 You can also use Ha,ha,ha to control, there's many other cases waiting to be explored by yourself.
 
-(Support for English, Chinese and Japanese now, and more languages is coming soon!)
+### Multilingual Support
 
-### **Two Type of Models**
+FishAudio-S1 supports high-quality multilingual text-to-speech without requiring phonemes or language-specific preprocessing.
 
-| Model | Size | Availability | Features |
-|-------|------|--------------|----------|
-| **S1** | 4B parameters | Avaliable on [fish.audio](https://fish.audio/) | Full-featured flagship model |
-| **S1-mini** | 0.5B parameters | Avaliable on huggingface [hf space](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini) | Distilled version with core capabilities |
+**Languages supporting emotion markers include:**
+English, Chinese, Japanese, German, French, Spanish, Korean, Arabic, Russian, Dutch, Italian, Polish, and Portuguese.
 
-Both S1 and S1-mini incorporate online Reinforcement Learning from Human Feedback (RLHF).
+The list is constantly expanding, check [Fish Audio](https://fish.audio/) for the latest releases.
+
+### Rapid Voice Cloning
+
+FishAudio-S1 supports accurate voice cloning using a short reference sample (typically 10–30 seconds). The model captures timbre, speaking style, and emotional tendencies, producing realistic and consistent cloned voices without additional fine-tuning.
 
 ## **Features**
 
@@ -154,22 +177,22 @@ Both S1 and S1-mini incorporate online Reinforcement Learning from Human Feedbac
 <div align="center">
 
 ### **Social Media**
-<a href="https://x.com/FishAudio/status/1929915992299450398" target="_blank">
+<a href="https://x.com/hehe6z/status/1980303682932744439" target="_blank">
     <img src="https://img.shields.io/badge/𝕏-Latest_Demo-black?style=for-the-badge&logo=x&logoColor=white" alt="Latest Demo on X" />
 </a>
 
 ### **Interactive Demos**
 <a href="https://fish.audio" target="_blank">
-    <img src="https://img.shields.io/badge/Fish_Audio-Try_OpenAudio_S1-blue?style=for-the-badge" alt="Try OpenAudio S1" />
+    <img src="https://img.shields.io/badge/Fish.Audio-Try_FishAudio_S1-blue?style=for-the-badge" alt="Try FishAudio S1" />
 </a>
 <a href="https://huggingface.co/spaces/fishaudio/openaudio-s1-mini" target="_blank">
-    <img src="https://img.shields.io/badge/Hugging_Face-Try_S1_Mini-yellow?style=for-the-badge" alt="Try S1 Mini" />
+    <img src="https://img.shields.io/badge/Hugging_Face-Use_S1_Mini-yellow?style=for-the-badge" alt="Try S1 Mini" />
 </a>
 
 ### **Video Showcases**
 
-<a href="https://www.youtube.com/watch?v=SYuPvd7m06A" target="_blank">
-    <img src="docs/assets/Thumbnail.jpg" alt="OpenAudio S1 Video" style="width: 50%;" />
+<a href="https://www.youtube.com/watch?v=WR1FY32Lhps" target="_blank">
+    <img src="docs/assets/Thumbnail.jpg" alt="FishAudio S1 Video" style="width: 50%;" />
 </a>
 
 </div>

+ 57 - 34
docs/README.ar.md

@@ -43,58 +43,79 @@
 </div>
 
 > [!IMPORTANT]
-> **إشعار الترخيص**  
-> تم إصدار قاعدة الكود هذه بموجب **ترخيص Apache** وتم إصدار جميع أوزان النموذج بموجب **ترخيص CC-BY-NC-SA-4.0**. يرجى الرجوع إلى [LICENSE](LICENSE) لمزيد من التفاصيل.
+> **إشعار الترخيص**
+> تم إصدار قاعدة الكود هذه بموجب **ترخيص Apache** وتم إصدار جميع أوزان النموذج بموجب **ترخيص CC-BY-NC-SA-4.0**. يرجى الرجوع إلى [LICENSE](../LICENSE) لمزيد من التفاصيل.
 
 > [!WARNING]
-> **إخلاء المسؤولية القانوني**  
+> **إخلاء المسؤولية القانوني**
 > نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الكود. يرجى الرجوع إلى القوانين المحلية الخاصة بك فيما يتعلق بقانون الألفية الجديدة لحقوق طبع ونشر المواد الرقمية والقوانين الأخرى ذات الصلة.
 
-## ابدأ هنا
+## FishAudio-S1
+**تحويل النص إلى كلام واستنساخ الصوت بجودة تحاكي الإنسان**
 
-فيما يلي المستندات الرسمية لـ Fish Speech، اتبع التعليمات للبدء بسهولة.
+FishAudio-S1 هو نموذج معبر لتحويل النص إلى كلام (TTS) واستنساخ الصوت طورته [Fish Audio](https://fish.audio/)، مصمم لتوليد كلام يبدو طبيعيًا وواقعيًا وغنيًا عاطفيًا — ليس آليًا، وليس مسطحًا، وغير مقيد بأسلوب السرد الاستوديو.
 
-- [التثبيت](https://speech.fish.audio/install/)
-- [الضبط الدقيق](https://speech.fish.audio/finetune/)
-- [الاستدلال](https://speech.fish.audio/inference/)
-- [العينات](https://speech.fish.audio/examples)
+يركز FishAudio-S1 على كيفية تحدث البشر فعليًا: بعاطفة وتنوع وتوقفات ونية.
+
+### إعلان 🎉
 
-## 🎉 إعلان
+يسعدنا أن نعلن أننا قمنا بإعادة تسمية العلامة التجارية إلى **Fish Audio** — تقديم سلسلة جديدة ثورية من نماذج تحويل النص إلى كلام المتقدمة التي تبني على أساس Fish-Speech.
 
-يسعدنا أن نعلن أننا قمنا بإعادة تسمية العلامة التجارية إلى **OpenAudio** — تقديم سلسلة جديدة ثورية من نماذج تحويل النص إلى كلام المتقدمة التي تبني على أساس Fish-Speech.
+نحن فخورون بإصدار **FishAudio-S1** (المعروف أيضًا باسم OpenAudio S1) كنموذج أول في هذه السلسلة، حيث يوفر تحسينات كبيرة في الجودة والأداء والقدرات.
 
-نحن فخورون بإصدار **OpenAudio-S1** كنموذج أول في هذه السلسلة، حيث يوفر تحسينات كبيرة في الجودة والأداء والقدرات.
+يأتي FishAudio-S1 في نسختين: **FishAudio-S1** و **FishAudio-S1-mini**. كلا النموذجين متاحان الآن على [Fish Audio Playground](https://fish.audio) (لـ **FishAudio-S1**) و [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini) (لـ **FishAudio-S1-mini**).
 
-يأتي OpenAudio-S1 في نسختين: **OpenAudio-S1** و **OpenAudio-S1-mini**. كلا النموذجين متاحان الآن على [Fish Audio Playground](https://fish.audio) (لـ **OpenAudio-S1**) و [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini) (لـ **OpenAudio-S1-mini**).
+قم بزيارة [موقع Fish Audio](https://fish.audio/) للـ playground المباشر والتقرير التقني.
 
-قم بزيارة [موقع OpenAudio](https://openaudio.com/blogs/s1) للمدونة والتقرير التقني.
+### متغيرات النموذج
 
-## أبرز المميزات ✨
+| النموذج | الحجم | التوفر | الوصف |
+|------|------|-------------|-------------|
+| FishAudio-S1 | 4B معامل | [fish.audio](https://fish.audio/) | النموذج الرئيسي كامل الميزات مع أقصى جودة واستقرار |
+| FishAudio-S1-mini | 0.5B معامل | [huggingface](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini) | نموذج مقطر مفتوح المصدر بالقدرات الأساسية |
+
+كلا النموذجين S1 و S1-mini يتضمنان التعلم المعزز من التغذية الراجعة البشرية (RLHF) عبر الإنترنت.
+
+### ابدأ هنا
+
+فيما يلي المستندات الرسمية لـ Fish Speech، اتبع التعليمات للبدء بسهولة.
+
+- [التثبيت](https://speech.fish.audio/install/)
+- [الضبط الدقيق](https://speech.fish.audio/finetune/)
+- [الاستدلال](https://speech.fish.audio/inference/)
+- [العينات](https://speech.fish.audio/samples/)
+
+## أبرز المميزات
 
 ### **جودة TTS ممتازة**
 
-نستخدم مقاييس تقييم Seed TTS لتقييم أداء النموذج، وتظهر النتائج أن OpenAudio S1 يحقق **0.008 WER** و **0.004 CER** على النص الإنجليزي، وهو أفضل بشكل ملحوظ من النماذج السابقة. (الإنجليزية، التقييم التلقائي، بناءً على OpenAI gpt-4o-transcribe، مسافة المتحدث باستخدام Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
+نستخدم مقاييس تقييم Seed TTS لتقييم أداء النموذج، وتظهر النتائج أن FishAudio S1 يحقق **0.008 WER** و **0.004 CER** على النص الإنجليزي، وهو أفضل بشكل ملحوظ من النماذج السابقة. (الإنجليزية، التقييم التلقائي، بناءً على OpenAI gpt-4o-transcribe، مسافة المتحدث باستخدام Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
 
 | النموذج | معدل الخطأ في الكلمات (WER) | معدل الخطأ في الأحرف (CER) | مسافة المتحدث |
 |-------|----------------------|---------------------------|------------------|
 | **S1** | **0.008**  | **0.004**  | **0.332** |
 | **S1-mini** | **0.011** | **0.005** | **0.380** |
 
+
 ### **أفضل نموذج في TTS-Arena2** 🏆
 
-حقق OpenAudio S1 **المركز الأول** على [TTS-Arena2](https://arena.speechcolab.org/)، المعيار لتقييم تحويل النص إلى كلام:
+حقق FishAudio S1 **المركز الأول** على [TTS-Arena2](https://arena.speechcolab.org/)، المعيار لتقييم تحويل النص إلى كلام:
 
 <div align="center">
     <img src="../docs/assets/Elo.jpg" alt="TTS-Arena2 Ranking" style="width: 75%;" />
 </div>
 
-### **التحكم في الكلام**
+### كلام يشبه الإنسان حقًا
 
-يدعم OpenAudio S1 **مجموعة متنوعة من العلامات العاطفية والنبرة والعلامات الخاصة** لتعزيز تخليق الكلام:
+يولد FishAudio-S1 كلامًا يبدو طبيعيًا ومحادثيًا بدلاً من الآلي أو المصقول بشكل مفرط. يلتقط النموذج التنوعات الدقيقة في التوقيت والتأكيد والنبرة، متجنبًا تأثير "التسجيل الاستوديو" الشائع في أنظمة TTS التقليدية.
+
+### **التحكم في العواطف والتعبيرية**
+
+FishAudio S1 هو أول نموذج TTS يدعم **التحكم الدقيق في العواطف في المجال المفتوح** من خلال علامات العاطفة والنبرة الصريحة. يمكننا الآن توجيه كيفية صوت الصوت بدقة:
 
 - **العواطف الأساسية**:
 ```
-(غاضب) (حزين) (متحمس) (مندهش) (راضي) (مسرور) 
+(غاضب) (حزين) (متحمس) (مندهش) (راضي) (مسرور)
 (خائف) (قلق) (منزعج) (متوتر) (محبط) (مكتئب)
 (متعاطف) (محرج) (مشمئز) (متحرك) (فخور) (مرتاح)
 (ممتن) (واثق) (مهتم) (فضولي) (مرتبك) (مبتهج)
@@ -102,7 +123,7 @@
 
 - **العواطف المتقدمة**:
 ```
-(محتقر) (غير سعيد) (قلق) (هستيري) (غير مبال) 
+(محتقر) (غير سعيد) (قلق) (هستيري) (غير مبال)
 (غير صبور) (مذنب) (ساخر) (ذعر) (غاضب) (متردد)
 (متحمس) (غير موافق) (سلبي) (نافي) (مندهش) (جاد)
 (ساخر) (مصالح) (مريح) (صادق) (ساخر)
@@ -122,16 +143,18 @@
 
 يمكنك أيضًا استخدام Ha,ha,ha للتحكم، وهناك العديد من الحالات الأخرى التي تنتظر استكشافها بنفسك.
 
-(الدعم متاح للإنجليزية والصينية واليابانية الآن، والمزيد من اللغات قريبًا!)
+### دعم متعدد اللغات
 
-### **نوعان من النماذج**
+يدعم FishAudio-S1 تحويل النص إلى كلام متعدد اللغات عالي الجودة دون الحاجة إلى الفونيمات أو المعالجة المسبقة الخاصة باللغة.
 
-| النموذج | الحجم | التوفر | الميزات |
-|-------|------|--------------|----------|
-| **S1** | 4B معامل | متوفر على [fish.audio](https://fish.audio/) | النموذج الرئيسي كامل الميزات |
-| **S1-mini** | 0.5B معامل | متوفر على huggingface [hf space](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini) | نسخة مقطرة بالقدرات الأساسية |
+**اللغات التي تدعم علامات العاطفة تشمل:**
+الإنجليزية، الصينية، اليابانية، الألمانية، الفرنسية، الإسبانية، الكورية، العربية، الروسية، الهولندية، الإيطالية، البولندية، والبرتغالية.
 
-كلا النموذجين S1 و S1-mini يتضمنان التعلم المعزز من التغذية الراجعة البشرية (RLHF) عبر الإنترنت.
+القائمة في توسع مستمر، تحقق من [Fish Audio](https://fish.audio/) لأحدث الإصدارات.
+
+### استنساخ الصوت السريع
+
+يدعم FishAudio-S1 استنساخ الصوت الدقيق باستخدام عينة مرجعية قصيرة (عادة 10-30 ثانية). يلتقط النموذج الجرس وأسلوب الكلام والميول العاطفية، مما ينتج أصواتًا مستنسخة واقعية ومتسقة دون ضبط دقيق إضافي.
 
 ## **الميزات**
 
@@ -154,22 +177,22 @@
 <div align="center">
 
 ### **وسائل التواصل الاجتماعي**
-<a href="https://x.com/FishAudio/status/1929915992299450398" target="_blank">
-    <img src="https://img.shields.io/badge/𝕏-أحدث_عرض_توضيحي-black?style=for-the-badge&logo=x&logoColor=white" alt="أحدث عرض توضيحي على X" />
+<a href="https://x.com/hehe6z/status/1980303682932744439" target="_blank">
+    <img src="https://img.shields.io/badge/𝕏-Latest_Demo-black?style=for-the-badge&logo=x&logoColor=white" alt="أحدث عرض توضيحي على X" />
 </a>
 
 ### **العروض التوضيحية التفاعلية**
 <a href="https://fish.audio" target="_blank">
-    <img src="https://img.shields.io/badge/Fish_Audio-جرب_OpenAudio_S1-blue?style=for-the-badge" alt="جرب OpenAudio S1" />
+    <img src="https://img.shields.io/badge/Fish.Audio-Try_FishAudio_S1-blue?style=for-the-badge" alt="جرب FishAudio S1" />
 </a>
 <a href="https://huggingface.co/spaces/fishaudio/openaudio-s1-mini" target="_blank">
-    <img src="https://img.shields.io/badge/Hugging_Face-جرب_S1_Mini-yellow?style=for-the-badge" alt="جرب S1 Mini" />
+    <img src="https://img.shields.io/badge/Hugging_Face-Use_S1_Mini-yellow?style=for-the-badge" alt="استخدم S1 Mini" />
 </a>
 
 ### **عروض الفيديو**
 
-<a href="https://www.youtube.com/watch?v=SYuPvd7m06A" target="_blank">
-    <img src="../docs/assets/Thumbnail.jpg" alt="فيديو OpenAudio S1" style="width: 50%;" />
+<a href="https://www.youtube.com/watch?v=WR1FY32Lhps" target="_blank">
+    <img src="../docs/assets/Thumbnail.jpg" alt="فيديو FishAudio S1" style="width: 50%;" />
 </a>
 
 </div>

+ 55 - 32
docs/README.ja.md

@@ -43,58 +43,79 @@
 </div>
 
 > [!IMPORTANT]
-> **ライセンス注意事項**  
+> **ライセンス注意事項**
 > このコードベースは**Apache License**の下でリリースされ、すべてのモデルウェイトは**CC-BY-NC-SA-4.0 License**の下でリリースされています。詳細については[LICENSE](../LICENSE)をご参照ください。
 
 > [!WARNING]
-> **法的免責事項**  
+> **法的免責事項**
 > 私たちはコードベースの不法な使用について一切の責任を負いません。DMCA及びその他の関連法律について、現地の法律をご参照ください。
 
-## はじめに
+## FishAudio-S1
+**人間のように自然な音声合成と音声クローニング**
 
-こちらは Fish Speech の公式ドキュメントです。手順に従って簡単に始めることができます
+FishAudio-S1は、[Fish Audio](https://fish.audio/)が開発した表現力豊かなtext-to-speech (TTS) と音声クローニングモデルです。自然で、リアルで、感情豊かな音声を生成するように設計されています——ロボット的でなく、平坦でなく、スタジオ風のナレーションに制限されません
 
-- [インストール](https://speech.fish.audio/ja/install/)
-- [ファインチューニング](https://speech.fish.audio/ja/finetune/)
-- [推論](https://speech.fish.audio/ja/inference/)
-- [サンプル](https://speech.fish.audio/examples)
+FishAudio-S1は、人間が実際に話す方法に焦点を当てています:感情、変化、間、意図を持って。
+
+### 発表 🎉
 
-## 🎉 発表
+**Fish Audio**へのリブランドを発表できることを嬉しく思います。Fish-Speechの基盤を元に構築された、革新的な新しい高度Text-to-Speechモデルシリーズを紹介します。
 
-**OpenAudio**へのリブランドを発表できることを嬉しく思います。Fish-Speechの基盤を元に構築された、革新的な新しい高度Text-to-Speechモデルシリーズを紹介します
+このシリーズの最初のモデルとして**FishAudio-S1**(OpenAudio S1としても知られる)をリリースできることを誇りに思います。品質、性能、機能において大幅な改善を実現しました
 
-このシリーズの最初のモデルとして**OpenAudio-S1**をリリースできることを誇りに思います。品質、性能、機能において大幅な改善を実現しました
+FishAudio-S1には2つのバージョンがあります:**FishAudio-S1**と**FishAudio-S1-mini**。両モデルとも[Fish Audio Playground](https://fish.audio)(**FishAudio-S1**用)と[Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini)(**FishAudio-S1-mini**用)で利用可能です
 
-OpenAudio-S1には2つのバージョンがあります:**OpenAudio-S1**と**OpenAudio-S1-mini**。両モデルとも[Fish Audio Playground](https://fish.audio)(**OpenAudio-S1**用)と[Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini)(**OpenAudio-S1-mini**用)で利用可能です
+ライブplaygroundと技術レポートについては[Fish Audioウェブサイト](https://fish.audio/)をご覧ください
 
-ブログと技術レポートについては[OpenAudioウェブサイト](https://openaudio.com/blogs/s1)をご覧ください。
+### モデルバリアント
 
-## ハイライト ✨
+| モデル | サイズ | 利用可能性 | 説明 |
+|------|------|-------------|-------------|
+| FishAudio-S1 | 4Bパラメータ | [fish.audio](https://fish.audio/) | 最高品質と安定性を備えたフル機能のフラッグシップモデル |
+| FishAudio-S1-mini | 0.5Bパラメータ | [huggingface](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini) | コア機能を持つオープンソース蒸留モデル |
+
+S1とS1-miniの両方がオンライン人間フィードバック強化学習(RLHF)を組み込んでいます。
+
+### はじめに
+
+こちらは Fish Speech の公式ドキュメントです。手順に従って簡単に始めることができます。
+
+- [インストール](https://speech.fish.audio/ja/install/)
+- [ファインチューニング](https://speech.fish.audio/ja/finetune/)
+- [推論](https://speech.fish.audio/ja/inference/)
+- [サンプル](https://speech.fish.audio/samples/)
+
+## ハイライト
 
 ### **優秀なTTS品質**
 
-Seed TTS Eval Metricsを使用してモデル性能を評価した結果、OpenAudio S1は英語テキストで**0.008 WER**と**0.004 CER**を達成し、これは従来のモデルより大幅に優れています。(英語、自動評価、OpenAI gpt-4o-transcribeベース、Revai/pyannote-wespeaker-voxceleb-resnet34-LMを使用した話者距離)
+Seed TTS Eval Metricsを使用してモデル性能を評価した結果、FishAudio S1は英語テキストで**0.008 WER**と**0.004 CER**を達成し、これは従来のモデルより大幅に優れています。(英語、自動評価、OpenAI gpt-4o-transcribeベース、Revai/pyannote-wespeaker-voxceleb-resnet34-LMを使用した話者距離)
 
 | モデル | 単語誤り率 (WER) | 文字誤り率 (CER) | 話者距離 |
 |-------|------------------|------------------|----------|
 | **S1** | **0.008** | **0.004** | **0.332** |
 | **S1-mini** | **0.011** | **0.005** | **0.380** |
 
+
 ### **TTS-Arena2でのベストモデル** 🏆
 
-OpenAudio S1は、テキスト音声変換評価のベンチマークである[TTS-Arena2](https://arena.speechcolab.org/)で**1位**を獲得しました:
+FishAudio S1は、テキスト音声変換評価のベンチマークである[TTS-Arena2](https://arena.speechcolab.org/)で**1位**を獲得しました:
 
 <div align="center">
     <img src="assets/Elo.jpg" alt="TTS-Arena2 Ranking" style="width: 75%;" />
 </div>
 
-### **音声制御**
+### 真に人間らしい音声
 
-OpenAudio S1は**音声合成を強化するための様々な感情、トーン、特別なマーカーをサポート**しています:
+FishAudio-S1は、ロボット的または過度に洗練されたものではなく、自然で会話的な音声を生成します。モデルはタイミング、強調、韻律の微妙な変化を捉え、従来のTTSシステムに共通する「スタジオ録音」効果を回避します。
+
+### **感情制御と表現力**
+
+FishAudio S1は、明示的な感情とトーンマーカーを通じて**オープンドメインの細粒度感情制御**をサポートする最初のTTSモデルです。音声の響き方を正確に制御できるようになりました:
 
 - **基本感情**:
 ```
-(怒った) (悲しい) (興奮した) (驚いた) (満足した) (喜んだ) 
+(怒った) (悲しい) (興奮した) (驚いた) (満足した) (喜んだ)
 (恐れた) (心配した) (動揺した) (緊張した) (イライラした) (憂鬱な)
 (共感的な) (恥ずかしい) (嫌悪した) (感動した) (誇らしい) (リラックスした)
 (感謝する) (自信のある) (興味のある) (好奇心のある) (混乱した) (喜びに満ちた)
@@ -102,7 +123,7 @@ OpenAudio S1は**音声合成を強化するための様々な感情、トーン
 
 - **高度な感情**:
 ```
-(軽蔑的な) (不幸な) (不安な) (ヒステリックな) (無関心な) 
+(軽蔑的な) (不幸な) (不安な) (ヒステリックな) (無関心な)
 (せっかちな) (罪悪感のある) (軽蔑した) (パニックした) (激怒した) (しぶしぶの)
 (熱心な) (不賛成の) (否定的な) (否認する) (驚愕した) (真剣な)
 (皮肉な) (宥める) (慰める) (誠実な) (冷笑する)
@@ -122,16 +143,18 @@ OpenAudio S1は**音声合成を強化するための様々な感情、トーン
 
 また、「ハ、ハ、ハ」を使って制御することもでき、あなた自身が探索できる多くの他のケースがあります。
 
-(現在、英語、中国語、日本語をサポートしており、より多くの言語が近日公開予定です!)
+### 多言語サポート
 
-### **2種類のモデル**
+FishAudio-S1は、音素や言語固有の前処理を必要とせずに、高品質な多言語text-to-speechをサポートしています。
 
-| モデル | サイズ | 利用可能性 | 機能 |
-|-------|------|--------------|----------|
-| **S1** | 4Bパラメータ | [fish.audio](https://fish.audio/)で利用可能 | フル機能のフラッグシップモデル |
-| **S1-mini** | 0.5Bパラメータ | huggingface [hf space](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini)で利用可能 | コア機能を持つ蒸留版 |
+**感情マーカーをサポートする言語:**
+英語、中国語、日本語、ドイツ語、フランス語、スペイン語、韓国語、アラビア語、ロシア語、オランダ語、イタリア語、ポーランド語、ポルトガル語。
 
-S1とS1-miniの両方がオンライン人間フィードバック強化学習(RLHF)を組み込んでいます。
+リストは常に拡大しています。最新リリースについては[Fish Audio](https://fish.audio/)をご確認ください。
+
+### 高速音声クローニング
+
+FishAudio-S1は、短い参照サンプル(通常10〜30秒)を使用した正確な音声クローニングをサポートしています。モデルは音色、話し方、感情傾向を捉え、追加のファインチューニングなしでリアルで一貫したクローン音声を生成します。
 
 ## **機能**
 
@@ -154,22 +177,22 @@ S1とS1-miniの両方がオンライン人間フィードバック強化学習
 <div align="center">
 
 ### **ソーシャルメディア**
-<a href="https://x.com/FishAudio/status/1929915992299450398" target="_blank">
+<a href="https://x.com/hehe6z/status/1980303682932744439" target="_blank">
     <img src="https://img.shields.io/badge/𝕏-Latest_Demo-black?style=for-the-badge&logo=x&logoColor=white" alt="Latest Demo on X" />
 </a>
 
 ### **インタラクティブデモ**
 <a href="https://fish.audio" target="_blank">
-    <img src="https://img.shields.io/badge/Fish_Audio-Try_OpenAudio_S1-blue?style=for-the-badge" alt="Try OpenAudio S1" />
+    <img src="https://img.shields.io/badge/Fish.Audio-Try_FishAudio_S1-blue?style=for-the-badge" alt="Try FishAudio S1" />
 </a>
 <a href="https://huggingface.co/spaces/fishaudio/openaudio-s1-mini" target="_blank">
-    <img src="https://img.shields.io/badge/Hugging_Face-Try_S1_Mini-yellow?style=for-the-badge" alt="Try S1 Mini" />
+    <img src="https://img.shields.io/badge/Hugging_Face-Use_S1_Mini-yellow?style=for-the-badge" alt="Use S1 Mini" />
 </a>
 
 ### **ビデオショーケース**
 
-<a href="https://www.youtube.com/watch?v=SYuPvd7m06A" target="_blank">
-    <img src="assets/Thumbnail.jpg" alt="OpenAudio S1 Video" style="width: 50%;" />
+<a href="https://www.youtube.com/watch?v=WR1FY32Lhps" target="_blank">
+    <img src="assets/Thumbnail.jpg" alt="FishAudio S1 Video" style="width: 50%;" />
 </a>
 
 </div>

+ 56 - 32
docs/README.ko.md

@@ -43,57 +43,79 @@
 </div>
 
 > [!IMPORTANT]
-> **라이선스 고지사항**  
+> **라이선스 고지사항**
 > 이 코드베이스는 **Apache License** 하에 릴리스되며, 모든 모델 가중치는 **CC-BY-NC-SA-4.0 License** 하에 릴리스됩니다. 자세한 내용은 [LICENSE](../LICENSE)를 참조하세요.
 
 > [!WARNING]
-> **법적 면책조항**  
+> **법적 면책조항**
 > 저희는 코드베이스의 불법적인 사용에 대해 어떠한 책임도 지지 않습니다. DMCA 및 기타 관련 법률에 대한 현지 법률을 참조하세요.
 
-## 시작하기
+## FishAudio-S1
+**사람처럼 자연스러운 음성 합성과 음성 복제**
 
-여기는 Fish Speech의 공식 문서입니다. 지침을 따라 쉽게 시작하세요.
+FishAudio-S1은 [Fish Audio](https://fish.audio/)가 개발한 표현력 있는 text-to-speech (TTS) 및 음성 복제 모델입니다. 자연스럽고, 사실적이며, 감정이 풍부한 음성을 생성하도록 설계되었습니다 — 로봇같지 않고, 평평하지 않으며, 스튜디오 스타일 나레이션에 제한되지 않습니다.
 
-- [설치](https://speech.fish.audio/ko/install/)
-- [파인튜닝](https://speech.fish.audio/ko/finetune/)
-- [추론](https://speech.fish.audio/ko/inference/)
-- [샘플](https://speech.fish.audio/examples)
+FishAudio-S1은 인간이 실제로 말하는 방식에 초점을 맞춥니다: 감정, 변화, 휴지, 의도를 가지고.
+
+### 발표 🎉
+
+**Fish Audio**로의 리브랜딩을 발표하게 되어 기쁩니다. Fish-Speech의 기반 위에 구축된 혁신적인 새로운 고급 Text-to-Speech 모델 시리즈를 소개합니다.
 
-## 🎉 발표
+이 시리즈의 첫 번째 모델인 **FishAudio-S1** (OpenAudio S1으로도 알려짐)을 출시하게 되어 자랑스럽습니다. 품질, 성능, 기능에서 상당한 개선을 제공합니다.
 
-**OpenAudio**로의 리브랜딩을 발표하게 되어 기쁩니다. Fish-Speech의 기반 위에 구축된 혁신적인 새로운 고급 Text-to-Speech 모델 시리즈를 소개합니다.
+FishAudio-S1은 두 가지 버전으로 제공됩니다: **FishAudio-S1**과 **FishAudio-S1-mini**. 두 모델 모두 [Fish Audio Playground](https://fish.audio)(**FishAudio-S1**용)와 [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini)(**FishAudio-S1-mini**용)에서 사용할 수 있습니다.
+
+라이브 playground와 기술 보고서는 [Fish Audio 웹사이트](https://fish.audio/)를 방문하세요.
+
+### 모델 변형
+
+| 모델 | 크기 | 가용성 | 설명 |
+|------|------|-------------|-------------|
+| FishAudio-S1 | 4B 매개변수 | [fish.audio](https://fish.audio/) | 최고 품질과 안정성을 갖춘 전체 기능 플래그십 모델 |
+| FishAudio-S1-mini | 0.5B 매개변수 | [huggingface](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini) | 핵심 기능을 갖춘 오픈소스 증류 모델 |
+
+S1과 S1-mini 모두 온라인 인간 피드백 강화학습(RLHF)을 통합하고 있습니다.
 
-이 시리즈의 첫 번째 모델인 **OpenAudio-S1**을 출시하게 되어 자랑스럽습니다. 품질, 성능, 기능에서 상당한 개선을 제공합니다.
+### 시작하기
 
-OpenAudio-S1은 두 가지 버전으로 제공됩니다: **OpenAudio-S1**과 **OpenAudio-S1-mini**. 두 모델 모두 [Fish Audio Playground](https://fish.audio)(**OpenAudio-S1**용)와 [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini)(**OpenAudio-S1-mini**용)에서 사용할 수 있습니다.
+여기는 Fish Speech의 공식 문서입니다. 지침을 따라 쉽게 시작하세요.
 
-블로그와 기술 보고서는 [OpenAudio 웹사이트](https://openaudio.com/blogs/s1)를 방문하세요.
+- [설치](https://speech.fish.audio/ko/install/)
+- [파인튜닝](https://speech.fish.audio/ko/finetune/)
+- [추론](https://speech.fish.audio/ko/inference/)
+- [샘플](https://speech.fish.audio/samples/)
 
-## 주요 특징 ✨
+## 주요 특징
 
 ### **뛰어난 TTS 품질**
 
-우리는 Seed TTS Eval Metrics를 사용하여 모델 성능을 평가했으며, 결과에 따르면 OpenAudio S1은 영어 텍스트에서 **0.008 WER**과 **0.004 CER**을 달성하여 이전 모델들보다 상당히 우수한 성능을 보입니다. (영어, 자동 평가, OpenAI gpt-4o-transcribe 기반, Revai/pyannote-wespeaker-voxceleb-resnet34-LM을 사용한 화자 거리)
+우리는 Seed TTS Eval Metrics를 사용하여 모델 성능을 평가했으며, 결과에 따르면 FishAudio S1은 영어 텍스트에서 **0.008 WER**과 **0.004 CER**을 달성하여 이전 모델들보다 상당히 우수한 성능을 보입니다. (영어, 자동 평가, OpenAI gpt-4o-transcribe 기반, Revai/pyannote-wespeaker-voxceleb-resnet34-LM을 사용한 화자 거리)
 
 | 모델 | 단어 오류율 (WER) | 문자 오류율 (CER) | 화자 거리 |
 |-------|----------------------|---------------------------|------------------|
 | **S1** | **0.008**  | **0.004**  | **0.332** |
 | **S1-mini** | **0.011** | **0.005** | **0.380** |
 
+
 ### **TTS-Arena2 최고 모델** 🏆
 
-OpenAudio S1은 텍스트 음성 변환 평가의 벤치마크인 [TTS-Arena2](https://arena.speechcolab.org/)에서 **1위**를 달성했습니다:
+FishAudio S1은 텍스트 음성 변환 평가의 벤치마크인 [TTS-Arena2](https://arena.speechcolab.org/)에서 **1위**를 달성했습니다:
 
 <div align="center">
     <img src="../docs/assets/Elo.jpg" alt="TTS-Arena2 순위" style="width: 75%;" />
 </div>
 
-### **음성 제어**
-OpenAudio S1은 **음성 합성을 향상시키기 위한 다양한 감정, 톤, 특별한 마커를 지원**합니다:
+### 진정한 인간다운 음성
+
+FishAudio-S1은 로봇같거나 과도하게 다듬어진 것이 아닌, 자연스럽고 대화적인 음성을 생성합니다. 모델은 타이밍, 강조, 운율의 미묘한 변화를 포착하여 전통적인 TTS 시스템에서 흔한 "스튜디오 녹음" 효과를 피합니다.
+
+### **감정 제어 및 표현력**
+
+FishAudio S1은 명시적 감정 및 톤 마커를 통해 **오픈 도메인 세밀한 감정 제어**를 지원하는 최초의 TTS 모델입니다. 이제 음성이 어떻게 들릴지 정확하게 제어할 수 있습니다:
 
 - **기본 감정**:
 ```
-(화난) (슬픈) (흥분한) (놀란) (만족한) (기쁜) 
+(화난) (슬픈) (흥분한) (놀란) (만족한) (기쁜)
 (무서워하는) (걱정하는) (속상한) (긴장한) (좌절한) (우울한)
 (공감하는) (당황한) (역겨워하는) (감동한) (자랑스러운) (편안한)
 (감사하는) (자신있는) (관심있는) (호기심있는) (혼란스러운) (즐거운)
@@ -101,7 +123,7 @@ OpenAudio S1은 **음성 합성을 향상시키기 위한 다양한 감정, 톤,
 
 - **고급 감정**:
 ```
-(경멸하는) (불행한) (불안한) (히스테리한) (무관심한) 
+(경멸하는) (불행한) (불안한) (히스테리한) (무관심한)
 (조급한) (죄책감있는) (냉소적인) (공황상태인) (분노한) (마지못한)
 (열성적인) (반대하는) (부정적인) (부인하는) (놀란) (진지한)
 (비꼬는) (달래는) (위로하는) (진심인) (비웃는)
@@ -121,16 +143,18 @@ OpenAudio S1은 **음성 합성을 향상시키기 위한 다양한 감정, 톤,
 
 또한 **하, 하, 하**를 사용하여 제어할 수도 있으며, 여러분이 직접 탐험할 수 있는 많은 다른 경우들이 있습니다.
 
-(현재 영어, 중국어, 일본어를 지원하며, 더 많은 언어가 곧 추가될 예정입니다!)
+### 다국어 지원
 
-### **두 가지 유형의 모델**
+FishAudio-S1은 음소나 언어별 전처리 없이 고품질 다국어 text-to-speech를 지원합니다.
 
-| 모델 | 크기 | 가용성 | 특징 |
-|-------|------|--------------|----------|
-| **S1** | 4B 매개변수 | [fish.audio](https://fish.audio)에서 사용 가능 | 모든 기능을 갖춘 플래그십 모델 |
-| **S1-mini** | 0.5B 매개변수 | 허깅페이스 [hf space](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini)에서 사용 가능 | 핵심 기능을 갖춘 증류 버전 |
+**감정 마커를 지원하는 언어:**
+영어, 중국어, 일본어, 독일어, 프랑스어, 스페인어, 한국어, 아랍어, 러시아어, 네덜란드어, 이탈리아어, 폴란드어, 포르투갈어.
 
-S1과 S1-mini 모두 온라인 인간 피드백 강화학습(RLHF)을 통합하고 있습니다.
+목록은 계속 확장되고 있습니다. 최신 릴리스는 [Fish Audio](https://fish.audio/)를 확인하세요.
+
+### 빠른 음성 복제
+
+FishAudio-S1은 짧은 참조 샘플(일반적으로 10-30초)을 사용한 정확한 음성 복제를 지원합니다. 모델은 음색, 말하기 스타일, 감정 성향을 포착하여 추가 파인튜닝 없이 사실적이고 일관된 복제 음성을 생성합니다.
 
 ## **기능**
 
@@ -153,22 +177,22 @@ S1과 S1-mini 모두 온라인 인간 피드백 강화학습(RLHF)을 통합하
 <div align="center">
 
 ### **소셜 미디어**
-<a href="https://x.com/FishAudio/status/1929915992299450398" target="_blank">
+<a href="https://x.com/hehe6z/status/1980303682932744439" target="_blank">
     <img src="https://img.shields.io/badge/𝕏-Latest_Demo-black?style=for-the-badge&logo=x&logoColor=white" alt="X에서 최신 데모" />
 </a>
 
 ### **인터랙티브 데모**
 <a href="https://fish.audio" target="_blank">
-    <img src="https://img.shields.io/badge/Fish_Audio-Try_OpenAudio_S1-blue?style=for-the-badge" alt="OpenAudio S1 체험하기" />
+    <img src="https://img.shields.io/badge/Fish.Audio-Try_FishAudio_S1-blue?style=for-the-badge" alt="FishAudio S1 체험하기" />
 </a>
 <a href="https://huggingface.co/spaces/fishaudio/openaudio-s1-mini" target="_blank">
-    <img src="https://img.shields.io/badge/Hugging_Face-Try_S1_Mini-yellow?style=for-the-badge" alt="S1 Mini 체험하기" />
+    <img src="https://img.shields.io/badge/Hugging_Face-Use_S1_Mini-yellow?style=for-the-badge" alt="S1 Mini 사용하기" />
 </a>
 
 ### **비디오 쇼케이스**
 
-<a href="https://www.youtube.com/watch?v=SYuPvd7m06A" target="_blank">
-    <img src="../docs/assets/Thumbnail.jpg" alt="OpenAudio S1 Video" style="width: 50%;" />
+<a href="https://www.youtube.com/watch?v=WR1FY32Lhps" target="_blank">
+    <img src="../docs/assets/Thumbnail.jpg" alt="FishAudio S1 Video" style="width: 50%;" />
 </a>
 
 </div>

+ 55 - 32
docs/README.pt-BR.md

@@ -43,58 +43,79 @@
 </div>
 
 > [!IMPORTANT]
-> **Aviso de Licença**  
+> **Aviso de Licença**
 > Esta base de código é lançada sob a **Licença Apache** e todos os pesos dos modelos são lançados sob a **Licença CC-BY-NC-SA-4.0**. Consulte [LICENSE](../LICENSE) para mais detalhes.
 
 > [!WARNING]
-> **Isenção de Responsabilidade Legal**  
+> **Isenção de Responsabilidade Legal**
 > Não assumimos qualquer responsabilidade pelo uso ilegal da base de código. Consulte as leis locais sobre DMCA e outras leis relacionadas.
 
-## Comece Aqui
+## FishAudio-S1
+**Síntese de Voz e Clonagem de Voz com Qualidade Humana**
 
-Aqui estão os documentos oficiais do Fish Speech, siga as instruções para começar facilmente.
+FishAudio-S1 é um modelo expressivo de text-to-speech (TTS) e clonagem de voz desenvolvido pela [Fish Audio](https://fish.audio/), projetado para gerar fala que soa natural, realista e emocionalmente rica — não robótica, não plana e não restrita à narração estilo estúdio.
 
-- [Instalação](https://speech.fish.audio/install/)
-- [Fine-tune](https://speech.fish.audio/finetune/)
-- [Inferência](https://speech.fish.audio/inference/)
-- [Amostras](https://speech.fish.audio/examples)
+FishAudio-S1 foca em como os humanos realmente falam: com emoção, variação, pausas e intenção.
+
+### Anúncio 🎉
 
-## 🎉 Anúncio
+Estamos animados em anunciar que mudamos nossa marca para **Fish Audio** — introduzindo uma nova série revolucionária de modelos avançados de Text-to-Speech que se baseia na fundação do Fish-Speech.
 
-Estamos animados em anunciar que mudamos nossa marca para **OpenAudio** — introduzindo uma nova série revolucionária de modelos avançados de Text-to-Speech que se baseia na fundação do Fish-Speech.
+Temos o orgulho de lançar o **FishAudio-S1** (também conhecido como OpenAudio S1) como o primeiro modelo desta série, oferecendo melhorias significativas em qualidade, desempenho e capacidades.
 
-Temos o orgulho de lançar o **OpenAudio-S1** como o primeiro modelo desta série, oferecendo melhorias significativas em qualidade, desempenho e capacidades.
+O FishAudio-S1 vem em duas versões: **FishAudio-S1** e **FishAudio-S1-mini**. Ambos os modelos estão agora disponíveis no [Fish Audio Playground](https://fish.audio) (para **FishAudio-S1**) e [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini) (para **FishAudio-S1-mini**).
 
-O OpenAudio-S1 vem em duas versões: **OpenAudio-S1** e **OpenAudio-S1-mini**. Ambos os modelos estão agora disponíveis no [Fish Audio Playground](https://fish.audio) (para **OpenAudio-S1**) e [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini) (para **OpenAudio-S1-mini**).
+Visite o [site Fish Audio](https://fish.audio/) para playground ao vivo e relatório técnico.
 
-Visite o [site OpenAudio](https://openaudio.com/blogs/s1) para blog e relatório técnico.
+### Variantes do Modelo
 
-## Destaques ✨
+| Modelo | Tamanho | Disponibilidade | Descrição |
+|------|------|-------------|-------------|
+| FishAudio-S1 | 4B parâmetros | [fish.audio](https://fish.audio/) | Modelo flagship com recursos completos, máxima qualidade e estabilidade |
+| FishAudio-S1-mini | 0.5B parâmetros | [huggingface](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini) | Modelo destilado open-source com capacidades principais |
+
+Tanto S1 quanto S1-mini incorporam Aprendizado por Reforço online com Feedback Humano (RLHF).
+
+### Comece Aqui
+
+Aqui estão os documentos oficiais do Fish Speech, siga as instruções para começar facilmente.
+
+- [Instalação](https://speech.fish.audio/install/)
+- [Fine-tune](https://speech.fish.audio/finetune/)
+- [Inferência](https://speech.fish.audio/inference/)
+- [Amostras](https://speech.fish.audio/samples/)
+
+## Destaques
 
 ### **Excelente qualidade TTS**
 
-Usamos as métricas de avaliação Seed TTS para avaliar o desempenho do modelo, e os resultados mostram que o OpenAudio S1 alcança **0.008 WER** e **0.004 CER** em texto em inglês, que é significativamente melhor que modelos anteriores. (Inglês, avaliação automática, baseada no OpenAI gpt-4o-transcribe, distância do locutor usando Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
+Usamos as métricas de avaliação Seed TTS para avaliar o desempenho do modelo, e os resultados mostram que o FishAudio S1 alcança **0.008 WER** e **0.004 CER** em texto em inglês, que é significativamente melhor que modelos anteriores. (Inglês, avaliação automática, baseada no OpenAI gpt-4o-transcribe, distância do locutor usando Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
 
 | Modelo | Taxa de Erro de Palavra (WER) | Taxa de Erro de Caractere (CER) | Distância do Locutor |
 |-------|----------------------|---------------------------|------------------|
 | **S1** | **0.008**  | **0.004**  | **0.332** |
 | **S1-mini** | **0.011** | **0.005** | **0.380** |
 
+
 ### **Melhor Modelo no TTS-Arena2** 🏆
 
-O OpenAudio S1 alcançou a **classificação #1** no [TTS-Arena2](https://arena.speechcolab.org/), o benchmark para avaliação de text-to-speech:
+O FishAudio S1 alcançou a **classificação #1** no [TTS-Arena2](https://arena.speechcolab.org/), o benchmark para avaliação de text-to-speech:
 
 <div align="center">
     <img src="assets/Elo.jpg" alt="Classificação TTS-Arena2" style="width: 75%;" />
 </div>
 
-### **Controle de Fala**
+### Fala Verdadeiramente Humana
 
-O OpenAudio S1 **suporta uma variedade de marcadores emocionais, de tom e especiais** para aprimorar a síntese de fala:
+FishAudio-S1 gera fala que soa natural e conversacional, em vez de robótica ou excessivamente polida. O modelo captura variações sutis em tempo, ênfase e prosódia, evitando o efeito "gravação de estúdio" comum em sistemas TTS tradicionais.
+
+### **Controle de Emoção e Expressividade**
+
+FishAudio S1 é o primeiro modelo TTS a suportar **controle de emoção refinado em domínio aberto** através de marcadores explícitos de emoção e tom. Agora podemos direcionar precisamente como uma voz soa:
 
 - **Emoções básicas**:
 ```
-(raivoso) (triste) (animado) (surpreso) (satisfeito) (encantado) 
+(raivoso) (triste) (animado) (surpreso) (satisfeito) (encantado)
 (assustado) (preocupado) (chateado) (nervoso) (frustrado) (deprimido)
 (empático) (envergonhado) (enojado) (emocionado) (orgulhoso) (relaxado)
 (grato) (confiante) (interessado) (curioso) (confuso) (alegre)
@@ -102,7 +123,7 @@ O OpenAudio S1 **suporta uma variedade de marcadores emocionais, de tom e especi
 
 - **Emoções avançadas**:
 ```
-(desdenhoso) (infeliz) (ansioso) (histérico) (indiferente) 
+(desdenhoso) (infeliz) (ansioso) (histérico) (indiferente)
 (impaciente) (culpado) (desprezível) (em pânico) (furioso) (relutante)
 (entusiasmado) (desaprovador) (negativo) (negando) (espantado) (sério)
 (sarcástico) (conciliador) (consolador) (sincero) (escarnecedor)
@@ -122,16 +143,18 @@ O OpenAudio S1 **suporta uma variedade de marcadores emocionais, de tom e especi
 
 Você também pode usar Ha,ha,ha para controlar, há muitos outros casos esperando para serem explorados por você mesmo.
 
-(Suporte para inglês, chinês e japonês agora, e mais idiomas em breve!)
+### Suporte Multilíngue
 
-### **Dois Tipos de Modelos**
+FishAudio-S1 suporta text-to-speech multilíngue de alta qualidade sem exigir fonemas ou pré-processamento específico de idioma.
 
-| Modelo | Tamanho | Disponibilidade | Recursos |
-|-------|------|--------------|----------|
-| **S1** | 4B parâmetros | Disponível em [fish.audio](https://fish.audio/) | Modelo flagship com recursos completos |
-| **S1-mini** | 0.5B parâmetros | Disponível no Hugging Face [hf space](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini) | Versão destilada com capacidades principais |
+**Idiomas que suportam marcadores de emoção incluem:**
+Inglês, Chinês, Japonês, Alemão, Francês, Espanhol, Coreano, Árabe, Russo, Holandês, Italiano, Polonês e Português.
 
-Tanto S1 quanto S1-mini incorporam Aprendizado por Reforço online com Feedback Humano (RLHF).
+A lista está em constante expansão, verifique [Fish Audio](https://fish.audio/) para os últimos lançamentos.
+
+### Clonagem de Voz Rápida
+
+FishAudio-S1 suporta clonagem de voz precisa usando uma amostra de referência curta (tipicamente 10-30 segundos). O modelo captura timbre, estilo de fala e tendências emocionais, produzindo vozes clonadas realistas e consistentes sem ajuste fino adicional.
 
 ## **Recursos**
 
@@ -154,22 +177,22 @@ Tanto S1 quanto S1-mini incorporam Aprendizado por Reforço online com Feedback
 <div align="center">
 
 ### **Mídia Social**
-<a href="https://x.com/FishAudio/status/1929915992299450398" target="_blank">
+<a href="https://x.com/hehe6z/status/1980303682932744439" target="_blank">
     <img src="https://img.shields.io/badge/𝕏-Latest_Demo-black?style=for-the-badge&logo=x&logoColor=white" alt="Demo Mais Recente no X" />
 </a>
 
 ### **Demos Interativos**
 <a href="https://fish.audio" target="_blank">
-    <img src="https://img.shields.io/badge/Fish_Audio-Try_OpenAudio_S1-blue?style=for-the-badge" alt="Experimente OpenAudio S1" />
+    <img src="https://img.shields.io/badge/Fish.Audio-Try_FishAudio_S1-blue?style=for-the-badge" alt="Experimente FishAudio S1" />
 </a>
 <a href="https://huggingface.co/spaces/fishaudio/openaudio-s1-mini" target="_blank">
-    <img src="https://img.shields.io/badge/Hugging_Face-Try_S1_Mini-yellow?style=for-the-badge" alt="Experimente S1 Mini" />
+    <img src="https://img.shields.io/badge/Hugging_Face-Use_S1_Mini-yellow?style=for-the-badge" alt="Use S1 Mini" />
 </a>
 
 ### **Vitrines de Vídeo**
 
-<a href="https://www.youtube.com/watch?v=SYuPvd7m06A" target="_blank">
-    <img src="assets/Thumbnail.jpg" alt="OpenAudio S1 Video" style="width: 50%;" />
+<a href="https://www.youtube.com/watch?v=WR1FY32Lhps" target="_blank">
+    <img src="assets/Thumbnail.jpg" alt="FishAudio S1 Video" style="width: 50%;" />
 </a>
 
 </div>

+ 55 - 32
docs/README.zh.md

@@ -43,58 +43,79 @@
 </div>
 
 > [!IMPORTANT]
-> **许可证声明**  
+> **许可证声明**
 > 此代码库在 **Apache License** 下发布,所有模型权重在 **CC-BY-NC-SA-4.0 License** 下发布。更多详情请参考 [LICENSE](../LICENSE)。
 
 > [!WARNING]
-> **法律免责声明**  
+> **法律免责声明**
 > 我们不对代码库的任何非法使用承担责任。请参考您当地关于 DMCA 和其他相关法律的法规。
 
-## 开始使用
+## FishAudio-S1
+**真人级语音生成 & 声音克隆**
 
-这里是 Fish Speech 的官方文档,按照说明轻松开始使用
+FishAudio-S1 是由 [Fish Audio](https://fish.audio/) 开发的富有表现力的文本转语音 (TTS) 和语音克隆模型,旨在生成听起来自然、真实且情感丰富的语音——不机械、不平淡,也不局限于录音室风格的朗读
 
-- [安装](https://speech.fish.audio/zh/install/)
-- [微调](https://speech.fish.audio/zh/finetune/)
-- [推理](https://speech.fish.audio/zh/inference/)
-- [示例](https://speech.fish.audio/examples)
+FishAudio-S1 专注于人类真实的说话方式:带有情感、变化、停顿和意图。
+
+### 公告 🎉
 
-## 🎉 公告
+我们很高兴地宣布,我们已将品牌重塑为 **Fish Audio** —— 推出基于 Fish-Speech 基础构建的革命性新一代高级文本转语音模型系列。
 
-我们很高兴地宣布,我们已将品牌重塑为 **OpenAudio** —— 推出基于 Fish-Speech 基础构建的革命性新一代高级文本转语音模型系列
+我们自豪地发布 **FishAudio-S1**(也称为 OpenAudio S1)作为该系列的第一个模型,在质量、性能和功能方面都有显著改进
 
-我们自豪地发布 **OpenAudio-S1** 作为该系列的第一个模型,在质量、性能和功能方面都有显著改进
+FishAudio-S1 提供两个版本:**FishAudio-S1** 和 **FishAudio-S1-mini**。两个模型现在都可以在 [Fish Audio Playground](https://fish.audio)(**FishAudio-S1**)和 [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini)(**FishAudio-S1-mini**)上使用
 
-OpenAudio-S1 提供两个版本:**OpenAudio-S1** 和 **OpenAudio-S1-mini**。两个模型现在都可以在 [Fish Audio Playground](https://fish.audio)(**OpenAudio-S1**)和 [Hugging Face](https://huggingface.co/fishaudio/openaudio-s1-mini)(**OpenAudio-S1-mini**)上使用
+请访问 [Fish Audio 网站](https://fish.audio/) 获取实时 playground 和技术报告
 
-请访问 [OpenAudio 网站](https://openaudio.com/blogs/s1) 获取博客和技术报告。
+### 模型版本
 
-## 亮点 ✨
+| 模型 | 大小 | 可用性 | 描述 |
+|------|------|-------------|-------------|
+| FishAudio-S1 | 4B 参数 | [fish.audio](https://fish.audio/) | 功能齐全的旗舰模型,具有最高质量和稳定性 |
+| FishAudio-S1-mini | 0.5B 参数 | [huggingface](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini) | 开源精简模型,具有核心功能 |
+
+S1 和 S1-mini 都集成了在线人类反馈强化学习(RLHF)。
+
+### 开始使用
+
+这里是 Fish Speech 的官方文档,按照说明轻松开始使用。
+
+- [安装](https://speech.fish.audio/zh/install/)
+- [微调](https://speech.fish.audio/zh/finetune/)
+- [推理](https://speech.fish.audio/zh/inference/)
+- [示例](https://speech.fish.audio/samples/)
+
+## 亮点
 
 ### **出色的 TTS 质量**
 
-我们使用 Seed TTS 评估指标来评估模型性能,结果显示 OpenAudio S1 在英语文本上达到了 **0.008 WER** 和 **0.004 CER**,这比以前的模型显著更好。(英语,自动评估,基于 OpenAI gpt-4o-transcribe,使用 Revai/pyannote-wespeaker-voxceleb-resnet34-LM 进行说话人距离计算)
+我们使用 Seed TTS 评估指标来评估模型性能,结果显示 FishAudio S1 在英语文本上达到了 **0.008 WER** 和 **0.004 CER**,这比以前的模型显著更好。(英语,自动评估,基于 OpenAI gpt-4o-transcribe,使用 Revai/pyannote-wespeaker-voxceleb-resnet34-LM 进行说话人距离计算)
 
 | 模型 | 词错误率 (WER) | 字符错误率 (CER) | 说话人距离 |
 |-------|----------------------|---------------------------|------------------|
 | **S1** | **0.008**  | **0.004**  | **0.332** |
 | **S1-mini** | **0.011** | **0.005** | **0.380** |
 
+
 ### **TTS-Arena2 最佳模型** 🏆
 
-OpenAudio S1 在 [TTS-Arena2](https://arena.speechcolab.org/) 上取得了 **第一名**,这是文本转语音评估的基准:
+FishAudio S1 在 [TTS-Arena2](https://arena.speechcolab.org/) 上取得了 **第一名**,这是文本转语音评估的基准:
 
 <div align="center">
     <img src="../docs/assets/Elo.jpg" alt="TTS-Arena2 排名" style="width: 75%;" />
 </div>
 
-### **语音控制**
+### 真正类人的语音
 
-OpenAudio S1 **支持多种情感、语调和特殊标记** 来增强语音合成:
+FishAudio-S1 生成的语音听起来自然且具有对话感,而不是机械或过度修饰。模型捕捉了时间、重音和韵律的细微变化,避免了传统 TTS 系统常见的"录音室录音"效果。
+
+### **情感控制与表现力**
+
+FishAudio S1 是首个支持通过显式情感和语调标记进行**开放领域细粒度情感控制**的 TTS 模型。我们现在可以精确控制语音的情感表达:
 
 - **基础情感**:
 ```
-(生气) (伤心) (兴奋) (惊讶) (满意) (高兴) 
+(生气) (伤心) (兴奋) (惊讶) (满意) (高兴)
 (害怕) (担心) (沮丧) (紧张) (挫败) (郁闷)
 (同情) (尴尬) (厌恶) (感动) (自豪) (放松)
 (感激) (自信) (感兴趣) (好奇) (困惑) (快乐)
@@ -102,7 +123,7 @@ OpenAudio S1 **支持多种情感、语调和特殊标记** 来增强语音合
 
 - **高级情感**:
 ```
-(鄙视) (不开心) (焦虑) (歇斯底里) (冷漠) 
+(鄙视) (不开心) (焦虑) (歇斯底里) (冷漠)
 (不耐烦) (内疚) (轻蔑) (恐慌) (愤怒) (不情愿)
 (热衷) (不赞成) (消极) (否认) (震惊) (严肃)
 (讽刺) (安抚) (安慰) (真诚) (冷笑)
@@ -122,16 +143,18 @@ OpenAudio S1 **支持多种情感、语调和特殊标记** 来增强语音合
 
 您也可以使用 哈,哈,哈 来控制,还有许多其他情况等待您自己探索。
 
-(目前支持英语、中文和日语,更多语言即将推出!)
+### 多语言支持
 
-### **两种类型的模型**
+FishAudio-S1 支持高质量的多语言文本转语音,无需音素或语言特定的预处理。
 
-| 模型 | 大小 | 可用性 | 特性 |
-|-------|------|--------------|----------|
-| **S1** | 4B 参数 | 在 [fish.audio](https://fish.audio) 上可用 | 功能齐全的旗舰模型 |
-| **S1-mini** | 0.5B 参数 | 在 Hugging Face [hf space](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini) 上可用 | 具有核心功能的精简版本 |
+**支持情感标记的语言包括:**
+英语、中文、日语、德语、法语、西班牙语、韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语和葡萄牙语。
 
-S1 和 S1-mini 都集成了在线人类反馈强化学习(RLHF)。
+语言列表持续扩展中,请访问 [Fish Audio](https://fish.audio/) 获取最新版本。
+
+### 快速语音克隆
+
+FishAudio-S1 支持使用短参考样本(通常 10-30 秒)进行准确的语音克隆。模型可以捕捉音色、说话风格和情感倾向,无需额外微调即可生成逼真且一致的克隆语音。
 
 ## **功能**
 
@@ -154,22 +177,22 @@ S1 和 S1-mini 都集成了在线人类反馈强化学习(RLHF)。
 <div align="center">
 
 ### **社交媒体**
-<a href="https://x.com/FishAudio/status/1929915992299450398" target="_blank">
+<a href="https://x.com/hehe6z/status/1980303682932744439" target="_blank">
     <img src="https://img.shields.io/badge/𝕏-最新演示-black?style=for-the-badge&logo=x&logoColor=white" alt="X 上的最新演示" />
 </a>
 
 ### **交互式演示**
 <a href="https://fish.audio" target="_blank">
-    <img src="https://img.shields.io/badge/Fish_Audio-试用_OpenAudio_S1-blue?style=for-the-badge" alt="试用 OpenAudio S1" />
+    <img src="https://img.shields.io/badge/Fish.Audio-试用_FishAudio_S1-blue?style=for-the-badge" alt="试用 FishAudio S1" />
 </a>
 <a href="https://huggingface.co/spaces/fishaudio/openaudio-s1-mini" target="_blank">
-    <img src="https://img.shields.io/badge/Hugging_Face-试用_S1_Mini-yellow?style=for-the-badge" alt="试用 S1 Mini" />
+    <img src="https://img.shields.io/badge/Hugging_Face-使用_S1_Mini-yellow?style=for-the-badge" alt="使用 S1 Mini" />
 </a>
 
 ### **视频展示**
 
-<a href="https://www.youtube.com/watch?v=SYuPvd7m06A" target="_blank">
-    <img src="../docs/assets/Thumbnail.jpg" alt="OpenAudio S1 Video" style="width: 50%;" />
+<a href="https://www.youtube.com/watch?v=WR1FY32Lhps" target="_blank">
+    <img src="../docs/assets/Thumbnail.jpg" alt="FishAudio S1 Video" style="width: 50%;" />
 </a>
 
 </div>

BIN
docs/assets/Thumbnail.jpg