Procházet zdrojové kódy

[docs/github action]:update docs and github actions for new docker (#1105)

* [docs/github action]:update docs and github actions for new docker

* [fix]fix some typo
Whale and Dolphin před 6 měsíci
rodič
revize
ec8bf2b343

+ 1 - 3
README.md

@@ -147,9 +147,7 @@ Both S1 and S1-mini incorporate online Reinforcement Learning from Human Feedbac
 
 6. **WebUI Inference:** Features an easy-to-use, Gradio-based web UI compatible with Chrome, Firefox, Edge, and other browsers.
 
-7. **GUI Inference:** Offers a PyQt6 graphical interface that works seamlessly with the API server. Supports Linux, Windows, and macOS. [See GUI](https://github.com/AnyaCoder/fish-speech-gui).
-
-8. **Deploy-Friendly:** Easily set up an inference server with native support for Linux, Windows (MacOS comming soon), minimizing speed loss.
+7. **Deploy-Friendly:** Easily set up an inference server with native support for Linux and Windows (macOS support coming soon), minimizing performance loss.
 
 ## **Media & Demos**
 

+ 3 - 5
docs/README.ar.md

@@ -144,13 +144,11 @@
 
 5. **سريع:** مع تسريع fish-tech، عامل الوقت الحقيقي حوالي 1:5 على كمبيوتر محمول Nvidia RTX 4060 و 1:15 على Nvidia RTX 4090.
 
-6. **استنتاج WebUI:** يتميز بواجهة ويب سهلة الاستخدام قائمة على Gradio متوافقة مع Chrome وFirefox وEdge والمتصفحات الأخرى.
+6. **استدلال WebUI:** يتميز بواجهة مستخدم ويب سهلة الاستخدام تعتمد على Gradio ومتوافقة مع متصفحات Chrome و Firefox و Edge وغيرها.
 
-7. **استنتاج GUI:** يوفر واجهة رسومية PyQt6 تعمل بسلاسة مع خادم API. يدعم Linux وWindows وmacOS. [راجع GUI](https://github.com/AnyaCoder/fish-speech-gui).
+7. **سهولة النشر:** يمكنك إعداد خادم استدلال بسهولة مع دعم أصلي لأنظمة Linux و Windows (دعم macOS قريبًا)، مما يقلل من فقدان الأداء.
 
-8. **صديق للنشر:** قم بإعداد خادم استنتاج بسهولة مع دعم أصلي لـ Linux وWindows (MacOS قادم قريبًا)، مما يقلل من فقدان السرعة.
-
-## **الوسائط والعروض التوضيحية**
+## المجتمع والدعم
 
 <div align="center">
 

+ 2 - 4
docs/README.ja.md

@@ -144,11 +144,9 @@ S1とS1-miniの両方がオンライン人間フィードバック強化学習
 
 5. **高速:** fish-tech加速により、Nvidia RTX 4060ラップトップで約1:5、Nvidia RTX 4090で約1:15のリアルタイム係数を実現します。
 
-6. **WebUI推論:** Chrome、Firefox、Edge、その他のブラウザと互換性のある使いやすいGradioベースのWeb UIを提供します。
+6. **WebUI推論:** 使いやすいGradioベースのWeb UIを搭載し、Chrome、Firefox、Edgeなどのブラウザと互換性があります。
 
-7. **GUI推論:** APIサーバーとシームレスに動作するPyQt6グラフィカルインターフェースを提供します。Linux、Windows、macOSをサポートします。[GUIを見る](https://github.com/AnyaCoder/fish-speech-gui)。
-
-8. **デプロイフレンドリー:** Linux、Windows(macOSは近日公開予定)のネイティブサポートで推論サーバーを簡単にセットアップし、速度損失を最小限に抑えます。
+7. **デプロイフレンドリー:** Linux と Windows をネイティブサポートし(macOS サポートも近日対応予定)、パフォーマンスの低下を最小限に抑えながら、推論サーバーを簡単にセットアップできます。
 
 ## **メディア・デモ**
 

+ 2 - 4
docs/README.ko.md

@@ -144,11 +144,9 @@ S1과 S1-mini 모두 온라인 인간 피드백 강화학습(RLHF)을 통합하
 
 5. **빠른 속도:** fish-tech 가속화로 Nvidia RTX 4060 노트북에서 실시간 팩터가 약 1:5, Nvidia RTX 4090에서 1:15입니다.
 
-6. **WebUI 추론:** Chrome, Firefox, Edge 및 기타 브라우저와 호환되는 사용하기 쉬운 Gradio 기반 웹 UI를 제공합니다.
+6. **WebUI 추론:** 사용하기 쉬운 Gradio 기반 웹 UI를 제공하며 Chrome, Firefox, Edge 등 다른 브라우저와 호환됩니다.
 
-7. **GUI 추론:** API 서버와 완벽하게 작동하는 PyQt6 그래픽 인터페이스를 제공합니다. Linux, Windows, macOS를 지원합니다. [GUI 보기](https://github.com/AnyaCoder/fish-speech-gui).
-
-8. **배포 친화적:** Linux, Windows(MacOS 곧 출시 예정)에 대한 네이티브 지원으로 추론 서버를 쉽게 설정할 수 있으며, 속도 손실을 최소화합니다.
+7. **배포 용이성:** Linux 및 Windows를 기본 지원하며(macOS 지원 예정), 성능 손실을 최소화하면서 추론 서버를 쉽게 설정할 수 있습니다.
 
 ## **미디어 및 데모**
 

+ 2 - 4
docs/README.pt-BR.md

@@ -144,11 +144,9 @@ Tanto S1 quanto S1-mini incorporam Aprendizado por Reforço online com Feedback
 
 5. **Rápido:** Com aceleração fish-tech, o fator de tempo real é aproximadamente 1:5 em um laptop Nvidia RTX 4060 e 1:15 em um Nvidia RTX 4090.
 
-6. **Inferência WebUI:** Apresenta uma UI web baseada em Gradio fácil de usar, compatível com Chrome, Firefox, Edge e outros navegadores.
+6. **Inferência via WebUI:** Apresenta uma interface de usuário baseada em Gradio, fácil de usar e compatível com Chrome, Firefox, Edge e outros navegadores.
 
-7. **Inferência GUI:** Oferece uma interface gráfica PyQt6 que funciona perfeitamente com o servidor de API. Suporta Linux, Windows e macOS. [Ver GUI](https://github.com/AnyaCoder/fish-speech-gui).
-
-8. **Amigável para Deploy:** Configure facilmente um servidor de inferência com suporte nativo para Linux, Windows (MacOS em breve), minimizando perda de velocidade.
+7. **Amigável para Implantação:** Configure facilmente um servidor de inferência com suporte nativo para Linux e Windows (suporte para macOS em breve), minimizando a perda de desempenho.
 
 ## **Mídia e Demos**
 

+ 2 - 4
docs/README.zh.md

@@ -144,11 +144,9 @@ S1 和 S1-mini 都集成了在线人类反馈强化学习(RLHF)。
 
 5. **快速:** 通过 fish-tech 加速,在 Nvidia RTX 4060 笔记本电脑上实时因子约为 1:5,在 Nvidia RTX 4090 上为 1:15。
 
-6. **WebUI 推理:** 具有易于使用的基于 Gradio 的 Web UI,兼容 Chrome、Firefox、Edge 和其他浏览器。
+6. **WebUI 推理:** 提供简单易用的、基于 Gradio 的 Web UI,兼容 Chrome、Firefox、Edge 等浏览器。
 
-7. **GUI 推理:** 提供与 API 服务器无缝配合的 PyQt6 图形界面。支持 Linux、Windows 和 macOS。[查看 GUI](https://github.com/AnyaCoder/fish-speech-gui)。
-
-8. **部署友好:** 通过对 Linux、Windows(macOS 即将推出)的原生支持,轻松设置推理服务器,最小化速度损失。
+7. **易于部署:** 轻松设置推理服务器,原生支持 Linux 和 Windows(即将支持 macOS),最大限度地减少性能损失。
 
 ## **媒体和演示**
 

+ 16 - 2
docs/ar/index.md

@@ -24,12 +24,12 @@
 
 <strong>جربه الآن:</strong> <a href="https://fish.audio">Fish Audio Playground</a> | <strong>تعلم المزيد:</strong> <a href="https://openaudio.com">موقع OpenAudio</a>
 
-</div>
+</div>·
 
 ---
 
 !!! note "إشعار الترخيص"
-    يتم إصدار قاعدة الكود هذه تحت **رخصة Apache** ويتم إصدار جميع أوزان النماذج تحت **رخصة CC-BY-NC-SA-4.0**. يرجى الرجوع إلى [LICENSE](LICENSE) لمزيد من التفاصيل.
+    يتم إصدار قاعدة الكود هذه تحت **رخصة Apache** ويتم إصدار جميع أوزان النماذج تحت **رخصة CC-BY-NC-SA-4.0**. يرجى الرجوع إلى [رخصة الكود](https://github.com/fishaudio/fish-speech/blob/main/LICENSE) و [رخصة النموذج](https://spdx.org/licenses/CC-BY-NC-SA-4.0) لمزيد من التفاصيل.
 
 !!! warning "إخلاء المسؤولية القانونية"
     نحن لا نتحمل أي مسؤولية عن أي استخدام غير قانوني لقاعدة الكود. يرجى الرجوع إلى القوانين المحلية حول DMCA والقوانين الأخرى ذات الصلة.
@@ -158,3 +158,17 @@
 - **Discord:** انضم إلى [مجتمع Discord](https://discord.gg/Es5qTB9BcN) الخاص بنا
 - **الموقع:** قم بزيارة [OpenAudio.com](https://openaudio.com) للحصول على آخر التحديثات
 - **جرب عبر الإنترنت:** [Fish Audio Playground](https://fish.audio)
+
+- تحويل النص إلى كلام (TTS)
+- توليف صوت الغناء (SVS)
+- تحويل الصوت من أي إلى أي (Any-to-any voice conversion)
+- استنساخ الصوت بدون أو بالقليل من العينات (Zero or few-shot voice cloning)
+- استنساخ الصوت عبر اللغات (Cross-lingual voice cloning)
+- إنشاء المحتوى (Content creation)
+
+!!! note "ملاحظة الترخيص"
+    يتم إصدار هذا الكود المصدري بموجب **رخصة أباتشي** ويتم إصدار جميع أوزان النماذج بموجب **رخصة CC-BY-NC-SA-4.0**. يرجى الرجوع إلى [رخصة الكود](https://github.com/fishaudio/fish-speech/blob/main/LICENSE) و [رخصة النموذج](https://spdx.org/licenses/CC-BY-NC-SA-4.0) لمزيد من التفاصيل.
+
+## النماذج
+
+OpenAudio S1 هو النموذج الأول في سلسلة OpenAudio. وهو مُرمِّز صوتي VQ-GAN مزدوج المُ解码 يمكنه إعادة بناء الصوت من أكواد VQ.

+ 71 - 0
docs/ar/inference.md

@@ -100,3 +100,74 @@ python -m tools.run_webui
     يمكنك استخدام متغيرات بيئة Gradio، مثل `GRADIO_SHARE`، `GRADIO_SERVER_PORT`، `GRADIO_SERVER_NAME` لتكوين WebUI.
 
 استمتع!
+
+## الاستدلال باستخدام Docker
+
+يوفر OpenAudio حاويات Docker للاستدلال لكل من واجهة المستخدم الرسومية (WebUI) وخادم API. يمكنك استخدام أمر `docker run` مباشرة لبدء تشغيل الحاوية.
+
+تحتاج إلى تحضير ما يلي:
+- تثبيت Docker و NVIDIA Docker runtime (لدعم GPU)
+- تنزيل أوزان النموذج (راجع قسم [تحميل الأوزان](#تحميل-الأوزان))
+- ملفات الصوت المرجعية (اختياري، لاستنساخ الصوت)
+
+```bash
+# إنشاء مجلدات لأوزان النموذج والصوت المرجعي
+mkdir -p checkpoints references
+
+# تنزيل أوزان النموذج (إذا لم يتم ذلك بعد)
+# hf download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini
+
+# بدء واجهة المستخدم الرسومية (WebUI) مع دعم CUDA (موصى به للحصول على أفضل أداء)
+docker run -d \
+    --name fish-speech-webui \
+    --gpus all \
+    -p 7860:7860 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    -e COMPILE=1 \
+    fishaudio/fish-speech:latest-webui-cuda
+
+# الاستدلال باستخدام CPU فقط (أبطأ، ولكنه يعمل بدون GPU)
+docker run -d \
+    --name fish-speech-webui-cpu \
+    -p 7860:7860 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    fishaudio/fish-speech:latest-webui-cpu
+```
+
+```bash
+# بدء خادم API مع دعم CUDA
+docker run -d \
+    --name fish-speech-server \
+    --gpus all \
+    -p 8080:8080 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    -e COMPILE=1 \
+    fishaudio/fish-speech:latest-server-cuda
+
+# الاستدلال باستخدام CPU فقط
+docker run -d \
+    --name fish-speech-server-cpu \
+    -p 8080:8080 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    fishaudio/fish-speech:latest-server-cpu
+```
+
+يمكنك تخصيص حاويات Docker باستخدام متغيرات البيئة هذه:
+
+- `COMPILE=1` - تمكين `torch.compile` لتسريع الاستدلال (حوالي 10 أضعاف، CUDA فقط)
+- `GRADIO_SERVER_NAME=0.0.0.0` - مضيف خادم واجهة المستخدم الرسومية (WebUI) (الافتراضي: 0.0.0.0)
+- `GRADIO_SERVER_PORT=7860` - منفذ خادم واجهة المستخدم الرسومية (WebUI) (الافتراضي: 7860)
+- `API_SERVER_NAME=0.0.0.0` - مضيف خادم API (الافتراضي: 0.0.0.0)
+- `API_SERVER_PORT=8080` - منفذ خادم API (الافتراضي: 8080)
+- `LLAMA_CHECKPOINT_PATH=checkpoints/openaudio-s1-mini` - مسار أوزان النموذج
+- `DECODER_CHECKPOINT_PATH=checkpoints/openaudio-s1-mini/codec.pth` - مسار أوزان وحدة فك التشفير
+- `DECODER_CONFIG_NAME=modded_dac_vq` - اسم تكوين وحدة فك التشفير
+```
+
+استخدام واجهة المستخدم الرسومية (WebUI) وخادم API هو نفسه الموضح في الدليل أعلاه.
+
+استمتع!

+ 150 - 8
docs/ar/install.md

@@ -1,12 +1,13 @@
-## متطلبات النظام
+## المتطلبات
 
-- ذاكرة GPU: 12GB (للاستنتاج)
-- النظام: Linux، WSL
+- ذاكرة وحدة معالجة الرسومات (GPU): 12 جيجابايت (للاستدلال)
+- النظام: Linux, WSL
 
-## الإعداد
+## إعداد النظام
 
-أولاً تحتاج إلى تثبيت pyaudio و sox، والتي تُستخدم لمعالجة الصوت.
+يدعم OpenAudio طرق تثبيت متعددة. اختر الطريقة التي تناسب بيئة التطوير الخاصة بك.
 
+**المتطلبات الأساسية**: قم بتثبيت تبعيات النظام لمعالجة الصوت:
 ``` bash
 apt install portaudio19-dev libsox-dev ffmpeg
 ```
@@ -17,27 +18,168 @@ apt install portaudio19-dev libsox-dev ffmpeg
 conda create -n fish-speech python=3.12
 conda activate fish-speech
 
+# تثبيت نسخة GPU (اختر إصدار CUDA الخاص بك: cu126, cu128, cu129)
+pip install -e .[cu129]
+
+# تثبيت نسخة CPU فقط
+pip install -e .[cpu]
+
+# التثبيت الافتراضي (يستخدم فهرس PyTorch الافتراضي)
 pip install -e .
 ```
 
 ### UV
 
+يوفر UV حلاً أسرع لتثبيت التبعيات:
+
 ```bash
-uv sync --python 3.12
-```
+# تثبيت نسخة GPU (اختر إصدار CUDA الخاص بك: cu126, cu128, cu129)
+uv sync --python 3.12 --extra cu129
 
+# تثبيت نسخة CPU فقط
+uv sync --python 3.12 --extra cpu
+```
 ### دعم Intel Arc XPU
 
+لمستخدمي وحدات معالجة الرسومات Intel Arc، قم بالتثبيت مع دعم XPU على النحو التالي:
+
 ```bash
 conda create -n fish-speech python=3.12
 conda activate fish-speech
 
+# تثبيت مكتبة C++ القياسية المطلوبة
 conda install libstdcxx -c conda-forge
 
+# تثبيت PyTorch مع دعم Intel XPU
 pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/xpu
 
+# تثبيت Fish Speech
 pip install -e .
 ```
 
 !!! warning
-    خيار `compile` غير مدعوم على Windows و macOS، إذا كنت تريد التشغيل مع compile، تحتاج إلى تثبيت triton بنفسك.
+    خيار `compile` غير مدعوم على أنظمة Windows و macOS. إذا كنت ترغب في التشغيل مع التجميع، ستحتاج إلى تثبيت Triton بنفسك.
+
+
+## إعداد Docker
+
+يوفر نموذج سلسلة OpenAudio S1 خيارات نشر متعددة مع Docker لتلبية الاحتياجات المختلفة. يمكنك استخدام الصور المعدة مسبقًا من Docker Hub، أو البناء محليًا باستخدام Docker Compose، أو بناء صور مخصصة يدويًا.
+
+لقد قدمنا صور Docker لكل من واجهة المستخدم الرسومية (WebUI) وخادم API، لكل من وحدات معالجة الرسومات (GPU) (CUDA 12.6 افتراضيًا) ووحدات المعالجة المركزية (CPU). يمكنك استخدام الصور المعدة مسبقًا من Docker Hub، أو البناء محليًا باستخدام Docker Compose، أو بناء صور مخصصة يدويًا. إذا كنت ترغب في البناء محليًا، فاتبع الإرشادات أدناه. إذا كنت ترغب فقط في استخدام الصور المعدة مسبقًا، فاتبع مباشرةً [دليل الاستدلال](inference.md).
+
+### المتطلبات الأساسية
+
+- تثبيت Docker و Docker Compose
+- تثبيت NVIDIA Docker runtime (لدعم GPU)
+- ذاكرة GPU لا تقل عن 12 جيجابايت للاستدلال باستخدام CUDA
+
+### استخدام Docker Compose
+
+للتطوير أو التخصيص، يمكنك استخدام Docker Compose للبناء والتشغيل محليًا:
+
+```bash
+# أولاً، استنسخ المستودع
+git clone https://github.com/fishaudio/fish-speech.git
+cd fish-speech
+
+# بدء واجهة المستخدم الرسومية (WebUI) مع CUDA
+docker compose --profile webui up
+
+# بدء واجهة المستخدم الرسومية (WebUI) مع تحسين التجميع
+COMPILE=1 docker compose --profile webui up
+
+# بدء خادم API
+docker compose --profile server up
+
+# بدء خادم API مع تحسين التجميع
+COMPILE=1 docker compose --profile server up
+
+# النشر باستخدام CPU فقط
+BACKEND=cpu docker compose --profile webui up
+```
+
+#### متغيرات البيئة لـ Docker Compose
+
+يمكنك تخصيص النشر باستخدام متغيرات البيئة:
+
+```bash
+# مثال على ملف .env
+BACKEND=cuda              # أو cpu
+COMPILE=1                 # تمكين تحسين التجميع
+GRADIO_PORT=7860         # منفذ واجهة المستخدم الرسومية (WebUI)
+API_PORT=8080            # منفذ خادم API
+UV_VERSION=0.8.15        # إصدار مدير الحزم UV
+```
+
+سيقوم الأمر ببناء الصورة وتشغيل الحاوية. يمكنك الوصول إلى واجهة المستخدم الرسومية (WebUI) على `http://localhost:7860` وخادم API على `http://localhost:8080`.
+
+### البناء اليدوي باستخدام Docker
+
+للمستخدمين المتقدمين الذين يرغبون في تخصيص عملية البناء:
+
+```bash
+# بناء صورة واجهة المستخدم الرسومية (WebUI) مع دعم CUDA
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --build-arg CUDA_VER=12.6.0 \
+    --build-arg UV_EXTRA=cu126 \
+    --target webui \
+    -t fish-speech-webui:cuda .
+
+# بناء صورة خادم API مع دعم CUDA
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --build-arg CUDA_VER=12.6.0 \
+    --build-arg UV_EXTRA=cu126 \
+    --target server \
+    -t fish-speech-server:cuda .
+
+# بناء صورة CPU فقط (تدعم منصات متعددة)
+docker build \
+    --platform linux/amd64,linux/arm64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cpu \
+    --target webui \
+    -t fish-speech-webui:cpu .
+
+# بناء صورة التطوير
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --target dev \
+    -t fish-speech-dev:cuda .
+```
+
+#### وسيطات البناء
+
+- `BACKEND`: `cuda` أو `cpu` (الافتراضي: `cuda`)
+- `CUDA_VER`: إصدار CUDA (الافتراضي: `12.6.0`)
+- `UV_EXTRA`: حزمة UV إضافية لـ CUDA (الافتراضي: `cu126`)
+- `UBUNTU_VER`: إصدار Ubuntu (الافتراضي: `24.04`)
+- `PY_VER`: إصدار Python (الافتراضي: `3.12`)
+
+### تحميل المجلدات
+
+تتطلب كلتا الطريقتين تحميل المجلدات التالية:
+
+- `./checkpoints:/app/checkpoints` - مجلد أوزان النموذج
+- `./references:/app/references` - مجلد ملفات الصوت المرجعية
+
+### متغيرات البيئة
+
+- `COMPILE=1` - تمكين `torch.compile` لتسريع الاستدلال (حوالي 10 أضعاف)
+- `GRADIO_SERVER_NAME=0.0.0.0` - مضيف خادم واجهة المستخدم الرسومية (WebUI)
+- `GRADIO_SERVER_PORT=7860` - منفذ خادم واجهة المستخدم الرسومية (WebUI)
+- `API_SERVER_NAME=0.0.0.0` - مضيف خادم API
+- `API_SERVER_PORT=8080` - منفذ خادم API
+
+!!! note
+    تتوقع حاويات Docker أن يتم تحميل أوزان النموذج في `/app/checkpoints`. تأكد من تنزيل أوزان النموذج المطلوبة قبل بدء الحاويات.
+
+!!! warning
+    يتطلب دعم GPU وجود NVIDIA Docker runtime. للنشر باستخدام CPU فقط، قم بإزالة علامة `--gpus all` واستخدم صور CPU.

+ 0 - 0
docs/ar/examples.md → docs/ar/samples.md


+ 1 - 1
docs/en/index.md

@@ -29,7 +29,7 @@
 ---
 
 !!! note "License Notice"
-    This codebase is released under **Apache License** and all model weights are released under **CC-BY-NC-SA-4.0 License**. Please refer to [LICENSE](LICENSE) for more details.
+    This codebase is released under **Apache License** and all model weights are released under **CC-BY-NC-SA-4.0 License**. Please refer to [CODE LICENSE](https://github.com/fishaudio/fish-speech/blob/main/LICENSE) and [MODEL LICENSE](https://spdx.org/licenses/CC-BY-NC-SA-4.0) for more details.
 
 !!! warning "Legal Disclaimer"
     We do not hold any responsibility for any illegal usage of the codebase. Please refer to your local laws about DMCA and other related laws.

+ 49 - 27
docs/en/inference.md

@@ -116,35 +116,23 @@ python -m tools.run_webui
 !!! note
     You can use Gradio environment variables, such as `GRADIO_SHARE`, `GRADIO_SERVER_PORT`, `GRADIO_SERVER_NAME` to configure WebUI.
 
-Enjoy!
+## Docker Inference
 
+OpenAudio provides Docker containers for both WebUI and API server inference. You can directly use `docker run` to start the container.
 
-## Using Docker
-You can use docker to start the web ui or the server:
+You need to prepare the following:
+- Docker installed with NVIDIA Docker runtime (for GPU support)
+- Model weights downloaded (see [Download Weights](#download-weights) section)
+- Reference audio files (optional, for voice cloning)
 
-### Using Docker Compose
 ```bash
-# To start the server
-docker compose --profile server up
-# Or with compile
-COMPILE=1 docker compose --profile server up
-
-# To start the web ui
-docker compose --profile webui up
-# Or with compile
-COMPILE=1 docker compose --profile webui up
-```
+# Create directories for model weights and reference audio
+mkdir -p checkpoints references
 
-```bash
-# Select the target, either `webui` or `server`
-docker build \
-    --platform linux/amd64 \
-    -f docker/Dockerfile \
-    --build-arg BACKEND=cuda \
-    --target [webui, server] \
-    -t fish-speech-[webui, server]:cuda .
-
-# Starting the web ui
+# Download model weights (if not already done)
+# hf download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini
+
+# Start WebUI with CUDA support (recommended for best performance)
 docker run -d \
     --name fish-speech-webui \
     --gpus all \
@@ -152,9 +140,19 @@ docker run -d \
     -v ./checkpoints:/app/checkpoints \
     -v ./references:/app/references \
     -e COMPILE=1 \
-    --rm fish-speech-webui:cuda
+    fishaudio/fish-speech:latest-webui-cuda
+
+# For CPU-only inference (slower, but works without GPU)
+docker run -d \
+    --name fish-speech-webui-cpu \
+    -p 7860:7860 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    fishaudio/fish-speech:latest-webui-cpu
+```
 
-# Starting the server
+```bash
+# Start API server with CUDA support
 docker run -d \
     --name fish-speech-server \
     --gpus all \
@@ -162,5 +160,29 @@ docker run -d \
     -v ./checkpoints:/app/checkpoints \
     -v ./references:/app/references \
     -e COMPILE=1 \
-    --rm fish-speech-server:cuda
+    fishaudio/fish-speech:latest-server-cuda
+
+# For CPU-only inference
+docker run -d \
+    --name fish-speech-server-cpu \
+    -p 8080:8080 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    fishaudio/fish-speech:latest-server-cpu
 ```
+
+You can customize the Docker containers using these environment variables:
+
+- `COMPILE=1` - Enable torch.compile for ~10x faster inference (CUDA only)
+- `GRADIO_SERVER_NAME=0.0.0.0` - WebUI server host (default: 0.0.0.0)
+- `GRADIO_SERVER_PORT=7860` - WebUI server port (default: 7860)
+- `API_SERVER_NAME=0.0.0.0` - API server host (default: 0.0.0.0)
+- `API_SERVER_PORT=8080` - API server port (default: 8080)
+- `LLAMA_CHECKPOINT_PATH=checkpoints/openaudio-s1-mini` - Path to model weights
+- `DECODER_CHECKPOINT_PATH=checkpoints/openaudio-s1-mini/codec.pth` - Path to decoder weights
+- `DECODER_CONFIG_NAME=modded_dac_vq` - Decoder configuration name
+```
+
+The usage of webui and api server is the same as the webui and api server guide above.
+
+Enjoy

+ 137 - 7
docs/en/install.md

@@ -5,8 +5,9 @@
 
 ## System Setup
 
-First you need install pyaudio and sox, which is used for audio processing.
+OpenAudio supports multiple installation methods. Choose the one that best fits your development environment.
 
+**Prerequisites**: Install system dependencies for audio processing:
 ``` bash
 apt install portaudio19-dev libsox-dev ffmpeg
 ```
@@ -17,32 +18,42 @@ apt install portaudio19-dev libsox-dev ffmpeg
 conda create -n fish-speech python=3.12
 conda activate fish-speech
 
-# Select the correct cuda version for your system from [cu126, cu128, cu129]
+# GPU installation (choose your CUDA version: cu126, cu128, cu129)
 pip install -e .[cu129]
-# Or for cpu only
+
+# CPU-only installation
 pip install -e .[cpu]
-# You can also omit the extra if you want to use the default torch index
+
+# Default installation (uses PyTorch default index)
 pip install -e .
 ```
 
 ### UV
 
+UV provides faster dependency resolution and installation:
+
 ```bash
-# Select the correct cuda version for your system from [cu126, cu128, cu129]
+# GPU installation (choose your CUDA version: cu126, cu128, cu129)
 uv sync --python 3.12 --extra cu129
-# Or for cpu only
+
+# CPU-only installation
 uv sync --python 3.12 --extra cpu
 ```
 ### Intel Arc XPU support
 
+For Intel Arc GPU users, install with XPU support:
+
 ```bash
 conda create -n fish-speech python=3.12
 conda activate fish-speech
 
+# Install required C++ standard library
 conda install libstdcxx -c conda-forge
 
+# Install PyTorch with Intel XPU support
 pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/xpu
 
+# Install Fish Speech
 pip install -e .
 ```
 
@@ -52,4 +63,123 @@ pip install -e .
 
 ## Docker Setup
 
-See [inference](./inference.md) to use docker for the webui or the API server.
+OpenAudio S1 series model provides multiple Docker deployment options to suit different needs. You can use pre-built images from Docker Hub, build locally with Docker Compose, or manually build custom images.
+
+We provided Docker images for both WebUI and API server on both GPU(CUDA126 for default) and CPU. You can use the pre-built images from Docker Hub, or build locally with Docker Compose, or manually build custom images. If you want to build locally, follow the instructions below. If you just want to use the pre-built images, follow [inference guide](en/inference.md) to use directly.
+
+### Prerequisites
+
+- Docker and Docker Compose installed
+- NVIDIA Docker runtime (for GPU support)
+- At least 12GB GPU memory for CUDA inference
+
+# Use docker compose
+
+For development or customization, you can use Docker Compose to build and run locally:
+
+```bash
+# Clone the repository first
+git clone https://github.com/fishaudio/fish-speech.git
+cd fish-speech
+
+# Start WebUI with CUDA
+docker compose --profile webui up
+
+# Start WebUI with compile optimization
+COMPILE=1 docker compose --profile webui up
+
+# Start API server
+docker compose --profile server up
+
+# Start API server with compile optimization  
+COMPILE=1 docker compose --profile server up
+
+# For CPU-only deployment
+BACKEND=cpu docker compose --profile webui up
+```
+
+#### Environment Variables for Docker Compose
+
+You can customize the deployment using environment variables:
+
+```bash
+# .env file example
+BACKEND=cuda              # or cpu
+COMPILE=1                 # Enable compile optimization
+GRADIO_PORT=7860         # WebUI port
+API_PORT=8080            # API server port
+UV_VERSION=0.8.15        # UV package manager version
+```
+
+The comand will build the image and run the container. You can access the WebUI at `http://localhost:7860` and the API server at `http://localhost:8080`.
+
+### Manual Docker Build
+
+For advanced users who want to customize the build process:
+
+```bash
+# Build WebUI image with CUDA support
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --build-arg CUDA_VER=12.6.0 \
+    --build-arg UV_EXTRA=cu126 \
+    --target webui \
+    -t fish-speech-webui:cuda .
+
+# Build API server image with CUDA support
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --build-arg CUDA_VER=12.6.0 \
+    --build-arg UV_EXTRA=cu126 \
+    --target server \
+    -t fish-speech-server:cuda .
+
+# Build CPU-only images (supports multi-platform)
+docker build \
+    --platform linux/amd64,linux/arm64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cpu \
+    --target webui \
+    -t fish-speech-webui:cpu .
+
+# Build development image
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --target dev \
+    -t fish-speech-dev:cuda .
+```
+
+#### Build Arguments
+
+- `BACKEND`: `cuda` or `cpu` (default: `cuda`)
+- `CUDA_VER`: CUDA version (default: `12.6.0`)
+- `UV_EXTRA`: UV extra for CUDA (default: `cu126`)
+- `UBUNTU_VER`: Ubuntu version (default: `24.04`)
+- `PY_VER`: Python version (default: `3.12`)
+
+### Volume Mounts
+
+Both methods require mounting these directories:
+
+- `./checkpoints:/app/checkpoints` - Model weights directory
+- `./references:/app/references` - Reference audio files directory
+
+### Environment Variables
+
+- `COMPILE=1` - Enable torch.compile for faster inference (~10x speedup)
+- `GRADIO_SERVER_NAME=0.0.0.0` - WebUI server host
+- `GRADIO_SERVER_PORT=7860` - WebUI server port
+- `API_SERVER_NAME=0.0.0.0` - API server host  
+- `API_SERVER_PORT=8080` - API server port
+
+!!! note
+    The Docker containers expect model weights to be mounted at `/app/checkpoints`. Make sure to download the required model weights before starting the containers.
+
+!!! warning
+    GPU support requires NVIDIA Docker runtime. For CPU-only deployment, remove the `--gpus all` flag and use CPU images.

+ 0 - 0
docs/en/examples.md → docs/en/samples.md


+ 8 - 2
docs/ja/index.md

@@ -28,8 +28,8 @@
 
 ---
 
-!!! note "ライセンス通知"
-    このコードベースは **Apacheライセンス** の下でリリースされ、すべてのモデル重みは **CC-BY-NC-SA-4.0ライセンス** の下でリリースされています。詳細は [LICENSE](LICENSE) を参照してください。
+!!! note "ライセンスに関するお知らせ"
+    このコードベースは **Apache ライセンス** の下でリリースされ、すべてのモデルウェイトは **CC-BY-NC-SA-4.0 ライセンス** の下でリリースされています。詳細については、[コードライセンス](https://github.com/fishaudio/fish-speech/blob/main/LICENSE) と [モデルライセンス](https://spdx.org/licenses/CC-BY-NC-SA-4.0) を参照してください。
 
 !!! warning "法的免責事項"
     コードベースの違法な使用について、当方は一切の責任を負いません。お住まいの地域のDMCAおよびその他の関連法規をご参照ください。
@@ -158,3 +158,9 @@ S1とS1-miniの両方にオンライン人間フィードバック強化学習
 - **Discord:** [Discordコミュニティ](https://discord.gg/Es5qTB9BcN)に参加
 - **ウェブサイト:** 最新アップデートは[OpenAudio.com](https://openaudio.com)をご覧ください
 - **オンライン試用:** [Fish Audio Playground](https://fish.audio)
+
+このコードベースは **Apache ライセンス** の下でリリースされ、すべてのモデルウェイトは **CC-BY-NC-SA-4.0 ライセンス** の下でリリースされています。詳細については、[コードライセンス](https://github.com/fishaudio/fish-speech/blob/main/LICENSE) と [モデルライセンス](https://spdx.org/licenses/CC-BY-NC-SA-4.0) を参照してください。
+
+## モデル
+
+OpenAudio S1 は OpenAudio シリーズの最初のモデルです。これは、VQ コードからオーディオを再構築できるデュアルデコーダ VQ-GAN ボコーダです。

+ 71 - 0
docs/ja/inference.md

@@ -98,3 +98,74 @@ python -m tools.run_webui
 
 !!! note
     `GRADIO_SHARE`、`GRADIO_SERVER_PORT`、`GRADIO_SERVER_NAME` などのGradio環境変数を使用してWebUIを設定できます。
+
+## Dockerでの推論
+
+OpenAudioは、WebUIとAPIサーバーの両方でDockerコンテナを提供しています。`docker run`コマンドを直接使用してコンテナを起動できます。
+
+以下の準備が必要です:
+- DockerとNVIDIA Dockerランタイムがインストール済みであること(GPUサポート用)
+- モデルの重みがダウンロード済みであること([重みのダウンロード](#重みのダウンロード)セクションを参照)
+- 参照音声ファイル(オプション、声のクローニング用)
+
+```bash
+# モデルの重みと参照音声用のディレクトリを作成
+mkdir -p checkpoints references
+
+# モデルの重みをダウンロード(まだの場合)
+# hf download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini
+
+# CUDAサポート付きでWebUIを起動(推奨、最高のパフォーマンス)
+docker run -d \
+    --name fish-speech-webui \
+    --gpus all \
+    -p 7860:7860 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    -e COMPILE=1 \
+    fishaudio/fish-speech:latest-webui-cuda
+
+# CPUのみでの推論(低速ですが、GPUなしで動作します)
+docker run -d \
+    --name fish-speech-webui-cpu \
+    -p 7860:7860 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    fishaudio/fish-speech:latest-webui-cpu
+```
+
+```bash
+# CUDAサポート付きでAPIサーバーを起動
+docker run -d \
+    --name fish-speech-server \
+    --gpus all \
+    -p 8080:8080 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    -e COMPILE=1 \
+    fishaudio/fish-speech:latest-server-cuda
+
+# CPUのみでの推論
+docker run -d \
+    --name fish-speech-server-cpu \
+    -p 8080:8080 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    fishaudio/fish-speech:latest-server-cpu
+```
+
+以下の環境変数を使用してDockerコンテナをカスタマイズできます:
+
+- `COMPILE=1` - `torch.compile`を有効にして推論を高速化(約10倍、CUDAのみ)
+- `GRADIO_SERVER_NAME=0.0.0.0` - WebUIサーバーのホスト(デフォルト: 0.0.0.0)
+- `GRADIO_SERVER_PORT=7860` - WebUIサーバーのポート(デフォルト: 7860)
+- `API_SERVER_NAME=0.0.0.0` - APIサーバーのホスト(デフォルト: 0.0.0.0)
+- `API_SERVER_PORT=8080` - APIサーバーのポート(デフォルト: 8080)
+- `LLAMA_CHECKPOINT_PATH=checkpoints/openaudio-s1-mini` - モデルの重みへのパス
+- `DECODER_CHECKPOINT_PATH=checkpoints/openaudio-s1-mini/codec.pth` - デコーダーの重みへのパス
+- `DECODER_CONFIG_NAME=modded_dac_vq` - デコーダーの設定名
+```
+
+WebUIとAPIサーバーの使い方は、上記のガイドと同じです。
+
+お楽しみください!

+ 150 - 8
docs/ja/install.md

@@ -1,12 +1,13 @@
-## システム要
+## 必要条
 
-- GPU メモリ:12GB(推論)
-- システム:Linux、WSL
+- GPUメモリ: 12GB (推論時)
+- システム: Linux, WSL
 
-## セットアップ
+## システムセットアップ
 
-まず、音声処理に使用される pyaudio と sox をインストールする必要があります
+OpenAudioは複数のインストール方法をサポートしています。ご自身の開発環境に最も適した方法をお選びください
 
+**前提条件**: 音声処理のためのシステム依存関係をインストールします:
 ``` bash
 apt install portaudio19-dev libsox-dev ffmpeg
 ```
@@ -17,27 +18,168 @@ apt install portaudio19-dev libsox-dev ffmpeg
 conda create -n fish-speech python=3.12
 conda activate fish-speech
 
+# GPU版のインストール (CUDAバージョンを選択: cu126, cu128, cu129)
+pip install -e .[cu129]
+
+# CPU版のみのインストール
+pip install -e .[cpu]
+
+# デフォルトインストール (PyTorchのデフォルトインデックスを使用)
 pip install -e .
 ```
 
 ### UV
 
+UVはより高速な依存関係の解決とインストールを実現します:
+
 ```bash
-uv sync --python 3.12
+# GPU版のインストール (CUDAバージョンを選択: cu126, cu128, cu129)
+uv sync --python 3.12 --extra cu129
+
+# CPU版のみのインストール
+uv sync --python 3.12 --extra cpu
 ```
+### Intel Arc XPU サポート
 
-### Intel Arc XPU 対応
+Intel Arc GPUユーザーは、以下の手順でXPUサポートをインストールしてください:
 
 ```bash
 conda create -n fish-speech python=3.12
 conda activate fish-speech
 
+# 必要なC++標準ライブラリをインストール
 conda install libstdcxx -c conda-forge
 
+# Intel XPU対応のPyTorchをインストール
 pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/xpu
 
+# Fish Speechのインストール
 pip install -e .
 ```
 
 !!! warning
-    `compile` オプションは Windows と macOS でサポートされていません。compile で実行したい場合は、triton を自分でインストールする必要があります。
+    `compile`オプションはWindowsとmacOSではサポートされていません。コンパイルを有効にして実行したい場合は、ご自身でTritonをインストールする必要があります。
+
+
+## Dockerセットアップ
+
+OpenAudio S1シリーズモデルは、さまざまなニーズに応えるため複数のDockerデプロイメントオプションを提供しています。Docker Hubのビルド済みイメージを使用するか、Docker Composeでローカルビルドするか、手動でカスタムイメージをビルドすることができます。
+
+WebUIとAPIサーバーの両方について、GPU(デフォルトはCUDA 12.6)版とCPU版のDockerイメージを提供しています。Docker Hubのビルド済みイメージを使用するか、Docker Composeでローカルビルドするか、手動でカスタムイメージをビルドするかを選択できます。ローカルでビルドする場合は、以下の手順に従ってください。ビルド済みイメージを使用するだけの場合は、[推論ガイド](inference.md)を直接参照してください。
+
+### 前提条件
+
+- DockerとDocker Composeがインストール済みであること
+- NVIDIA Dockerランタイムがインストール済みであること(GPUサポート用)
+- CUDAによる推論のために、少なくとも12GBのGPUメモリがあること
+
+### Docker Composeの使用
+
+開発やカスタマイズのために、Docker Composeを使用してローカルでビルド・実行できます:
+
+```bash
+# まず、リポジトリをクローンします
+git clone https://github.com/fishaudio/fish-speech.git
+cd fish-speech
+
+# CUDAでWebUIを起動
+docker compose --profile webui up
+
+# コンパイル最適化を有効にしてWebUIを起動
+COMPILE=1 docker compose --profile webui up
+
+# APIサーバーを起動
+docker compose --profile server up
+
+# コンパイル最適化を有効にしてAPIサーバーを起動
+COMPILE=1 docker compose --profile server up
+
+# CPUのみでのデプロイ
+BACKEND=cpu docker compose --profile webui up
+```
+
+#### Docker Compose 環境変数
+
+環境変数を使用してデプロイメントをカスタマイズできます:
+
+```bash
+# .env ファイルの例
+BACKEND=cuda              # または cpu
+COMPILE=1                 # コンパイル最適化を有効化
+GRADIO_PORT=7860         # WebUIのポート
+API_PORT=8080            # APIサーバーのポート
+UV_VERSION=0.8.15        # UVパッケージマネージャーのバージョン
+```
+
+このコマンドはイメージをビルドし、コンテナを実行します。WebUIには`http://localhost:7860`で、APIサーバーには`http://localhost:8080`でアクセスできます。
+
+### 手動でのDockerビルド
+
+ビルドプロセスをカスタマイズしたい上級者向け:
+
+```bash
+# CUDAサポート付きのWebUIイメージをビルド
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --build-arg CUDA_VER=12.6.0 \
+    --build-arg UV_EXTRA=cu126 \
+    --target webui \
+    -t fish-speech-webui:cuda .
+
+# CUDAサポート付きのAPIサーバーイメージをビルド
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --build-arg CUDA_VER=12.6.0 \
+    --build-arg UV_EXTRA=cu126 \
+    --target server \
+    -t fish-speech-server:cuda .
+
+# CPUのみのイメージをビルド(マルチプラットフォーム対応)
+docker build \
+    --platform linux/amd64,linux/arm64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cpu \
+    --target webui \
+    -t fish-speech-webui:cpu .
+
+# 開発用イメージをビルド
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --target dev \
+    -t fish-speech-dev:cuda .
+```
+
+#### ビルド引数
+
+- `BACKEND`: `cuda` または `cpu` (デフォルト: `cuda`)
+- `CUDA_VER`: CUDAバージョン (デフォルト: `12.6.0`)
+- `UV_EXTRA`: CUDA用のUV追加パッケージ (デフォルト: `cu126`)
+- `UBUNTU_VER`: Ubuntuバージョン (デフォルト: `24.04`)
+- `PY_VER`: Pythonバージョン (デフォルト: `3.12`)
+
+### ボリュームマウント
+
+どちらの方法でも、以下のディレクトリをマウントする必要があります:
+
+- `./checkpoints:/app/checkpoints` - モデルの重みファイル用ディレクトリ
+- `./references:/app/references` - 参照音声ファイル用ディレクトリ
+
+### 環境変数
+
+- `COMPILE=1` - `torch.compile`を有効にして推論を高速化(約10倍)
+- `GRADIO_SERVER_NAME=0.0.0.0` - WebUIサーバーのホスト
+- `GRADIO_SERVER_PORT=7860` - WebUIサーバーのポート
+- `API_SERVER_NAME=0.0.0.0` - APIサーバーのホスト
+- `API_SERVER_PORT=8080` - APIサーバーのポート
+
+!!! note
+    Dockerコンテナは、モデルの重みが`/app/checkpoints`にマウントされることを想定しています。コンテナを起動する前に、必要なモデルの重みをダウンロードしてください。
+
+!!! warning
+    GPUサポートにはNVIDIA Dockerランタイムが必要です。CPUのみでデプロイする場合は、`--gpus all`フラグを削除し、CPU用のイメージを使用してください。

+ 0 - 0
docs/ja/examples.md → docs/ja/samples.md


+ 3 - 11
docs/ko/index.md

@@ -4,15 +4,7 @@
 
 <div align="center">
 
-<img src="../assets/opena### **두 가지 모델 유형**
-
-다양한 요구 사항에 맞는 두 가지 모델 변형을 제공합니다:
-
-- **OpenAudio S1 (40억 매개변수)**:[fish.audio](https://fish.audio)에서 이용 가능한 모든 기능을 갖춘 플래그십 모델로, 모든 고급 기능을 갖춘 최고 품질의 음성 합성을 제공합니다.
-
-- **OpenAudio S1-mini (5억 매개변수)**:핵심 기능을 갖춘 경량화 버전으로, [Hugging Face Space](https://huggingface.co/spaces/fishaudio/openaudio-s1-mini)에서 이용 가능하며, 우수한 품질을 유지하면서 더 빠른 추론을 위해 최적화되었습니다.
-
-S1과 S1-mini 모두 온라인 인간 피드백 강화 학습(RLHF)이 통합되어 있습니다。t="OpenAudio" style="display: block; margin: 0 auto; width: 35%;"/>
+<img src="../assets/openaudio.jpg" alt="OpenAudio" style="display: block; margin: 0 auto; width: 35%;"/>
 
 </div>
 
@@ -36,8 +28,8 @@ S1과 S1-mini 모두 온라인 인간 피드백 강화 학습(RLHF)이 통합되
 
 ---
 
-!!! note "라이선스 안내"
-    이 코드베이스는 **Apache 라이선스** 하에 배포되며, 모든 모델 가중치는 **CC-BY-NC-SA-4.0 라이선스** 하에 배포됩니다. 자세한 내용은 [LICENSE](LICENSE)를 참조하세요.
+!!! note "라이선스 공지"
+    이 코드베이스는 **Apache 라이선스**에 따라 배포되며, 모든 모델 가중치는 **CC-BY-NC-SA-4.0 라이선스**에 따라 배포됩니다. 자세한 내용은 [코드 라이선스](https://github.com/fishaudio/fish-speech/blob/main/LICENSE) 및 [모델 라이선스](https://spdx.org/licenses/CC-BY-NC-SA-4.0)를 참조하십시오.
 
 !!! warning "법적 면책조항"
     코드베이스의 불법적인 사용에 대해서는 일체 책임을 지지 않습니다. 귀하의 지역의 DMCA 및 기타 관련 법률을 참고하시기 바랍니다.

+ 71 - 0
docs/ko/inference.md

@@ -98,3 +98,74 @@ python -m tools.run_webui
 
 !!! note
     `GRADIO_SHARE`, `GRADIO_SERVER_PORT`, `GRADIO_SERVER_NAME`과 같은 Gradio 환경 변수를 사용하여 WebUI를 구성할 수 있습니다.
+
+## Docker 추론
+
+OpenAudio는 WebUI 및 API 서버 추론을 위한 Docker 컨테이너를 제공합니다. `docker run` 명령을 직접 사용하여 컨테이너를 시작할 수 있습니다.
+
+다음 사항을 준비해야 합니다:
+- Docker 및 NVIDIA Docker 런타임 설치 (GPU 지원용)
+- 모델 가중치 다운로드 ([가중치 다운로드](#가중치-다운로드) 섹션 참조)
+- 참조 오디오 파일 (선택 사항, 음성 복제용)
+
+```bash
+# 모델 가중치 및 참조 오디오용 디렉토리 생성
+mkdir -p checkpoints references
+
+# 모델 가중치 다운로드 (아직 다운로드하지 않은 경우)
+# hf download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini
+
+# CUDA 지원으로 WebUI 시작 (권장, 최상의 성능)
+docker run -d \
+    --name fish-speech-webui \
+    --gpus all \
+    -p 7860:7860 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    -e COMPILE=1 \
+    fishaudio/fish-speech:latest-webui-cuda
+
+# CPU 전용 추론 (느리지만 GPU 없이 작동)
+docker run -d \
+    --name fish-speech-webui-cpu \
+    -p 7860:7860 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    fishaudio/fish-speech:latest-webui-cpu
+```
+
+```bash
+# CUDA 지원으로 API 서버 시작
+docker run -d \
+    --name fish-speech-server \
+    --gpus all \
+    -p 8080:8080 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    -e COMPILE=1 \
+    fishaudio/fish-speech:latest-server-cuda
+
+# CPU 전용 추론
+docker run -d \
+    --name fish-speech-server-cpu \
+    -p 8080:8080 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    fishaudio/fish-speech:latest-server-cpu
+```
+
+다음 환경 변수를 사용하여 Docker 컨테이너를 사용자 정의할 수 있습니다:
+
+- `COMPILE=1` - `torch.compile`을 활성화하여 추론 속도 향상 (약 10배, CUDA 전용)
+- `GRADIO_SERVER_NAME=0.0.0.0` - WebUI 서버 호스트 (기본값: 0.0.0.0)
+- `GRADIO_SERVER_PORT=7860` - WebUI 서버 포트 (기본값: 7860)
+- `API_SERVER_NAME=0.0.0.0` - API 서버 호스트 (기본값: 0.0.0.0)
+- `API_SERVER_PORT=8080` - API 서버 포트 (기본값: 8080)
+- `LLAMA_CHECKPOINT_PATH=checkpoints/openaudio-s1-mini` - 모델 가중치 경로
+- `DECODER_CHECKPOINT_PATH=checkpoints/openaudio-s1-mini/codec.pth` - 디코더 가중치 경로
+- `DECODER_CONFIG_NAME=modded_dac_vq` - 디코더 구성 이름
+```
+
+WebUI 및 API 서버의 사용법은 위 가이드와 동일합니다.
+
+즐기세요!

+ 149 - 7
docs/ko/install.md

@@ -1,12 +1,13 @@
-## 시스템 요구사항
+## 요구 사양
 
-- GPU 메모리: 12GB (추론)
+- GPU 메모리: 12GB (추론)
 - 시스템: Linux, WSL
 
-## 설정
+## 시스템 설정
 
-먼저 오디오 처리에 사용되는 pyaudio와 sox를 설치해야 합니다.
+OpenAudio는 다양한 설치 방법을 지원합니다. 자신의 개발 환경에 가장 적합한 방법을 선택하세요.
 
+**사전 요구사항**: 오디오 처리를 위한 시스템 의존성을 설치합니다:
 ``` bash
 apt install portaudio19-dev libsox-dev ffmpeg
 ```
@@ -17,27 +18,168 @@ apt install portaudio19-dev libsox-dev ffmpeg
 conda create -n fish-speech python=3.12
 conda activate fish-speech
 
+# GPU 버전 설치 (CUDA 버전 선택: cu126, cu128, cu129)
+pip install -e .[cu129]
+
+# CPU 버전만 설치
+pip install -e .[cpu]
+
+# 기본 설치 (PyTorch 기본 인덱스 사용)
 pip install -e .
 ```
 
 ### UV
 
+UV는 더 빠른 의존성 해결 및 설치를 제공합니다:
+
 ```bash
-uv sync --python 3.12
-```
+# GPU 버전 설치 (CUDA 버전 선택: cu126, cu128, cu129)
+uv sync --python 3.12 --extra cu129
 
+# CPU 버전만 설치
+uv sync --python 3.12 --extra cpu
+```
 ### Intel Arc XPU 지원
 
+Intel Arc GPU 사용자는 다음을 통해 XPU 지원을 설치하세요:
+
 ```bash
 conda create -n fish-speech python=3.12
 conda activate fish-speech
 
+# 필요한 C++ 표준 라이브러리 설치
 conda install libstdcxx -c conda-forge
 
+# Intel XPU를 지원하는 PyTorch 설치
 pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/xpu
 
+# Fish Speech 설치
 pip install -e .
 ```
 
 !!! warning
-    `compile` 옵션은 Windows와 macOS에서 지원되지 않습니다. compile로 실행하려면 triton을 직접 설치해야 합니다.
+    `compile` 옵션은 Windows와 macOS에서 지원되지 않습니다. 컴파일을 활성화하여 실행하려면 Triton을 직접 설치해야 합니다.
+
+
+## Docker 설정
+
+OpenAudio S1 시리즈 모델은 다양한 요구에 부응하기 위해 여러 Docker 배포 옵션을 제공합니다. Docker Hub의 사전 빌드된 이미지를 사용하거나, Docker Compose로 로컬에서 빌드하거나, 수동으로 사용자 정의 이미지를 빌드할 수 있습니다.
+
+WebUI와 API 서버 모두에 대해 GPU(기본값 CUDA 12.6) 및 CPU 버전의 Docker 이미지를 제공합니다. Docker Hub의 사전 빌드된 이미지를 사용하거나, Docker Compose로 로컬에서 빌드하거나, 수동으로 사용자 정의 이미지를 빌드할 수 있습니다. 로컬에서 빌드하려면 아래 지침을 따르세요. 사전 빌드된 이미지를 사용하려면 [추론 가이드](inference.md)를 직접 참조하세요.
+
+### 사전 요구사항
+
+- Docker 및 Docker Compose 설치
+- NVIDIA Docker 런타임 설치 (GPU 지원용)
+- CUDA 추론을 위한 최소 12GB의 GPU 메모리
+
+### Docker Compose 사용
+
+개발 또는 사용자 정의를 위해 Docker Compose를 사용하여 로컬에서 빌드하고 실행할 수 있습니다:
+
+```bash
+# 먼저 리포지토리를 클론합니다
+git clone https://github.com/fishaudio/fish-speech.git
+cd fish-speech
+
+# CUDA로 WebUI 시작
+docker compose --profile webui up
+
+# 컴파일 최적화로 WebUI 시작
+COMPILE=1 docker compose --profile webui up
+
+# API 서버 시작
+docker compose --profile server up
+
+# 컴파일 최적화로 API 서버 시작
+COMPILE=1 docker compose --profile server up
+
+# CPU 전용 배포
+BACKEND=cpu docker compose --profile webui up
+```
+
+#### Docker Compose 환경 변수
+
+환경 변수를 사용하여 배포를 사용자 정의할 수 있습니다:
+
+```bash
+# .env 파일 예시
+BACKEND=cuda              # 또는 cpu
+COMPILE=1                 # 컴파일 최적화 활성화
+GRADIO_PORT=7860         # WebUI 포트
+API_PORT=8080            # API 서버 포트
+UV_VERSION=0.8.15        # UV 패키지 관리자 버전
+```
+
+이 명령은 이미지를 빌드하고 컨테이너를 실행합니다. WebUI는 `http://localhost:7860`에서, API 서버는 `http://localhost:8080`에서 접근할 수 있습니다.
+
+### 수동 Docker 빌드
+
+빌드 프로세스를 사용자 정의하려는 고급 사용자를 위해:
+
+```bash
+# CUDA를 지원하는 WebUI 이미지 빌드
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --build-arg CUDA_VER=12.6.0 \
+    --build-arg UV_EXTRA=cu126 \
+    --target webui \
+    -t fish-speech-webui:cuda .
+
+# CUDA를 지원하는 API 서버 이미지 빌드
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --build-arg CUDA_VER=12.6.0 \
+    --build-arg UV_EXTRA=cu126 \
+    --target server \
+    -t fish-speech-server:cuda .
+
+# CPU 전용 이미지 빌드 (멀티 플랫폼 지원)
+docker build \
+    --platform linux/amd64,linux/arm64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cpu \
+    --target webui \
+    -t fish-speech-webui:cpu .
+
+# 개발용 이미지 빌드
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --target dev \
+    -t fish-speech-dev:cuda .
+```
+
+#### 빌드 인자
+
+- `BACKEND`: `cuda` 또는 `cpu` (기본값: `cuda`)
+- `CUDA_VER`: CUDA 버전 (기본값: `12.6.0`)
+- `UV_EXTRA`: CUDA용 UV 추가 패키지 (기본값: `cu126`)
+- `UBUNTU_VER`: Ubuntu 버전 (기본값: `24.04`)
+- `PY_VER`: Python 버전 (기본값: `3.12`)
+
+### 볼륨 마운트
+
+두 방법 모두 다음 디렉토리를 마운트해야 합니다:
+
+- `./checkpoints:/app/checkpoints` - 모델 가중치 디렉토리
+- `./references:/app/references` - 참조 오디오 파일 디렉토리
+
+### 환경 변수
+
+- `COMPILE=1` - `torch.compile`을 활성화하여 추론 속도 향상 (약 10배)
+- `GRADIO_SERVER_NAME=0.0.0.0` - WebUI 서버 호스트
+- `GRADIO_SERVER_PORT=7860` - WebUI 서버 포트
+- `API_SERVER_NAME=0.0.0.0` - API 서버 호스트
+- `API_SERVER_PORT=8080` - API 서버 포트
+
+!!! note
+    Docker 컨테이너는 모델 가중치가 `/app/checkpoints`에 마운트될 것으로 예상합니다. 컨테이너를 시작하기 전에 필요한 모델 가중치를 다운로드했는지 확인하세요.
+
+!!! warning
+    GPU 지원에는 NVIDIA Docker 런타임이 필요합니다. CPU 전용 배포의 경우 `--gpus all` 플래그를 제거하고 CPU 이미지를 사용하세요.

+ 0 - 0
docs/ko/examples.md → docs/ko/samples.md


+ 5 - 1
docs/pt/index.md

@@ -29,7 +29,7 @@
 ---
 
 !!! note "Aviso de Licença"
-    Esta base de código é lançada sob **Licença Apache** e todos os pesos do modelo são lançados sob **Licença CC-BY-NC-SA-4.0**. Consulte [LICENSE](LICENSE) para mais detalhes.
+    Esta base de código é lançada sob a **Licença Apache** e todos os pesos dos modelos são lançados sob a **Licença CC-BY-NC-SA-4.0**. Consulte a [LICENÇA DO CÓDIGO](https://github.com/fishaudio/fish-speech/blob/main/LICENSE) e a [LICENÇA DO MODELO](https://spdx.org/licenses/CC-BY-NC-SA-4.0) para mais detalhes.
 
 !!! warning "Aviso Legal"
     Não assumimos nenhuma responsabilidade pelo uso ilegal da base de código. Consulte as leis locais sobre DMCA e outras leis relevantes.
@@ -158,3 +158,7 @@ Tanto o S1 quanto o S1-mini incorporam Aprendizado por Reforço Online com Feedb
 - **Discord:** Junte-se à nossa [comunidade Discord](https://discord.gg/Es5qTB9BcN)
 - **Site:** Visite [OpenAudio.com](https://openaudio.com) para as últimas atualizações
 - **Experimente Online:** [Fish Audio Playground](https://fish.audio)
+
+## Modelos
+
+O OpenAudio S1 é o primeiro modelo da série OpenAudio. É um vocoder VQ-GAN de descodificador duplo que pode reconstruir áudio a partir de códigos VQ.

+ 71 - 0
docs/pt/inference.md

@@ -98,3 +98,74 @@ python -m tools.run_webui
 
 !!! note
     Você pode usar variáveis de ambiente do Gradio, como `GRADIO_SHARE`, `GRADIO_SERVER_PORT`, `GRADIO_SERVER_NAME` para configurar o WebUI.
+
+## Inferência com Docker
+
+O OpenAudio fornece contentores Docker para inferência tanto na WebUI como no servidor API. Pode usar diretamente o comando `docker run` para iniciar o contentor.
+
+É necessário preparar o seguinte:
+- Docker e NVIDIA Docker runtime instalados (para suporte de GPU)
+- Pesos do modelo descarregados (consulte a secção [Baixar Pesos](#baixar-pesos))
+- Ficheiros de áudio de referência (opcional, para clonagem de voz)
+
+```bash
+# Criar diretórios para os pesos do modelo e áudios de referência
+mkdir -p checkpoints references
+
+# Descarregar os pesos do modelo (se ainda não o fez)
+# hf download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini
+
+# Iniciar a WebUI com suporte CUDA (recomendado para melhor desempenho)
+docker run -d \
+    --name fish-speech-webui \
+    --gpus all \
+    -p 7860:7860 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    -e COMPILE=1 \
+    fishaudio/fish-speech:latest-webui-cuda
+
+# Inferência apenas com CPU (mais lento, mas funciona sem GPU)
+docker run -d \
+    --name fish-speech-webui-cpu \
+    -p 7860:7860 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    fishaudio/fish-speech:latest-webui-cpu
+```
+
+```bash
+# Iniciar o servidor API com suporte CUDA
+docker run -d \
+    --name fish-speech-server \
+    --gpus all \
+    -p 8080:8080 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    -e COMPILE=1 \
+    fishaudio/fish-speech:latest-server-cuda
+
+# Inferência apenas com CPU
+docker run -d \
+    --name fish-speech-server-cpu \
+    -p 8080:8080 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    fishaudio/fish-speech:latest-server-cpu
+```
+
+Pode personalizar os contentores Docker usando estas variáveis de ambiente:
+
+- `COMPILE=1` - Ativa o `torch.compile` para uma inferência mais rápida (cerca de 10x, apenas com CUDA)
+- `GRADIO_SERVER_NAME=0.0.0.0` - Anfitrião do servidor WebUI (padrão: 0.0.0.0)
+- `GRADIO_SERVER_PORT=7860` - Porta do servidor WebUI (padrão: 7860)
+- `API_SERVER_NAME=0.0.0.0` - Anfitrião do servidor API (padrão: 0.0.0.0)
+- `API_SERVER_PORT=8080` - Porta do servidor API (padrão: 8080)
+- `LLAMA_CHECKPOINT_PATH=checkpoints/openaudio-s1-mini` - Caminho para os pesos do modelo
+- `DECODER_CHECKPOINT_PATH=checkpoints/openaudio-s1-mini/codec.pth` - Caminho para os pesos do descodificador
+- `DECODER_CONFIG_NAME=modded_dac_vq` - Nome da configuração do descodificador
+```
+
+O uso da WebUI e do servidor API é o mesmo que o descrito no guia acima.
+
+Divirta-se!

+ 148 - 6
docs/pt/install.md

@@ -1,12 +1,13 @@
 ## Requisitos
 
-- Memória GPU: 12GB (Inferência)
+- Memória da GPU: 12GB (Inferência)
 - Sistema: Linux, WSL
 
-## Configuração
+## Configuração do Sistema
 
-Primeiro você precisa instalar pyaudio e sox, que são usados para processamento de áudio.
+O OpenAudio suporta múltiplos métodos de instalação. Escolha o que melhor se adapta ao seu ambiente de desenvolvimento.
 
+**Pré-requisitos**: Instale as dependências de sistema para processamento de áudio:
 ``` bash
 apt install portaudio19-dev libsox-dev ffmpeg
 ```
@@ -17,27 +18,168 @@ apt install portaudio19-dev libsox-dev ffmpeg
 conda create -n fish-speech python=3.12
 conda activate fish-speech
 
+# Instalação com GPU (escolha a sua versão do CUDA: cu126, cu128, cu129)
+pip install -e .[cu129]
+
+# Instalação apenas para CPU
+pip install -e .[cpu]
+
+# Instalação padrão (usa o índice padrão do PyTorch)
 pip install -e .
 ```
 
 ### UV
 
+O UV oferece uma resolução e instalação de dependências mais rápidas:
+
 ```bash
-uv sync --python 3.12
-```
+# Instalação com GPU (escolha a sua versão do CUDA: cu126, cu128, cu129)
+uv sync --python 3.12 --extra cu129
 
+# Instalação apenas para CPU
+uv sync --python 3.12 --extra cpu
+```
 ### Suporte para Intel Arc XPU
 
+Para utilizadores de GPUs Intel Arc, instale o suporte XPU da seguinte forma:
+
 ```bash
 conda create -n fish-speech python=3.12
 conda activate fish-speech
 
+# Instalar a biblioteca padrão C++ necessária
 conda install libstdcxx -c conda-forge
 
+# Instalar o PyTorch com suporte para Intel XPU
 pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/xpu
 
+# Instalar o Fish Speech
 pip install -e .
 ```
 
 !!! warning
-    A opção `compile` não é suportada no Windows e macOS, se você quiser executar com compile, precisa instalar o triton por conta própria.
+    A opção `compile` não é suportada no Windows e macOS. Se desejar executar com compilação, terá de instalar o Triton manualmente.
+
+
+## Configuração do Docker
+
+O modelo da série OpenAudio S1 oferece múltiplas opções de implementação com Docker para satisfazer diferentes necessidades. Pode usar imagens pré-construídas do Docker Hub, construir localmente com o Docker Compose, ou construir manualmente imagens personalizadas.
+
+Fornecemos imagens Docker para a WebUI e o servidor API, tanto para GPU (CUDA 12.6 por defeito) como para CPU. Pode usar as imagens pré-construídas do Docker Hub, construir localmente com o Docker Compose, ou construir manualmente imagens personalizadas. Se quiser construir localmente, siga as instruções abaixo. Se apenas quiser usar as imagens pré-construídas, siga diretamente o [guia de inferência](inference.md).
+
+### Pré-requisitos
+
+- Docker e Docker Compose instalados
+- NVIDIA Docker runtime instalado (para suporte de GPU)
+- Pelo menos 12GB de memória de GPU para inferência com CUDA
+
+### Usar o Docker Compose
+
+Para desenvolvimento ou personalização, pode usar o Docker Compose para construir e executar localmente:
+
+```bash
+# Primeiro, clone o repositório
+git clone https://github.com/fishaudio/fish-speech.git
+cd fish-speech
+
+# Iniciar a WebUI com CUDA
+docker compose --profile webui up
+
+# Iniciar a WebUI com otimização de compilação
+COMPILE=1 docker compose --profile webui up
+
+# Iniciar o servidor API
+docker compose --profile server up
+
+# Iniciar o servidor API com otimização de compilação
+COMPILE=1 docker compose --profile server up
+
+# Implementação apenas com CPU
+BACKEND=cpu docker compose --profile webui up
+```
+
+#### Variáveis de Ambiente para o Docker Compose
+
+Pode personalizar a implementação usando variáveis de ambiente:
+
+```bash
+# Exemplo de ficheiro .env
+BACKEND=cuda              # ou cpu
+COMPILE=1                 # Ativar otimização de compilação
+GRADIO_PORT=7860         # Porta da WebUI
+API_PORT=8080            # Porta do servidor API
+UV_VERSION=0.8.15        # Versão do gestor de pacotes UV
+```
+
+O comando irá construir a imagem e executar o contentor. Pode aceder à WebUI em `http://localhost:7860` e ao servidor API em `http://localhost:8080`.
+
+### Construção Manual com Docker
+
+Para utilizadores avançados que desejam personalizar o processo de construção:
+
+```bash
+# Construir imagem da WebUI com suporte CUDA
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --build-arg CUDA_VER=12.6.0 \
+    --build-arg UV_EXTRA=cu126 \
+    --target webui \
+    -t fish-speech-webui:cuda .
+
+# Construir imagem do servidor API com suporte CUDA
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --build-arg CUDA_VER=12.6.0 \
+    --build-arg UV_EXTRA=cu126 \
+    --target server \
+    -t fish-speech-server:cuda .
+
+# Construir imagem apenas para CPU (suporta multiplataforma)
+docker build \
+    --platform linux/amd64,linux/arm64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cpu \
+    --target webui \
+    -t fish-speech-webui:cpu .
+
+# Construir imagem de desenvolvimento
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --target dev \
+    -t fish-speech-dev:cuda .
+```
+
+#### Argumentos de Construção
+
+- `BACKEND`: `cuda` ou `cpu` (padrão: `cuda`)
+- `CUDA_VER`: Versão do CUDA (padrão: `12.6.0`)
+- `UV_EXTRA`: Pacote extra do UV para CUDA (padrão: `cu126`)
+- `UBUNTU_VER`: Versão do Ubuntu (padrão: `24.04`)
+- `PY_VER`: Versão do Python (padrão: `3.12`)
+
+### Montagem de Volumes
+
+Ambos os métodos requerem a montagem dos seguintes diretórios:
+
+- `./checkpoints:/app/checkpoints` - Diretório dos pesos do modelo
+- `./references:/app/references` - Diretório dos ficheiros de áudio de referência
+
+### Variáveis de Ambiente
+
+- `COMPILE=1` - Ativa o `torch.compile` para uma inferência mais rápida (cerca de 10x)
+- `GRADIO_SERVER_NAME=0.0.0.0` - Anfitrião do servidor WebUI
+- `GRADIO_SERVER_PORT=7860` - Porta do servidor WebUI
+- `API_SERVER_NAME=0.0.0.0` - Anfitrião do servidor API
+- `API_SERVER_PORT=8080` - Porta do servidor API
+
+!!! note
+    Os contentores Docker esperam que os pesos do modelo sejam montados em `/app/checkpoints`. Certifique-se de que descarregou os pesos do modelo necessários antes de iniciar os contentores.
+
+!!! warning
+    O suporte para GPU requer o NVIDIA Docker runtime. Para implementações apenas com CPU, remova a flag `--gpus all` e use as imagens de CPU.

+ 0 - 0
docs/pt/examples.md → docs/pt/samples.md


+ 6 - 2
docs/zh/index.md

@@ -28,8 +28,8 @@
 
 ---
 
-!!! note "许可声明"
-    此代码库在 **Apache 许可证** 下发布,所有模型权重在 **CC-BY-NC-SA-4.0 许可证** 下发布。更多详情请参阅 [LICENSE](LICENSE)。
+!!! note "许可声明"
+    本代码库在 **Apache 许可证**下发布,所有模型权重在 **CC-BY-NC-SA-4.0 许可证**下发布。更多详情请参阅 [代码许可证](https://github.com/fishaudio/fish-speech/blob/main/LICENSE) 和 [模型许可证](https://spdx.org/licenses/CC-BY-NC-SA-4.0)。
 
 !!! warning "法律免责声明"
     我们不对代码库的任何非法使用承担责任。请参考您所在地区有关 DMCA 和其他相关法律的规定。
@@ -158,3 +158,7 @@ S1 和 S1-mini 都集成了在线人类反馈强化学习 (RLHF)。
 - **Discord:** 加入我们的 [Discord 社区](https://discord.gg/Es5qTB9BcN)
 - **网站:** 访问 [OpenAudio.com](https://openaudio.com) 获取最新更新
 - **在线试用:** [Fish Audio Playground](https://fish.audio)
+
+## 模型
+
+OpenAudio S1 是 OpenAudio 系列的第一个模型。它是一个双解码器 VQ-GAN 声码器,可以从 VQ 码元重建音频。

+ 69 - 0
docs/zh/inference.md

@@ -99,4 +99,73 @@ python -m tools.run_webui
 !!! note
     您可以使用Gradio环境变量,如 `GRADIO_SHARE`、`GRADIO_SERVER_PORT`、`GRADIO_SERVER_NAME` 来配置WebUI。
 
+## Docker 推理
+
+OpenAudio 为 WebUI 和 API 服务器推理提供了 Docker 容器。您可以直接使用 `docker run` 命令来启动容器。
+
+您需要准备以下内容:
+- 已安装 Docker 和 NVIDIA Docker 运行时 (用于 GPU 支持)
+- 已下载模型权重 (参见 [下载权重](#下载权重) 部分)
+- 参考音频文件 (可选, 用于声音克隆)
+
+```bash
+# 为模型权重和参考音频创建目录
+mkdir -p checkpoints references
+
+# 下载模型权重 (如果尚未下载)
+# hf download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini
+
+# 启动支持 CUDA 的 WebUI (推荐, 性能最佳)
+docker run -d \
+    --name fish-speech-webui \
+    --gpus all \
+    -p 7860:7860 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    -e COMPILE=1 \
+    fishaudio/fish-speech:latest-webui-cuda
+
+# 仅 CPU 推理 (较慢, 但无需 GPU)
+docker run -d \
+    --name fish-speech-webui-cpu \
+    -p 7860:7860 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    fishaudio/fish-speech:latest-webui-cpu
+```
+
+```bash
+# 启动支持 CUDA 的 API 服务器
+docker run -d \
+    --name fish-speech-server \
+    --gpus all \
+    -p 8080:8080 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    -e COMPILE=1 \
+    fishaudio/fish-speech:latest-server-cuda
+
+# 仅 CPU 推理
+docker run -d \
+    --name fish-speech-server-cpu \
+    -p 8080:8080 \
+    -v ./checkpoints:/app/checkpoints \
+    -v ./references:/app/references \
+    fishaudio/fish-speech:latest-server-cpu
+```
+
+您可以使用以下环境变量自定义 Docker 容器:
+
+- `COMPILE=1` - 启用 `torch.compile` 以加速推理 (约提速10倍, 仅限 CUDA)
+- `GRADIO_SERVER_NAME=0.0.0.0` - WebUI 服务器主机 (默认: 0.0.0.0)
+- `GRADIO_SERVER_PORT=7860` - WebUI 服务器端口 (默认: 7860)
+- `API_SERVER_NAME=0.0.0.0` - API 服务器主机 (默认: 0.0.0.0)
+- `API_SERVER_PORT=8080` - API 服务器端口 (默认: 8080)
+- `LLAMA_CHECKPOINT_PATH=checkpoints/openaudio-s1-mini` - 模型权重路径
+- `DECODER_CHECKPOINT_PATH=checkpoints/openaudio-s1-mini/codec.pth` - 解码器权重路径
+- `DECODER_CONFIG_NAME=modded_dac_vq` - 解码器配置名称
+```
+
+WebUI 和 API 服务器的用法与上文指南中的说明相同。
+
 尽情享受吧!

+ 148 - 6
docs/zh/install.md

@@ -3,10 +3,11 @@
 - GPU 内存:12GB(推理)
 - 系统:Linux、WSL
 
-## 安装
+## 系统设置
 
-首先需要安装 pyaudio 和 sox,用于音频处理
+OpenAudio 支持多种安装方式,请选择最适合您开发环境的方法
 
+**先决条件**:安装用于音频处理的系统依赖项:
 ``` bash
 apt install portaudio19-dev libsox-dev ffmpeg
 ```
@@ -17,27 +18,168 @@ apt install portaudio19-dev libsox-dev ffmpeg
 conda create -n fish-speech python=3.12
 conda activate fish-speech
 
+# GPU 安装 (选择您的 CUDA 版本: cu126, cu128, cu129)
+pip install -e .[cu129]
+
+# 仅 CPU 安装
+pip install -e .[cpu]
+
+# 默认安装 (使用 PyTorch 官方源)
 pip install -e .
 ```
 
 ### UV
 
+UV 提供了更快的依赖解析和安装速度:
+
 ```bash
-uv sync --python 3.12
-```
+# GPU 安装 (选择您的 CUDA 版本: cu126, cu128, cu129)
+uv sync --python 3.12 --extra cu129
 
+# 仅 CPU 安装
+uv sync --python 3.12 --extra cpu
+```
 ### Intel Arc XPU 支持
 
+对于 Intel Arc GPU 用户,请按以下方式安装以获得 XPU 支持:
+
 ```bash
 conda create -n fish-speech python=3.12
 conda activate fish-speech
 
+# 安装所需的 C++ 标准库
 conda install libstdcxx -c conda-forge
 
-pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/xpu
+# 安装支持 Intel XPU 的 PyTorch
+pip install --pre torch torchvision toraudio --index-url https://download.pytorch.org/whl/nightly/xpu
 
+# 安装 Fish Speech
 pip install -e .
 ```
 
 !!! warning
-    `compile` 选项在 Windows 和 macOS 上不受支持,如果您想使用 compile 运行,需要自己安装 triton。
+    `compile` 选项在 Windows 和 macOS 上不受支持。如果希望通过编译运行,您需要自行安装 Triton。
+
+
+## Docker 设置
+
+OpenAudio S1 系列模型提供了多种 Docker 部署选项以满足不同需求。您可以使用 Docker Hub 上的预构建镜像,通过 Docker Compose 在本地构建,或手动构建自定义镜像。
+
+我们为 WebUI 和 API 服务器提供了 GPU (默认为 CUDA 12.6) 和 CPU 两种版本的 Docker 镜像。您可以直接使用 Docker Hub 上的预构建镜像,或通过 Docker Compose 在本地构建,也可以手动构建自定义镜像。如果希望在本地构建,请遵循以下说明。如果只想使用预构建镜像,请直接查阅 [推理指南](inference.md) 中的说明。
+
+### 先决条件
+
+- 已安装 Docker 和 Docker Compose
+- 已安装 NVIDIA Docker 运行时 (用于 GPU 支持)
+- 至少 12GB 的 GPU 显存用于 CUDA 推理
+
+### 使用 Docker Compose
+
+对于开发或自定义需求,您可以使用 Docker Compose 在本地构建和运行:
+
+```bash
+# 首先克隆本仓库
+git clone https://github.com/fishaudio/fish-speech.git
+cd fish-speech
+
+# 使用 CUDA 启动 WebUI
+docker compose --profile webui up
+
+# 启动带编译优化的 WebUI
+COMPILE=1 docker compose --profile webui up
+
+# 启动 API 服务器
+docker compose --profile server up
+
+# 启动带编译优化的 API 服务器
+COMPILE=1 docker compose --profile server up
+
+# 仅 CPU 部署
+BACKEND=cpu docker compose --profile webui up
+```
+
+#### Docker Compose 环境变量
+
+您可以使用环境变量自定义部署:
+
+```bash
+# .env 文件示例
+BACKEND=cuda              # 或 cpu
+COMPILE=1                 # 启用编译优化
+GRADIO_PORT=7860         # WebUI 端口
+API_PORT=8080            # API 服务器端口
+UV_VERSION=0.8.15        # UV 包管理器版本
+```
+
+该命令将构建镜像并运行容器。您可以在 `http://localhost:7860` 访问 WebUI,在 `http://localhost:8080` 访问 API 服务器。
+
+### 手动 Docker 构建
+
+对于需要自定义构建流程的高级用户:
+
+```bash
+# 构建支持 CUDA 的 WebUI 镜像
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --build-arg CUDA_VER=12.6.0 \
+    --build-arg UV_EXTRA=cu126 \
+    --target webui \
+    -t fish-speech-webui:cuda .
+
+# 构建支持 CUDA 的 API 服务器镜像
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --build-arg CUDA_VER=12.6.0 \
+    --build-arg UV_EXTRA=cu126 \
+    --target server \
+    -t fish-speech-server:cuda .
+
+# 构建仅 CPU 镜像 (支持多平台)
+docker build \
+    --platform linux/amd64,linux/arm64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cpu \
+    --target webui \
+    -t fish-speech-webui:cpu .
+
+# 构建开发镜像
+docker build \
+    --platform linux/amd64 \
+    -f docker/Dockerfile \
+    --build-arg BACKEND=cuda \
+    --target dev \
+    -t fish-speech-dev:cuda .
+```
+
+#### 构建参数
+
+- `BACKEND`: `cuda` 或 `cpu` (默认: `cuda`)
+- `CUDA_VER`: CUDA 版本 (默认: `12.6.0`)
+- `UV_EXTRA`: 用于 CUDA 的 UV 附加包 (默认: `cu126`)
+- `UBUNTU_VER`: Ubuntu 版本 (默认: `24.04`)
+- `PY_VER`: Python 版本 (默认: `3.12`)
+
+### 卷挂载
+
+两种方法都需要挂载以下目录:
+
+- `./checkpoints:/app/checkpoints` - 模型权重目录
+- `./references:/app/references` - 参考音频文件目录
+
+### 环境变量
+
+- `COMPILE=1` - 启用 `torch.compile` 以加速推理 (约提速10倍)
+- `GRADIO_SERVER_NAME=0.0.0.0` - WebUI 服务器主机
+- `GRADIO_SERVER_PORT=7860` - WebUI 服务器端口
+- `API_SERVER_NAME=0.0.0.0` - API 服务器主机
+- `API_SERVER_PORT=8080` - API 服务器端口
+
+!!! note
+    Docker 容器期望模型权重挂载在 `/app/checkpoints` 路径。在启动容器前,请确保已下载所需的模型权重。
+
+!!! warning
+    GPU 支持需要 NVIDIA Docker 运行时。对于仅 CPU 部署,请移除 `--gpus all` 标志并使用 CPU 镜像。

+ 0 - 0
docs/zh/examples.md → docs/zh/samples.md


+ 6 - 6
mkdocs.yml

@@ -58,7 +58,7 @@ nav:
   - Introduction: en/index.md
   - Installation: en/install.md
   - Inference: en/inference.md
-  - Samples: en/examples.md
+  - Samples: en/samples.md
 
 # Plugins
 plugins:
@@ -85,7 +85,7 @@ plugins:
             - 介绍: zh/index.md
             - 安装: zh/install.md
             - 推理: zh/inference.md
-            - 示例: zh/examples.md
+            - 示例: zh/samples.md
         - locale: ja
           name: 日本語
           build: true
@@ -93,7 +93,7 @@ plugins:
             - はじめに: ja/index.md
             - インストール: ja/install.md
             - 推論: ja/inference.md
-            - サンプル: ja/examples.md
+            - サンプル: ja/samples.md
         - locale: pt
           name: Português (Brasil)
           build: true
@@ -101,7 +101,7 @@ plugins:
             - Introdução: pt/index.md
             - Instalação: pt/install.md
             - Inferência: pt/inference.md
-            - Amostras: pt/examples.md
+            - Amostras: pt/samples.md
         - locale: ko
           name: 한국어
           build: true
@@ -109,7 +109,7 @@ plugins:
             - 소개: ko/index.md
             - 설치: ko/install.md
             - 추론: ko/inference.md
-            - 샘플: ko/examples.md
+            - 샘플: ko/samples.md
         - locale: ar
           name: العربية
           build: true
@@ -117,7 +117,7 @@ plugins:
             - مقدمة: ar/index.md
             - التثبيت: ar/install.md
             - الاستنتاج: ar/inference.md
-            - العينات: ar/examples.md
+            - العينات: ar/samples.md
 
 markdown_extensions:
   - pymdownx.highlight: