Нет описания

spicysama f15d9f23a9 feat: enable more workers in `api.py` (#621)		1 год назад
.github	d4d698c922 rename image to reduce confusion	1 год назад
docs	f15d9f23a9 feat: enable more workers in `api.py` (#621)	1 год назад
fish_speech	711209e541 update clean text for new model	1 год назад
tools	f15d9f23a9 feat: enable more workers in `api.py` (#621)	1 год назад
.dockerignore	e413df7145 perf: Optimizing docker builds (#547)	1 год назад
.gitignore	e9394c71f0 keep up with official close-source api (#513)	1 год назад
.pre-commit-config.yaml	97625fb8e7 [pre-commit.ci] pre-commit autoupdate (#599)	1 год назад
.project-root	5707699dfd Handle adaptive number of codebooks	2 лет назад
.readthedocs.yaml	fe293ca492 Use readthedocs instead of github action	2 лет назад
API_FLAGS.txt	dad516d86d update checkpoint path	1 год назад
LICENSE	b91815e074 Switch to CC-BY-NC-SA 4.0 license	2 лет назад
README.ja.md	f15d9f23a9 feat: enable more workers in `api.py` (#621)	1 год назад
README.md	f15d9f23a9 feat: enable more workers in `api.py` (#621)	1 год назад
README.pt-BR.md	f15d9f23a9 feat: enable more workers in `api.py` (#621)	1 год назад
README.zh.md	f15d9f23a9 feat: enable more workers in `api.py` (#621)	1 год назад
docker-compose.dev.yml	f6c56c68d4 Update docker-compose.dev.yml	1 год назад
dockerfile	776c00f69b Add ffmpeg	1 год назад
dockerfile.dev	dd14391692 optimize dockerbuild	1 год назад
entrypoint.sh	e413df7145 perf: Optimizing docker builds (#547)	1 год назад
inference.ipynb	dad516d86d update checkpoint path	1 год назад
install_env.bat	f15d9f23a9 feat: enable more workers in `api.py` (#621)	1 год назад
mkdocs.yml	4f097ef2f4 remove ghcr & update docker registry	1 год назад
pyproject.toml	f15d9f23a9 feat: enable more workers in `api.py` (#621)	1 год назад
pyrightconfig.json	6d57066e52 Update pre-commit hook	2 лет назад
run_cmd.bat	8702c61100 From whisper to sensevoice (#482)	1 год назад
start.bat	46440f25be 对脚本的一点小修改 (#414)	1 год назад

Fish Speech

[English](README.md) | [简体中文](README.zh.md) | [Portuguese](README.pt-BR.md) | **日本語**

このコードベースとすべてのモデルは、CC-BY-NC-SA-4.0 ライセンスの下でリリースされています。詳細については、LICENSEを参照してください。

機能

ゼロショット & フューショット TTS：10〜30 秒の音声サンプルを入力して、高品質の TTS 出力を生成します。詳細は音声クローンのベストプラクティスを参照してください。
多言語 & クロスリンガル対応：多言語テキストを入力ボックスにコピーペーストするだけで、言語を気にする必要はありません。現在、英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語に対応しています。
音素依存なし：このモデルは強力な汎化能力を持ち、TTS に音素を必要としません。あらゆる言語スクリプトに対応可能です。
高精度：5 分間の英語テキストに対し、CER（文字誤り率）と WER（単語誤り率）は約 2%の精度を達成します。
高速：fish-tech アクセラレーションにより、Nvidia RTX 4060 ラップトップではリアルタイムファクターが約 1:5、Nvidia RTX 4090 では約 1:15 です。
WebUI 推論：使いやすい Gradio ベースの Web ユーザーインターフェースを搭載し、Chrome、Firefox、Edge などのブラウザに対応しています。
GUI 推論：PyQt6 のグラフィカルインターフェースを提供し、API サーバーとシームレスに連携します。Linux、Windows、macOS に対応しています。GUI を見る。
デプロイしやすい：Linux、Windows、macOS にネイティブ対応した推論サーバーを簡単にセットアップでき、速度の低下を最小限に抑えます。