2 månader sedan · 2d37d218cb
--- a/FishAudioS2TecReport.pdf
+++ b/FishAudioS2TecReport.pdf
--- a/README.md
+++ b/README.md
@@ -156,7 +156,7 @@ Thanks to the expansion of the model context, our model can now use previous inf
 
															 ### Rapid Voice Cloning
														
 
															 Fish Audio S2 supports accurate voice cloning using a short reference sample (typically 10–30 seconds). The model captures timbre, speaking style, and emotional tendencies, producing realistic and consistent cloned voices without additional fine-tuning.
														
 
															-Please refer to https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md to use the SGLang server.
														
 
															+Please refer to [SGLang-Omni README](https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md) to use the SGLang server.
														
 
															 ---
														
 
															 ## Credits
														
--- a/docs/README.ar.md
+++ b/docs/README.ar.md
@@ -156,7 +156,7 @@ Fish Audio S2 هو أحدث نموذج من [Fish Audio](https://fish.audio/).
 
															 ### استنساخ صوت سريع
														
 
															 يدعم Fish Audio S2 استنساخ الصوت بدقة باستخدام عينة مرجعية قصيرة (عادةً 10-30 ثانية). يلتقط النموذج نبرة الصوت، وأسلوب التحدث، والميول العاطفية، مما ينتج أصواتاً مستنسخة واقعية ومتسقة دون الحاجة إلى ضبط دقيق إضافي.
														
 
															-لاستخدام خادم SGLang، راجع https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md .
														
 
															+لاستخدام خادم SGLang، راجع [SGLang-Omni README](https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md) .
														
 
															 ---
														
--- a/docs/README.ja.md
+++ b/docs/README.ja.md
@@ -156,7 +156,7 @@ Fish Audio S2 では、ユーザーが複数のスピーカーを含む参照オ
 
															 ### 高速音声クローニング
														
 
															 Fish Audio S2 は、短い参照サンプル（通常10〜30秒）を使用した正確な音声クローニングをサポートしています。モデルは音色、話し方、感情的な傾向を捉え、追加の微調整なしでリアルで一貫したクローン音声を生成します。
														
 
															-SGLang サーバーの利用については https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md を参照してください。
														
 
															+SGLang サーバーの利用については [SGLang-Omni README](https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md) を参照してください。
														
 
															 ---
														
--- a/docs/README.ko.md
+++ b/docs/README.ko.md
@@ -156,7 +156,7 @@ Fish Audio S2는 사용자가 여러 화자가 포함된 참조 오디오를 업
 
															 ### 빠른 음성 복제
														
 
															 Fish Audio S2는 짧은 참조 샘플(일반적으로 10-30초)을 사용하여 정확한 음성 복제를 지원합니다. 모델은 음색, 말하기 스타일 및 감정적 경향을 캡처하여 추가 미세 조정 없이 사실적이고 일관된 복제 음성을 생성합니다.
														
 
															-SGLang 서버 사용은 https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md 를 참고하세요.
														
 
															+SGLang 서버 사용은 [SGLang-Omni README](https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md) 를 참고하세요.
														
 
															 ---
														
--- a/docs/README.pt-BR.md
+++ b/docs/README.pt-BR.md
@@ -156,7 +156,7 @@ Graças à extensão do contexto do modelo, nosso modelo agora pode usar informa
 
															 ### Clonagem de Voz Rápida
														
 
															 O Fish Audio S2 suporta clonagem de voz precisa usando uma pequena amostra de referência (tipicamente de 10 a 30 segundos). O modelo captura o timbre, o estilo de fala e as tendências emocionais, produzindo vozes clonadas realistas e consistentes sem ajuste fino adicional.
														
 
															-Para usar o servidor SGLang, consulte https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md .
														
 
															+Para usar o servidor SGLang, consulte [SGLang-Omni README](https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md) .
														
 
															 ---
														
--- a/docs/README.zh.md
+++ b/docs/README.zh.md
@@ -157,7 +157,7 @@ Fish Audio S2 允许用户上传包含多个说话人的参考音频，模型将
 
															 ### 快速语音克隆
														
 
															 Fish Audio S2 支持使用短参考样本（通常为 10-30 秒）进行准确的语音克隆。模型可以捕捉音色、说话风格和情感倾向，无需额外微调即可生成逼真且一致的克隆语音。
														
 
															-如需使用 SGLang Server，请参考 https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md 。
														
 
															+如需使用 SGLang Server，请参考 [SGLang-Omni README](https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md) 。
														
 
															 ---
														
--- a/docs/ar/index.md
+++ b/docs/ar/index.md
@@ -154,7 +154,7 @@ Fish Audio S2 هو أحدث نموذج من [Fish Audio](https://fish.audio/).
 
															 ### استنساخ صوت سريع
														
 
															 يدعم Fish Audio S2 استنساخ الصوت بدقة باستخدام عينة مرجعية قصيرة (عادةً 10-30 ثانية). يلتقط النموذج نبرة الصوت، وأسلوب التحدث، والميول العاطفية، مما ينتج أصواتاً مستنسخة واقعية ومتسقة دون الحاجة إلى ضبط دقيق إضافي.
														
 
															-لاستخدام خادم SGLang، راجع https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md .
														
 
															+لاستخدام خادم SGLang، راجع [SGLang-Omni README](https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md) .
														
 
															 ---
														
--- a/docs/en/index.md
+++ b/docs/en/index.md
@@ -154,7 +154,7 @@ Thanks to the expansion of the model context, our model can now use previous inf
 
															 ### Rapid Voice Cloning
														
 
															 Fish Audio S2 supports accurate voice cloning using a short reference sample (typically 10–30 seconds). The model captures timbre, speaking style, and emotional tendencies, producing realistic and consistent cloned voices without additional fine-tuning.
														
 
															-Please refer to https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md to use the SGLang server.
														
 
															+Please refer to [SGLang-Omni README](https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md) to use the SGLang server.
														
 
															 ---
														
 
															 ## Credits
														
--- a/docs/ja/index.md
+++ b/docs/ja/index.md
@@ -154,7 +154,7 @@ Fish Audio S2 では、ユーザーが複数のスピーカーを含む参照オ
 
															 ### 高速音声クローニング
														
 
															 Fish Audio S2 は、短い参照サンプル（通常10〜30秒）を使用した正確な音声クローニングをサポートしています。モデルは音色、話し方、感情的な傾向を捉え、追加の微調整なしでリアルで一貫したクローン音声を生成します。
														
 
															-SGLang サーバーの利用については https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md を参照してください。
														
 
															+SGLang サーバーの利用については [SGLang-Omni README](https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md) を参照してください。
														
 
															 ---
														
--- a/docs/ko/index.md
+++ b/docs/ko/index.md
@@ -154,7 +154,7 @@ Fish Audio S2는 사용자가 여러 화자가 포함된 참조 오디오를 업
 
															 ### 빠른 음성 복제
														
 
															 Fish Audio S2는 짧은 참조 샘플(일반적으로 10-30초)을 사용하여 정확한 음성 복제를 지원합니다. 모델은 음색, 말하기 스타일 및 감정적 경향을 캡처하여 추가 미세 조정 없이 사실적이고 일관된 복제 음성을 생성합니다.
														
 
															-SGLang 서버 사용은 https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md 를 참고하세요.
														
 
															+SGLang 서버 사용은 [SGLang-Omni README](https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md) 를 참고하세요.
														
 
															 ---
														
--- a/docs/pt/index.md
+++ b/docs/pt/index.md
@@ -154,7 +154,7 @@ Graças à extensão do contexto do modelo, nosso modelo agora pode usar informa
 
															 ### Clonagem de Voz Rápida
														
 
															 O Fish Audio S2 suporta clonagem de voz precisa usando uma pequena amostra de referência (tipicamente de 10 a 30 segundos). O modelo captura o timbre, o estilo de fala e as tendências emocionais, produzindo vozes clonadas realistas e consistentes sem ajuste fino adicional.
														
 
															-Para usar o servidor SGLang, consulte https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md .
														
 
															+Para usar o servidor SGLang, consulte [SGLang-Omni README](https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md) .
														
 
															 ---
														
--- a/docs/zh/index.md
+++ b/docs/zh/index.md
@@ -154,7 +154,7 @@ Fish Audio S2 允许用户上传包含多个说话人的参考音频，模型将
 
															 ### 快速语音克隆
														
 
															 Fish Audio S2 支持使用短参考样本（通常为 10-30 秒）进行准确的语音克隆。模型可以捕捉音色、说话风格和情感倾向，无需额外微调即可生成逼真且一致的克隆语音。
														
 
															-如需使用 SGLang Server，请参考 https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md 。
														
 
															+如需使用 SGLang Server，请参考 [SGLang-Omni README](https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md) 。
														
 
															 ---
														
--- a/fish_speech/models/text2semantic/inference.py
+++ b/fish_speech/models/text2semantic/inference.py
@@ -40,10 +40,9 @@ from fish_speech.models.text2semantic.llama import (
 
															 )
														
 
															-def multinomial_sample_one_no_sync(
														
 
															-    probs_sort,
														
 
															-):  # Does multinomial sampling without a cuda synchronization
														
 
															-    q = torch.empty_like(probs_sort).exponential_(1)
														
 
															+def multinomial_sample_one_no_sync(probs_sort):
														
 
															+    q = torch.rand_like(probs_sort)
														
 
															+    q = -torch.log(q)
														
 
															     return torch.argmax(probs_sort / q, dim=-1, keepdim=True).to(dtype=torch.int)
														
@@ -56,19 +55,22 @@ def logits_to_probs(
 
															     logits,
														
 
															     temperature: torch.Tensor,
														
 
															     top_p: torch.Tensor,
														
 
															-    top_k: torch.Tensor,
														
 
															+    top_k: int,  # 注意: 我看到你传进来的是 int，这很关键
														
 
															 ) -> torch.Tensor:
														
 
															-    # Sort and compute top-p mask
														
 
															     sorted_logits, sorted_indices = torch.sort(logits, descending=True)
														
 
															     cum_probs = torch.cumsum(torch.nn.functional.softmax(sorted_logits, dim=-1), dim=-1)
														
 
															-    sorted_indices_to_remove = cum_probs > top_p
														
 
															-    # top-k mask
														
 
															-    sorted_indices_to_remove[top_k:] = True
														
 
															-    sorted_indices_to_remove[0] = False  # keep at least one option
														
 
															+
														
 
															+    indices = torch.arange(sorted_logits.shape[-1], device=sorted_logits.device)
														
 
															+    top_k_mask = indices >= top_k
														
 
															+    sorted_indices_to_remove = (cum_probs > top_p) | top_k_mask
														
 
															+    sorted_indices_to_remove[0] = False  # 单元素修改问题不大，或者写成 | (indices != 0)
														
 
															+
														
 
															     indices_to_remove = sorted_indices_to_remove.scatter(
														
 
															         dim=-1, index=sorted_indices, src=sorted_indices_to_remove
														
 
															     )
														
 
															-    logits = logits.masked_fill(indices_to_remove, -float("Inf"))
														
 
															+    logits = torch.where(
														
 
															+        indices_to_remove, float("-Inf"), logits
														
 
															+    )  # 同样替换 masked_fill_ 为 torch.where
														
 
															     logits = logits / torch.clip(temperature, min=1e-5)
														
 
															     probs = torch.nn.functional.softmax(logits, dim=-1)
														
@@ -143,19 +145,12 @@ def decode_one_token_ar(
 
															     codebooks = [main_token_normal]
														
 
															-    # Only clear cache for fast_layers, avoid clearing main model cache
														
 
															-    for layer in model.fast_layers:
														
 
															-        if hasattr(layer, "attention") and hasattr(layer.attention, "kv_cache"):
														
 
															-            layer.attention.kv_cache.k_cache.fill_(0)
														
 
															-            layer.attention.kv_cache.v_cache.fill_(0)
														
 
															-
														
 
															     input_pos = torch.tensor([0], device=hidden_states.device, dtype=torch.long)
														
 
															     model.forward_generate_fast(hidden_states, input_pos)
														
 
															-    # [MODIFIED] Access config instead of tokenizer
														
 
															     a = codebooks[0] - model.config.semantic_begin_id
														
 
															-    a[a < 0] = 0
														
 
															-    a[a >= model.config.codebook_size] = 0
														
 
															+    a = torch.clamp(a, min=0, max=model.config.codebook_size - 1)
														
 
															+
														
 
															     hidden_states = model.fast_embeddings(a)
														
 
															     codebooks.append(a)
														
@@ -390,7 +385,7 @@ def init_model(checkpoint_path, device, precision, compile=False):
 
															         decode_one_token = torch.compile(
														
 
															             decode_one_token,
														
 
															             backend="inductor" if torch.cuda.is_available() else "aot_eager",
														
 
															-            mode="reduce-overhead" if torch.cuda.is_available() else None,
														
 
															+            mode="default" if torch.cuda.is_available() else None,
														
 
															             fullgraph=True,
														
 
															         )