1 год назад · e9394c71f0
--- a/.gitignore
+++ b/.gitignore
@@ -15,6 +15,7 @@ filelists
 
				 /*.npy
			
 
				 /*.wav
			
 
				 /*.mp3
			
 
				+/*.lab
			
 
				 /results
			
 
				 /data
			
 
				 /.idea
			
@@ -25,6 +26,6 @@ asr-label*
 
				 /fishenv
			
 
				 /.locale
			
 
				 /demo-audios
			
 
				-ref_data*
			
 
				+/references
			
 
				 /example
			
 
				 /faster_whisper
			
--- a/tools/api.py
+++ b/tools/api.py
@@ -9,16 +9,20 @@ import wave
 
				 from argparse import ArgumentParser
			
 
				 from http import HTTPStatus
			
 
				 from pathlib import Path
			
 
				-from typing import Annotated, Literal, Optional
			
 
				+from typing import Annotated, Any, Literal, Optional
			
 
				 
			
 
				 import numpy as np
			
 
				+import ormsgpack
			
 
				 import pyrootutils
			
 
				 import soundfile as sf
			
 
				 import torch
			
 
				 import torchaudio
			
 
				+from baize.datastructures import ContentType
			
 
				 from kui.asgi import (
			
 
				     Body,
			
 
				+    FactoryClass,
			
 
				     HTTPException,
			
 
				+    HttpRequest,
			
 
				     HttpView,
			
 
				     JSONResponse,
			
 
				     Kui,
			
@@ -27,14 +31,16 @@ from kui.asgi import (
 
				 )
			
 
				 from kui.asgi.routing import MultimethodRoutes
			
 
				 from loguru import logger
			
 
				-from pydantic import BaseModel, Field
			
 
				+from pydantic import BaseModel, Field, conint
			
 
				 
			
 
				 pyrootutils.setup_root(__file__, indicator=".project-root", pythonpath=True)
			
 
				 
			
 
				 # from fish_speech.models.vqgan.lit_module import VQGAN
			
 
				 from fish_speech.models.vqgan.modules.firefly import FireflyArchitecture
			
 
				+from fish_speech.text.chn_text_norm.text import Text as ChnNormedText
			
 
				 from fish_speech.utils import autocast_exclude_mps
			
 
				 from tools.auto_rerank import batch_asr, calculate_wer, is_chinese, load_model
			
 
				+from tools.file import AUDIO_EXTENSIONS, audio_to_bytes, list_files, read_ref_text
			
 
				 from tools.llama.generate import (
			
 
				     GenerateRequest,
			
 
				     GenerateResponse,
			
@@ -82,11 +88,8 @@ async def other_exception_handler(exc: "Exception"):
 
				 
			
 
				 def load_audio(reference_audio, sr):
			
 
				     if len(reference_audio) > 255 or not Path(reference_audio).exists():
			
 
				-        try:
			
 
				-            audio_data = base64.b64decode(reference_audio)
			
 
				-            reference_audio = io.BytesIO(audio_data)
			
 
				-        except base64.binascii.Error:
			
 
				-            raise ValueError("Invalid path or base64 string")
			
 
				+        audio_data = reference_audio
			
 
				+        reference_audio = io.BytesIO(audio_data)
			
 
				 
			
 
				     waveform, original_sr = torchaudio.load(
			
 
				         reference_audio, backend="sox" if sys.platform == "linux" else "soundfile"
			
@@ -153,56 +156,36 @@ def decode_vq_tokens(
 
				 routes = MultimethodRoutes(base_class=HttpView)
			
 
				 
			
 
				 
			
 
				-def get_random_paths(base_path, data, speaker, emotion):
			
 
				-    if base_path and data and speaker and emotion and (Path(base_path).exists()):
			
 
				-        if speaker in data and emotion in data[speaker]:
			
 
				-            files = data[speaker][emotion]
			
 
				-            lab_files = [f for f in files if f.endswith(".lab")]
			
 
				-            wav_files = [f for f in files if f.endswith(".wav")]
			
 
				+class ServeReferenceAudio(BaseModel):
			
 
				+    audio: bytes
			
 
				+    text: str
			
 
				 
			
 
				-            if lab_files and wav_files:
			
 
				-                selected_lab = random.choice(lab_files)
			
 
				-                selected_wav = random.choice(wav_files)
			
 
				 
			
 
				-                lab_path = Path(base_path) / speaker / emotion / selected_lab
			
 
				-                wav_path = Path(base_path) / speaker / emotion / selected_wav
			
 
				-                if lab_path.exists() and wav_path.exists():
			
 
				-                    return lab_path, wav_path
			
 
				-
			
 
				-    return None, None
			
 
				-
			
 
				-
			
 
				-def load_json(json_file):
			
 
				-    if not json_file:
			
 
				-        logger.info("Not using a json file")
			
 
				-        return None
			
 
				-    try:
			
 
				-        with open(json_file, "r", encoding="utf-8") as file:
			
 
				-            data = json.load(file)
			
 
				-    except FileNotFoundError:
			
 
				-        logger.warning(f"ref json not found: {json_file}")
			
 
				-        data = None
			
 
				-    except Exception as e:
			
 
				-        logger.warning(f"Loading json failed: {e}")
			
 
				-        data = None
			
 
				-    return data
			
 
				-
			
 
				-
			
 
				-class InvokeRequest(BaseModel):
			
 
				+class ServeTTSRequest(BaseModel):
			
 
				     text: str = "你说的对, 但是原神是一款由米哈游自主研发的开放世界手游."
			
 
				-    reference_text: Optional[str] = None
			
 
				-    reference_audio: Optional[str] = None
			
 
				+    chunk_length: Annotated[int, conint(ge=100, le=300, strict=True)] = 200
			
 
				+    # Audio format
			
 
				+    format: Literal["wav", "pcm", "mp3"] = "wav"
			
 
				+    mp3_bitrate: Literal[64, 128, 192] = 128
			
 
				+    # References audios for in-context learning
			
 
				+    references: list[ServeReferenceAudio] = []
			
 
				+    # Reference id
			
 
				+    # For example, if you want use https://fish.audio/m/7f92f8afb8ec43bf81429cc1c9199cb1/
			
 
				+    # Just pass 7f92f8afb8ec43bf81429cc1c9199cb1
			
 
				+    reference_id: str | None = None
			
 
				+    # Normalize text for en & zh, this increase stability for numbers
			
 
				+    normalize: bool = True
			
 
				+    mp3_bitrate: Optional[int] = 64
			
 
				+    opus_bitrate: Optional[int] = -1000
			
 
				+    # Balance mode will reduce latency to 300ms, but may decrease stability
			
 
				+    latency: Literal["normal", "balanced"] = "normal"
			
 
				+    # not usually used below
			
 
				+    streaming: bool = False
			
 
				+    emotion: Optional[str] = None
			
 
				     max_new_tokens: int = 1024
			
 
				-    chunk_length: Annotated[int, Field(ge=0, le=500, strict=True)] = 100
			
 
				     top_p: Annotated[float, Field(ge=0.1, le=1.0, strict=True)] = 0.7
			
 
				     repetition_penalty: Annotated[float, Field(ge=0.9, le=2.0, strict=True)] = 1.2
			
 
				     temperature: Annotated[float, Field(ge=0.1, le=1.0, strict=True)] = 0.7
			
 
				-    emotion: Optional[str] = None
			
 
				-    format: Literal["wav", "mp3", "flac"] = "wav"
			
 
				-    streaming: bool = False
			
 
				-    ref_json: Optional[str] = "ref_data.json"
			
 
				-    ref_base: Optional[str] = "ref_data"
			
 
				-    speaker: Optional[str] = None
			
 
				 
			
 
				 
			
 
				 def get_content_type(audio_format):
			
@@ -217,35 +200,52 @@ def get_content_type(audio_format):
 
				 
			
 
				 
			
 
				 @torch.inference_mode()
			
 
				-def inference(req: InvokeRequest):
			
 
				-    # Parse reference audio aka prompt
			
 
				-    prompt_tokens = None
			
 
				-
			
 
				-    ref_data = load_json(req.ref_json)
			
 
				-    ref_base = req.ref_base
			
 
				-
			
 
				-    lab_path, wav_path = get_random_paths(ref_base, ref_data, req.speaker, req.emotion)
			
 
				-
			
 
				-    if lab_path and wav_path:
			
 
				-        with open(lab_path, "r", encoding="utf-8") as lab_file:
			
 
				-            ref_text = lab_file.read()
			
 
				-        req.reference_audio = wav_path
			
 
				-        req.reference_text = ref_text
			
 
				-        logger.info("ref_path: " + str(wav_path))
			
 
				-        logger.info("ref_text: " + ref_text)
			
 
				-
			
 
				-    # Parse reference audio aka prompt
			
 
				-    prompt_tokens = encode_reference(
			
 
				-        decoder_model=decoder_model,
			
 
				-        reference_audio=req.reference_audio,
			
 
				-        enable_reference_audio=req.reference_audio is not None,
			
 
				-    )
			
 
				-    logger.info(f"ref_text: {req.reference_text}")
			
 
				+def inference(req: ServeTTSRequest):
			
 
				+
			
 
				+    idstr: str | None = req.reference_id
			
 
				+    if idstr is not None:
			
 
				+        ref_folder = Path("references") / idstr
			
 
				+        ref_folder.mkdir(parents=True, exist_ok=True)
			
 
				+        ref_audios = list_files(
			
 
				+            ref_folder, AUDIO_EXTENSIONS, recursive=True, sort=False
			
 
				+        )
			
 
				+        prompt_tokens = [
			
 
				+            encode_reference(
			
 
				+                decoder_model=decoder_model,
			
 
				+                reference_audio=audio_to_bytes(str(ref_audio)),
			
 
				+                enable_reference_audio=True,
			
 
				+            )
			
 
				+            for ref_audio in ref_audios
			
 
				+        ]
			
 
				+        prompt_texts = [
			
 
				+            read_ref_text(str(ref_audio.with_suffix(".lab")))
			
 
				+            for ref_audio in ref_audios
			
 
				+        ]
			
 
				+
			
 
				+    else:
			
 
				+        # Parse reference audio aka prompt
			
 
				+        refs = req.references
			
 
				+        if refs is None:
			
 
				+            refs = []
			
 
				+        prompt_tokens = [
			
 
				+            encode_reference(
			
 
				+                decoder_model=decoder_model,
			
 
				+                reference_audio=ref.audio,
			
 
				+                enable_reference_audio=True,
			
 
				+            )
			
 
				+            for ref in refs
			
 
				+        ]
			
 
				+        prompt_texts = [ref.text for ref in refs]
			
 
				+
			
 
				     # LLAMA Inference
			
 
				     request = dict(
			
 
				         device=decoder_model.device,
			
 
				         max_new_tokens=req.max_new_tokens,
			
 
				-        text=req.text,
			
 
				+        text=(
			
 
				+            req.text
			
 
				+            if not req.normalize
			
 
				+            else ChnNormedText(raw_text=req.text).normalize()
			
 
				+        ),
			
 
				         top_p=req.top_p,
			
 
				         repetition_penalty=req.repetition_penalty,
			
 
				         temperature=req.temperature,
			
@@ -254,7 +254,7 @@ def inference(req: InvokeRequest):
 
				         chunk_length=req.chunk_length,
			
 
				         max_length=2048,
			
 
				         prompt_tokens=prompt_tokens,
			
 
				-        prompt_text=req.reference_text,
			
 
				+        prompt_text=prompt_texts,
			
 
				     )
			
 
				 
			
 
				     response_queue = queue.Queue()
			
@@ -307,40 +307,7 @@ def inference(req: InvokeRequest):
 
				     yield fake_audios
			
 
				 
			
 
				 
			
 
				-def auto_rerank_inference(req: InvokeRequest, use_auto_rerank: bool = True):
			
 
				-    if not use_auto_rerank:
			
 
				-        # 如果不使用 auto_rerank，直接调用原始的 inference 函数
			
 
				-        return inference(req)
			
 
				-
			
 
				-    zh_model, en_model = load_model()
			
 
				-    max_attempts = 5
			
 
				-    best_wer = float("inf")
			
 
				-    best_audio = None
			
 
				-
			
 
				-    for attempt in range(max_attempts):
			
 
				-        # 调用原始的 inference 函数
			
 
				-        audio_generator = inference(req)
			
 
				-        fake_audios = next(audio_generator)
			
 
				-
			
 
				-        asr_result = batch_asr(
			
 
				-            zh_model if is_chinese(req.text) else en_model, [fake_audios], 44100
			
 
				-        )[0]
			
 
				-        wer = calculate_wer(req.text, asr_result["text"])
			
 
				-
			
 
				-        if wer <= 0.1 and not asr_result["huge_gap"]:
			
 
				-            return fake_audios
			
 
				-
			
 
				-        if wer < best_wer:
			
 
				-            best_wer = wer
			
 
				-            best_audio = fake_audios
			
 
				-
			
 
				-        if attempt == max_attempts - 1:
			
 
				-            break
			
 
				-
			
 
				-    return best_audio
			
 
				-
			
 
				-
			
 
				-async def inference_async(req: InvokeRequest):
			
 
				+async def inference_async(req: ServeTTSRequest):
			
 
				     for chunk in inference(req):
			
 
				         yield chunk
			
 
				 
			
@@ -349,9 +316,9 @@ async def buffer_to_async_generator(buffer):
 
				     yield buffer
			
 
				 
			
 
				 
			
 
				-@routes.http.post("/v1/invoke")
			
 
				+@routes.http.post("/v1/tts")
			
 
				 async def api_invoke_model(
			
 
				-    req: Annotated[InvokeRequest, Body(exclusive=True)],
			
 
				+    req: Annotated[ServeTTSRequest, Body(exclusive=True)],
			
 
				 ):
			
 
				     """
			
 
				     Invoke model and generate audio
			
@@ -422,7 +389,7 @@ def parse_args():
 
				     parser.add_argument("--half", action="store_true")
			
 
				     parser.add_argument("--compile", action="store_true")
			
 
				     parser.add_argument("--max-text-length", type=int, default=0)
			
 
				-    parser.add_argument("--listen", type=str, default="127.0.0.1:8000")
			
 
				+    parser.add_argument("--listen", type=str, default="127.0.0.1:8080")
			
 
				     parser.add_argument("--workers", type=int, default=1)
			
 
				     parser.add_argument("--use-auto-rerank", type=bool, default=True)
			
 
				 
			
@@ -436,18 +403,30 @@ openapi = OpenAPI(
 
				     },
			
 
				 ).routes
			
 
				 
			
 
				+
			
 
				+class MsgPackRequest(HttpRequest):
			
 
				+    async def data(self) -> Annotated[Any, ContentType("application/msgpack")]:
			
 
				+        if self.content_type == "application/msgpack":
			
 
				+            return ormsgpack.unpackb(await self.body)
			
 
				+
			
 
				+        raise HTTPException(
			
 
				+            HTTPStatus.UNSUPPORTED_MEDIA_TYPE,
			
 
				+            headers={"Accept": "application/msgpack"},
			
 
				+        )
			
 
				+
			
 
				+
			
 
				 app = Kui(
			
 
				     routes=routes + openapi[1:],  # Remove the default route
			
 
				     exception_handlers={
			
 
				         HTTPException: http_execption_handler,
			
 
				         Exception: other_exception_handler,
			
 
				     },
			
 
				+    factory_class=FactoryClass(http=MsgPackRequest),
			
 
				     cors_config={},
			
 
				 )
			
 
				 
			
 
				 
			
 
				 if __name__ == "__main__":
			
 
				-    import threading
			
 
				 
			
 
				     import uvicorn
			
 
				 
			
@@ -474,18 +453,16 @@ if __name__ == "__main__":
 
				     # Dry run to check if the model is loaded correctly and avoid the first-time latency
			
 
				     list(
			
 
				         inference(
			
 
				-            InvokeRequest(
			
 
				+            ServeTTSRequest(
			
 
				                 text="Hello world.",
			
 
				-                reference_text=None,
			
 
				-                reference_audio=None,
			
 
				+                references=[],
			
 
				+                reference_id=None,
			
 
				                 max_new_tokens=0,
			
 
				                 top_p=0.7,
			
 
				                 repetition_penalty=1.2,
			
 
				                 temperature=0.7,
			
 
				                 emotion=None,
			
 
				                 format="wav",
			
 
				-                ref_base=None,
			
 
				-                ref_json=None,
			
 
				             )
			
 
				         )
			
 
				     )
			
--- a/tools/file.py
+++ b/tools/file.py
@@ -1,3 +1,4 @@
 
				+import base64
			
 
				 from pathlib import Path
			
 
				 from typing import Union
			
 
				 
			
@@ -23,6 +24,22 @@ VIDEO_EXTENSIONS = {
 
				 }
			
 
				 
			
 
				 
			
 
				+def audio_to_bytes(file_path):
			
 
				+    if not file_path or not Path(file_path).exists():
			
 
				+        return None
			
 
				+    with open(file_path, "rb") as wav_file:
			
 
				+        wav = wav_file.read()
			
 
				+    return wav
			
 
				+
			
 
				+
			
 
				+def read_ref_text(ref_text):
			
 
				+    path = Path(ref_text)
			
 
				+    if path.exists() and path.is_file():
			
 
				+        with path.open("r", encoding="utf-8") as file:
			
 
				+            return file.read()
			
 
				+    return ref_text
			
 
				+
			
 
				+
			
 
				 def list_files(
			
 
				     path: Union[Path, str],
			
 
				     extensions: set[str] = None,
			
--- a/tools/gen_ref.py
+++ b/tools/gen_ref.py
@@ -1,36 +0,0 @@
 
				-import json
			
 
				-from pathlib import Path
			
 
				-
			
 
				-
			
 
				-def scan_folder(base_path):
			
 
				-    wav_lab_pairs = {}
			
 
				-
			
 
				-    base = Path(base_path)
			
 
				-    for suf in ["wav", "lab"]:
			
 
				-        for f in base.rglob(f"*.{suf}"):
			
 
				-            relative_path = f.relative_to(base)
			
 
				-            parts = relative_path.parts
			
 
				-            print(parts)
			
 
				-            if len(parts) >= 3:
			
 
				-                character = parts[0]
			
 
				-                emotion = parts[1]
			
 
				-
			
 
				-                if character not in wav_lab_pairs:
			
 
				-                    wav_lab_pairs[character] = {}
			
 
				-                if emotion not in wav_lab_pairs[character]:
			
 
				-                    wav_lab_pairs[character][emotion] = []
			
 
				-                wav_lab_pairs[character][emotion].append(str(f.name))
			
 
				-
			
 
				-    return wav_lab_pairs
			
 
				-
			
 
				-
			
 
				-def save_to_json(data, output_file):
			
 
				-    with open(output_file, "w", encoding="utf-8") as file:
			
 
				-        json.dump(data, file, ensure_ascii=False, indent=2)
			
 
				-
			
 
				-
			
 
				-base_path = "ref_data"
			
 
				-out_ref_file = "ref_data.json"
			
 
				-
			
 
				-wav_lab_pairs = scan_folder(base_path)
			
 
				-save_to_json(wav_lab_pairs, out_ref_file)
			
--- a/tools/merge_asr_files.py
+++ b/tools/merge_asr_files.py
@@ -1,55 +0,0 @@
 
				-import os
			
 
				-from pathlib import Path
			
 
				-
			
 
				-from pydub import AudioSegment
			
 
				-from tqdm import tqdm
			
 
				-
			
 
				-from tools.file import AUDIO_EXTENSIONS, list_files
			
 
				-
			
 
				-
			
 
				-def merge_and_delete_files(save_dir, original_files):
			
 
				-    save_path = Path(save_dir)
			
 
				-    audio_slice_files = list_files(
			
 
				-        path=save_dir, extensions=AUDIO_EXTENSIONS.union([".lab"]), recursive=True
			
 
				-    )
			
 
				-    audio_files = {}
			
 
				-    label_files = {}
			
 
				-    for file_path in tqdm(audio_slice_files, desc="Merging audio files"):
			
 
				-        rel_path = Path(file_path).relative_to(save_path)
			
 
				-        (save_path / rel_path.parent).mkdir(parents=True, exist_ok=True)
			
 
				-        if file_path.suffix == ".wav":
			
 
				-            prefix = rel_path.parent / file_path.stem.rsplit("-", 1)[0]
			
 
				-            if prefix == rel_path.parent / file_path.stem:
			
 
				-                continue
			
 
				-            audio = AudioSegment.from_wav(file_path)
			
 
				-            if prefix in audio_files.keys():
			
 
				-                audio_files[prefix] = audio_files[prefix] + audio
			
 
				-            else:
			
 
				-                audio_files[prefix] = audio
			
 
				-
			
 
				-        elif file_path.suffix == ".lab":
			
 
				-            prefix = rel_path.parent / file_path.stem.rsplit("-", 1)[0]
			
 
				-            if prefix == rel_path.parent / file_path.stem:
			
 
				-                continue
			
 
				-            with open(file_path, "r", encoding="utf-8") as f:
			
 
				-                label = f.read()
			
 
				-            if prefix in label_files.keys():
			
 
				-                label_files[prefix] = label_files[prefix] + ", " + label
			
 
				-            else:
			
 
				-                label_files[prefix] = label
			
 
				-
			
 
				-    for prefix, audio in audio_files.items():
			
 
				-        output_audio_path = save_path / f"{prefix}.wav"
			
 
				-        audio.export(output_audio_path, format="wav")
			
 
				-
			
 
				-    for prefix, label in label_files.items():
			
 
				-        output_label_path = save_path / f"{prefix}.lab"
			
 
				-        with open(output_label_path, "w", encoding="utf-8") as f:
			
 
				-            f.write(label)
			
 
				-
			
 
				-    for file_path in original_files:
			
 
				-        os.remove(file_path)
			
 
				-
			
 
				-
			
 
				-if __name__ == "__main__":
			
 
				-    merge_and_delete_files("/made/by/spicysama/laziman", [__file__])
			
--- a/tools/msgpack_api.py
+++ b/tools/msgpack_api.py
@@ -0,0 +1,68 @@
 
				+from typing import Annotated, AsyncGenerator, Literal, Optional
			
 
				+
			
 
				+import httpx
			
 
				+import ormsgpack
			
 
				+from pydantic import AfterValidator, BaseModel, Field, conint
			
 
				+
			
 
				+
			
 
				+class ServeReferenceAudio(BaseModel):
			
 
				+    audio: bytes
			
 
				+    text: str
			
 
				+
			
 
				+
			
 
				+class ServeTTSRequest(BaseModel):
			
 
				+    text: str
			
 
				+    chunk_length: Annotated[int, conint(ge=100, le=300, strict=True)] = 200
			
 
				+    # Audio format
			
 
				+    format: Literal["wav", "pcm", "mp3"] = "wav"
			
 
				+    mp3_bitrate: Literal[64, 128, 192] = 128
			
 
				+    # References audios for in-context learning
			
 
				+    references: list[ServeReferenceAudio] = []
			
 
				+    # Reference id
			
 
				+    # For example, if you want use https://fish.audio/m/7f92f8afb8ec43bf81429cc1c9199cb1/
			
 
				+    # Just pass 7f92f8afb8ec43bf81429cc1c9199cb1
			
 
				+    reference_id: str | None = None
			
 
				+    # Normalize text for en & zh, this increase stability for numbers
			
 
				+    normalize: bool = True
			
 
				+    mp3_bitrate: Optional[int] = 64
			
 
				+    opus_bitrate: Optional[int] = -1000
			
 
				+    # Balance mode will reduce latency to 300ms, but may decrease stability
			
 
				+    latency: Literal["normal", "balanced"] = "normal"
			
 
				+    # not usually used below
			
 
				+    streaming: bool = False
			
 
				+    emotion: Optional[str] = None
			
 
				+    max_new_tokens: int = 1024
			
 
				+    top_p: Annotated[float, Field(ge=0.1, le=1.0, strict=True)] = 0.7
			
 
				+    repetition_penalty: Annotated[float, Field(ge=0.9, le=2.0, strict=True)] = 1.2
			
 
				+    temperature: Annotated[float, Field(ge=0.1, le=1.0, strict=True)] = 0.7
			
 
				+
			
 
				+
			
 
				+# priority: ref_id > references
			
 
				+request = ServeTTSRequest(
			
 
				+    text="你说的对, 但是原神是一款由米哈游自主研发的开放世界手游.",
			
 
				+    # reference_id="114514",
			
 
				+    references=[
			
 
				+        ServeReferenceAudio(
			
 
				+            audio=open("lengyue.wav", "rb").read(),
			
 
				+            text=open("lengyue.lab", "r", encoding="utf-8").read(),
			
 
				+        )
			
 
				+    ],
			
 
				+    streaming=True,
			
 
				+)
			
 
				+
			
 
				+with (
			
 
				+    httpx.Client() as client,
			
 
				+    open("hello.wav", "wb") as f,
			
 
				+):
			
 
				+    with client.stream(
			
 
				+        "POST",
			
 
				+        "http://127.0.0.1:8080/v1/tts",
			
 
				+        content=ormsgpack.packb(request, option=ormsgpack.OPT_SERIALIZE_PYDANTIC),
			
 
				+        headers={
			
 
				+            "authorization": "Bearer YOUR_API_KEY",
			
 
				+            "content-type": "application/msgpack",
			
 
				+        },
			
 
				+        timeout=None,
			
 
				+    ) as response:
			
 
				+        for chunk in response.iter_bytes():
			
 
				+            f.write(chunk)
			
--- a/tools/post_api.py
+++ b/tools/post_api.py
@@ -1,40 +1,18 @@
 
				 import argparse
			
 
				 import base64
			
 
				-import json
			
 
				 import wave
			
 
				 from pathlib import Path
			
 
				 
			
 
				 import pyaudio
			
 
				 import requests
			
 
				+from pydub import AudioSegment
			
 
				+from pydub.playback import play
			
 
				 
			
 
				+from tools.file import audio_to_bytes, read_ref_text
			
 
				 
			
 
				-def wav_to_base64(file_path):
			
 
				-    if not file_path or not Path(file_path).exists():
			
 
				-        return None
			
 
				-    with open(file_path, "rb") as wav_file:
			
 
				-        wav_content = wav_file.read()
			
 
				-        base64_encoded = base64.b64encode(wav_content)
			
 
				-        return base64_encoded.decode("utf-8")
			
 
				 
			
 
				+def parse_args():
			
 
				 
			
 
				-def read_ref_text(ref_text):
			
 
				-    path = Path(ref_text)
			
 
				-    if path.exists() and path.is_file():
			
 
				-        with path.open("r", encoding="utf-8") as file:
			
 
				-            return file.read()
			
 
				-    return ref_text
			
 
				-
			
 
				-
			
 
				-def play_audio(audio_content, format, channels, rate):
			
 
				-    p = pyaudio.PyAudio()
			
 
				-    stream = p.open(format=format, channels=channels, rate=rate, output=True)
			
 
				-    stream.write(audio_content)
			
 
				-    stream.stop_stream()
			
 
				-    stream.close()
			
 
				-    p.terminate()
			
 
				-
			
 
				-
			
 
				-if __name__ == "__main__":
			
 
				     parser = argparse.ArgumentParser(
			
 
				         description="Send a WAV file and text to a server and receive synthesized audio."
			
 
				     )
			
@@ -43,16 +21,24 @@ if __name__ == "__main__":
 
				         "--url",
			
 
				         "-u",
			
 
				         type=str,
			
 
				-        default="http://127.0.0.1:8080/v1/invoke",
			
 
				+        default="http://127.0.0.1:8080/v1/tts",
			
 
				         help="URL of the server",
			
 
				     )
			
 
				     parser.add_argument(
			
 
				         "--text", "-t", type=str, required=True, help="Text to be synthesized"
			
 
				     )
			
 
				+    parser.add_argument(
			
 
				+        "--reference_id",
			
 
				+        "-id",
			
 
				+        type=str,
			
 
				+        default=None,
			
 
				+        help="ID of the reference model o be used for the speech",
			
 
				+    )
			
 
				     parser.add_argument(
			
 
				         "--reference_audio",
			
 
				         "-ra",
			
 
				         type=str,
			
 
				+        nargs="+",
			
 
				         default=None,
			
 
				         help="Path to the WAV file",
			
 
				     )
			
@@ -60,9 +46,30 @@ if __name__ == "__main__":
 
				         "--reference_text",
			
 
				         "-rt",
			
 
				         type=str,
			
 
				+        nargs="+",
			
 
				         default=None,
			
 
				         help="Reference text for voice synthesis",
			
 
				     )
			
 
				+    parser.add_argument(
			
 
				+        "--output",
			
 
				+        "-o",
			
 
				+        type=str,
			
 
				+        default="generated_audio",
			
 
				+        help="Output audio file name",
			
 
				+    )
			
 
				+    parser.add_argument(
			
 
				+        "--play",
			
 
				+        type=bool,
			
 
				+        default=True,
			
 
				+        help="Whether to play audio after receiving data",
			
 
				+    )
			
 
				+    parser.add_argument("--normalize", type=bool, default=True)
			
 
				+    parser.add_argument(
			
 
				+        "--format", type=str, choices=["wav", "mp3", "flac"], default="wav"
			
 
				+    )
			
 
				+    parser.add_argument("--mp3_bitrate", type=int, default=64)
			
 
				+    parser.add_argument("--opus_bitrate", type=int, default=-1000)
			
 
				+    parser.add_argument("--latency", type=str, default="normal", help="延迟选项")
			
 
				     parser.add_argument(
			
 
				         "--max_new_tokens",
			
 
				         type=int,
			
@@ -88,7 +95,6 @@ if __name__ == "__main__":
 
				         "--speaker", type=str, default=None, help="Speaker ID for voice synthesis"
			
 
				     )
			
 
				     parser.add_argument("--emotion", type=str, default=None, help="Speaker's Emotion")
			
 
				-    parser.add_argument("--format", type=str, default="wav", help="Audio format")
			
 
				     parser.add_argument(
			
 
				         "--streaming", type=bool, default=False, help="Enable streaming response"
			
 
				     )
			
@@ -97,18 +103,36 @@ if __name__ == "__main__":
 
				     )
			
 
				     parser.add_argument("--rate", type=int, default=44100, help="Sample rate for audio")
			
 
				 
			
 
				-    args = parser.parse_args()
			
 
				+    return parser.parse_args()
			
 
				+
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				 
			
 
				-    base64_audio = wav_to_base64(args.reference_audio)
			
 
				+    args = parse_args()
			
 
				 
			
 
				-    ref_text = args.reference_text
			
 
				-    if ref_text:
			
 
				-        ref_text = read_ref_text(ref_text)
			
 
				+    idstr: str | None = args.reference_id
			
 
				+    # priority: ref_id > [{text, audio},...]
			
 
				+    if idstr is None:
			
 
				+        base64_audios = [
			
 
				+            audio_to_bytes(ref_audio) for ref_audio in args.reference_audio
			
 
				+        ]
			
 
				+        ref_texts = [read_ref_text(ref_text) for ref_text in args.reference_text]
			
 
				+    else:
			
 
				+        base64_audios = []
			
 
				+        ref_texts = []
			
 
				+        pass  # in api.py
			
 
				 
			
 
				     data = {
			
 
				         "text": args.text,
			
 
				-        "reference_text": ref_text,
			
 
				-        "reference_audio": base64_audio,
			
 
				+        "references": [
			
 
				+            dict(text=ref_text, audio=ref_audio)
			
 
				+            for ref_text, ref_audio in zip(ref_texts, base64_audios)
			
 
				+        ],
			
 
				+        "reference_id": idstr,
			
 
				+        "normalize": args.normalize,
			
 
				+        "format": args.format,
			
 
				+        "mp3_bitrate": args.mp3_bitrate,
			
 
				+        "opus_bitrate": args.opus_bitrate,
			
 
				         "max_new_tokens": args.max_new_tokens,
			
 
				         "chunk_length": args.chunk_length,
			
 
				         "top_p": args.top_p,
			
@@ -116,22 +140,20 @@ if __name__ == "__main__":
 
				         "temperature": args.temperature,
			
 
				         "speaker": args.speaker,
			
 
				         "emotion": args.emotion,
			
 
				-        "format": args.format,
			
 
				         "streaming": args.streaming,
			
 
				     }
			
 
				 
			
 
				     response = requests.post(args.url, json=data, stream=args.streaming)
			
 
				 
			
 
				-    audio_format = pyaudio.paInt16  # Assuming 16-bit PCM format
			
 
				-
			
 
				     if response.status_code == 200:
			
 
				         if args.streaming:
			
 
				             p = pyaudio.PyAudio()
			
 
				+            audio_format = pyaudio.paInt16  # Assuming 16-bit PCM format
			
 
				             stream = p.open(
			
 
				                 format=audio_format, channels=args.channels, rate=args.rate, output=True
			
 
				             )
			
 
				 
			
 
				-            wf = wave.open("generated_audio.wav", "wb")
			
 
				+            wf = wave.open(f"{args.output}.wav", "wb")
			
 
				             wf.setnchannels(args.channels)
			
 
				             wf.setsampwidth(p.get_sample_size(audio_format))
			
 
				             wf.setframerate(args.rate)
			
@@ -153,12 +175,14 @@ if __name__ == "__main__":
 
				                 wf.close()
			
 
				         else:
			
 
				             audio_content = response.content
			
 
				-
			
 
				-            with open("generated_audio.wav", "wb") as audio_file:
			
 
				+            audio_path = f"{args.output}.{args.format}"
			
 
				+            with open(audio_path, "wb") as audio_file:
			
 
				                 audio_file.write(audio_content)
			
 
				 
			
 
				-            play_audio(audio_content, audio_format, args.channels, args.rate)
			
 
				-            print("Audio has been saved to 'generated_audio.wav'.")
			
 
				+            audio = AudioSegment.from_file(audio_path, format=args.format)
			
 
				+            if args.play:
			
 
				+                play(audio)
			
 
				+            print(f"Audio has been saved to '{audio_path}'.")
			
 
				     else:
			
 
				         print(f"Request failed with status code {response.status_code}")
			
 
				         print(response.json())
			
--- a/tools/sensevoice/fun_asr.py
+++ b/tools/sensevoice/fun_asr.py
@@ -26,7 +26,7 @@ def uvr5_cli(
 
				     output_folder: Path,
			
 
				     audio_files: list[Path] | None = None,
			
 
				     output_format: str = "flac",
			
 
				-    model: str = "BS-Roformer-Viperx-1296.ckpt",
			
 
				+    model: str = "BS-Roformer-Viperx-1297.ckpt",
			
 
				 ):
			
 
				     # ["BS-Roformer-Viperx-1297.ckpt", "BS-Roformer-Viperx-1296.ckpt", "BS-Roformer-Viperx-1053.ckpt", "Mel-Roformer-Viperx-1143.ckpt"]
			
 
				     sepr = Separator(