1 год назад · c7d9e3fcaa
--- a/tools/api.py
+++ b/tools/api.py
@@ -3,7 +3,6 @@ import io
 
															 import json
														
 
															 import queue
														
 
															 import random
														
 
															-import threading
														
 
															 import traceback
														
 
															 import wave
														
 
															 from argparse import ArgumentParser
														
@@ -18,7 +17,6 @@ import soundfile as sf
 
															 import torch
														
 
															 from kui.asgi import (
														
 
															     Body,
														
 
															-    FileResponse,
														
 
															     HTTPException,
														
 
															     HttpView,
														
 
															     JSONResponse,
														
@@ -29,7 +27,6 @@ from kui.asgi import (
 
															 from kui.asgi.routing import MultimethodRoutes
														
 
															 from loguru import logger
														
 
															 from pydantic import BaseModel, Field
														
 
															-from transformers import AutoTokenizer
														
 
															 pyrootutils.setup_root(__file__, indicator=".project-root", pythonpath=True)
														
@@ -99,23 +96,19 @@ def encode_reference(*, decoder_model, reference_audio, enable_reference_audio):
 
															         # VQ Encoder
														
 
															         if isinstance(decoder_model, FireflyArchitecture):
														
 
															             prompt_tokens = decoder_model.encode(audios, audio_lengths)[0][0]
														
 
															-            reference_embedding = None  # VQGAN does not have reference embedding
														
 
															         logger.info(f"Encoded prompt: {prompt_tokens.shape}")
														
 
															     else:
														
 
															         prompt_tokens = None
														
 
															-        reference_embedding = None
														
 
															         logger.info("No reference audio provided")
														
 
															-    return prompt_tokens, reference_embedding
														
 
															+    return prompt_tokens
														
 
															 def decode_vq_tokens(
														
 
															     *,
														
 
															     decoder_model,
														
 
															     codes,
														
 
															-    text_tokens: torch.Tensor | None = None,
														
 
															-    reference_embedding: torch.Tensor | None = None,
														
 
															 ):
														
 
															     feature_lengths = torch.tensor([codes.shape[1]], device=decoder_model.device)
														
 
															     logger.info(f"VQ features: {codes.shape}")
														
@@ -172,17 +165,17 @@ class InvokeRequest(BaseModel):
 
															     text: str = "你说的对, 但是原神是一款由米哈游自主研发的开放世界手游."
														
 
															     reference_text: Optional[str] = None
														
 
															     reference_audio: Optional[str] = None
														
 
															-    max_new_tokens: int = 0
														
 
															-    chunk_length: Annotated[int, Field(ge=0, le=500, strict=True)] = 150
														
 
															+    max_new_tokens: int = 1024
														
 
															+    chunk_length: Annotated[int, Field(ge=0, le=500, strict=True)] = 100
														
 
															     top_p: Annotated[float, Field(ge=0.1, le=1.0, strict=True)] = 0.7
														
 
															-    repetition_penalty: Annotated[float, Field(ge=0.9, le=2.0, strict=True)] = 1.5
														
 
															+    repetition_penalty: Annotated[float, Field(ge=0.9, le=2.0, strict=True)] = 1.2
														
 
															     temperature: Annotated[float, Field(ge=0.1, le=1.0, strict=True)] = 0.7
														
 
															-    speaker: Optional[str] = None
														
 
															     emotion: Optional[str] = None
														
 
															     format: Literal["wav", "mp3", "flac"] = "wav"
														
 
															     streaming: bool = False
														
 
															     ref_json: Optional[str] = "ref_data.json"
														
 
															     ref_base: Optional[str] = "ref_data"
														
 
															+    speaker: Optional[str] = None
														
 
															 def get_content_type(audio_format):
														
@@ -217,7 +210,7 @@ def inference(req: InvokeRequest):
 
															         logger.info("ref_text: " + ref_text)
														
 
															     # Parse reference audio aka prompt
														
 
															-    prompt_tokens, reference_embedding = encode_reference(
														
 
															+    prompt_tokens = encode_reference(
														
 
															         decoder_model=decoder_model,
														
 
															         reference_audio=(
														
 
															             io.BytesIO(base64.b64decode(req.reference_audio))
														
@@ -229,7 +222,6 @@ def inference(req: InvokeRequest):
 
															     # LLAMA Inference
														
 
															     request = dict(
														
 
															-        tokenizer=llama_tokenizer,
														
 
															         device=decoder_model.device,
														
 
															         max_new_tokens=req.max_new_tokens,
														
 
															         text=req.text,
														
@@ -240,7 +232,6 @@ def inference(req: InvokeRequest):
 
															         iterative_prompt=req.chunk_length > 0,
														
 
															         chunk_length=req.chunk_length,
														
 
															         max_length=2048,
														
 
															-        speaker=req.speaker,
														
 
															         prompt_tokens=prompt_tokens,
														
 
															         prompt_text=req.reference_text,
														
 
															     )
														
@@ -267,18 +258,12 @@ def inference(req: InvokeRequest):
 
															         if result.action == "next":
														
 
															             break
														
 
															-        text_tokens = llama_tokenizer.encode(result.text, return_tensors="pt").to(
														
 
															-            decoder_model.device
														
 
															-        )
														
 
															-
														
 
															         with torch.autocast(
														
 
															             device_type=decoder_model.device.type, dtype=args.precision
														
 
															         ):
														
 
															             fake_audios = decode_vq_tokens(
														
 
															                 decoder_model=decoder_model,
														
 
															                 codes=result.codes,
														
 
															-                text_tokens=text_tokens,
														
 
															-                reference_embedding=reference_embedding,
														
 
															             )
														
 
															         fake_audios = fake_audios.float().cpu().numpy()
														
@@ -379,7 +364,6 @@ def parse_args():
 
															         default="checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth",
														
 
															     )
														
 
															     parser.add_argument("--decoder-config-name", type=str, default="firefly_gan_vq")
														
 
															-    parser.add_argument("--tokenizer", type=str, default="fishaudio/fish-speech-1")
														
 
															     parser.add_argument("--device", type=str, default="cuda")
														
 
															     parser.add_argument("--half", action="store_true")
														
 
															     parser.add_argument("--compile", action="store_true")
														
@@ -422,7 +406,6 @@ if __name__ == "__main__":
 
															         precision=args.precision,
														
 
															         compile=args.compile,
														
 
															     )
														
 
															-    llama_tokenizer = AutoTokenizer.from_pretrained(args.tokenizer)
														
 
															     logger.info("Llama model loaded, loading VQ-GAN model...")
														
 
															     decoder_model = load_decoder_model(
														
@@ -437,15 +420,13 @@ if __name__ == "__main__":
 
															     list(
														
 
															         inference(
														
 
															             InvokeRequest(
														
 
															-                text="A warm-up sentence.",
														
 
															+                text="Hello world.",
														
 
															                 reference_text=None,
														
 
															                 reference_audio=None,
														
 
															-                max_new_tokens=0,
														
 
															-                chunk_length=150,
														
 
															+                max_new_tokens=1024,
														
 
															                 top_p=0.7,
														
 
															-                repetition_penalty=1.5,
														
 
															+                repetition_penalty=1.2,
														
 
															                 temperature=0.7,
														
 
															-                speaker=None,
														
 
															                 emotion=None,
														
 
															                 format="wav",
														
 
															                 ref_base=None,
														
--- a/tools/llama/generate.py
+++ b/tools/llama/generate.py
@@ -1,6 +1,5 @@
 
															 import os
														
 
															 import queue
														
 
															-import string
														
 
															 import threading
														
 
															 import time
														
 
															 from dataclasses import dataclass
														
@@ -13,11 +12,8 @@ import numpy as np
 
															 import torch
														
 
															 import torch._dynamo.config
														
 
															 import torch._inductor.config
														
 
															-from hydra import compose, initialize
														
 
															-from hydra.utils import instantiate
														
 
															 from loguru import logger
														
 
															 from tqdm import tqdm
														
 
															-from transformers import AutoTokenizer
														
 
															 from fish_speech.conversation import CODEBOOK_PAD_TOKEN_ID
														
 
															 from fish_speech.text import clean_text, split_text
														
@@ -618,7 +614,7 @@ def launch_thread_safe_queue(
 
															 @click.option("--num-samples", type=int, default=1)
														
 
															 @click.option("--max-new-tokens", type=int, default=0)
														
 
															 @click.option("--top-p", type=float, default=0.7)
														
 
															-@click.option("--repetition-penalty", type=float, default=1.5)
														
 
															+@click.option("--repetition-penalty", type=float, default=1.2)
														
 
															 @click.option("--temperature", type=float, default=0.7)
														
 
															 @click.option(
														
 
															     "--checkpoint-path",
														
@@ -629,7 +625,7 @@ def launch_thread_safe_queue(
 
															 @click.option("--seed", type=int, default=42)
														
 
															 @click.option("--half/--no-half", default=False)
														
 
															 @click.option("--iterative-prompt/--no-iterative-prompt", default=True)
														
 
															-@click.option("--chunk-length", type=int, default=150)
														
 
															+@click.option("--chunk-length", type=int, default=100)
														
 
															 def main(
														
 
															     text: str,
														
 
															     prompt_text: Optional[list[str]],
														
--- a/tools/vits_decoder/inference.py
+++ b/tools/vits_decoder/inference.py
@@ -1,153 +0,0 @@
 
															-from pathlib import Path
														
 
															-
														
 
															-import click
														
 
															-import hydra
														
 
															-import librosa
														
 
															-import numpy as np
														
 
															-import soundfile as sf
														
 
															-import torch
														
 
															-from hydra import compose, initialize
														
 
															-from hydra.utils import instantiate
														
 
															-from lightning import LightningModule
														
 
															-from loguru import logger
														
 
															-from omegaconf import OmegaConf
														
 
															-from transformers import AutoTokenizer
														
 
															-
														
 
															-from fish_speech.utils.file import AUDIO_EXTENSIONS
														
 
															-
														
 
															-# register eval resolver
														
 
															-OmegaConf.register_new_resolver("eval", eval)
														
 
															-
														
 
															-
														
 
															-def load_model(config_name, checkpoint_path, device="cuda"):
														
 
															-    hydra.core.global_hydra.GlobalHydra.instance().clear()
														
 
															-    with initialize(version_base="1.3", config_path="../../fish_speech/configs"):
														
 
															-        cfg = compose(config_name=config_name)
														
 
															-
														
 
															-    model: LightningModule = instantiate(cfg.model)
														
 
															-    state_dict = torch.load(
														
 
															-        checkpoint_path,
														
 
															-        map_location=model.device,
														
 
															-    )
														
 
															-
														
 
															-    if "state_dict" in state_dict:
														
 
															-        state_dict = state_dict["state_dict"]
														
 
															-
														
 
															-    model.load_state_dict(state_dict, strict=False)
														
 
															-    model.eval()
														
 
															-    model.to(device)
														
 
															-    logger.info("Restored model from checkpoint")
														
 
															-
														
 
															-    return model
														
 
															-
														
 
															-
														
 
															-@torch.no_grad()
														
 
															-@click.command()
														
 
															-@click.option(
														
 
															-    "--input-path",
														
 
															-    "-i",
														
 
															-    default="test.npy",
														
 
															-    type=click.Path(exists=True, path_type=Path),
														
 
															-)
														
 
															-@click.option(
														
 
															-    "--reference-path",
														
 
															-    "-r",
														
 
															-    type=click.Path(exists=True, path_type=Path),
														
 
															-    default=None,
														
 
															-)
														
 
															-@click.option(
														
 
															-    "--text",
														
 
															-    type=str,
														
 
															-    default="-",
														
 
															-)
														
 
															-@click.option(
														
 
															-    "--tokenizer",
														
 
															-    type=str,
														
 
															-    default="fishaudio/fish-speech-1",
														
 
															-)
														
 
															-@click.option(
														
 
															-    "--output-path", "-o", default="fake.wav", type=click.Path(path_type=Path)
														
 
															-)
														
 
															-@click.option("--config-name", "-cfg", default="vits_decoder_finetune")
														
 
															-@click.option(
														
 
															-    "--checkpoint-path",
														
 
															-    "-ckpt",
														
 
															-    default="checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth",
														
 
															-)
														
 
															-@click.option(
														
 
															-    "--device",
														
 
															-    "-d",
														
 
															-    default="cuda",
														
 
															-)
														
 
															-def main(
														
 
															-    input_path,
														
 
															-    reference_path,
														
 
															-    text,
														
 
															-    tokenizer,
														
 
															-    output_path,
														
 
															-    config_name,
														
 
															-    checkpoint_path,
														
 
															-    device,
														
 
															-):
														
 
															-    model = load_model(config_name, checkpoint_path, device=device)
														
 
															-
														
 
															-    assert input_path.suffix == ".npy", f"Expected .npy file, got {input_path.suffix}"
														
 
															-
														
 
															-    logger.info(f"Processing precomputed indices from {input_path}")
														
 
															-    indices = np.load(input_path)
														
 
															-    indices = torch.from_numpy(indices).to(model.device).long()
														
 
															-    assert indices.ndim == 2, f"Expected 2D indices, got {indices.ndim}"
														
 
															-
														
 
															-    # Extract reference audio
														
 
															-    if reference_path is not None:
														
 
															-        assert (
														
 
															-            reference_path.suffix in AUDIO_EXTENSIONS
														
 
															-        ), f"Expected audio file, got {reference_path.suffix}"
														
 
															-        reference_audio, sr = librosa.load(reference_path, sr=model.sampling_rate)
														
 
															-        reference_audio = torch.from_numpy(reference_audio).to(model.device).float()
														
 
															-        reference_spec = model.spec_transform(reference_audio[None])
														
 
															-        reference_embedding = model.generator.encode_ref(
														
 
															-            reference_spec,
														
 
															-            torch.tensor([reference_spec.shape[-1]], device=model.device),
														
 
															-        )
														
 
															-        logger.info(
														
 
															-            f"Loaded reference audio from {reference_path}, shape: {reference_audio.shape}"
														
 
															-        )
														
 
															-    else:
														
 
															-        reference_embedding = torch.zeros(
														
 
															-            1, model.generator.gin_channels, 1, device=model.device
														
 
															-        )
														
 
															-        logger.info("No reference audio provided, use zero embedding")
														
 
															-
														
 
															-    # Extract text
														
 
															-    tokenizer = AutoTokenizer.from_pretrained(tokenizer)
														
 
															-    encoded_text = tokenizer(text, return_tensors="pt").input_ids.to(model.device)
														
 
															-    logger.info(f"Encoded text: {encoded_text.shape}")
														
 
															-
														
 
															-    # Restore
														
 
															-    feature_lengths = torch.tensor([indices.shape[1]], device=model.device)
														
 
															-    quantized = model.generator.vq.indicies_to_vq_features(
														
 
															-        indices=indices[None], feature_lengths=feature_lengths
														
 
															-    )
														
 
															-    logger.info(f"Restored VQ features: {quantized.shape}")
														
 
															-
														
 
															-    # Decode
														
 
															-    fake_audios = model.generator.decode(
														
 
															-        quantized,
														
 
															-        torch.tensor([quantized.shape[-1]], device=model.device),
														
 
															-        encoded_text,
														
 
															-        torch.tensor([encoded_text.shape[-1]], device=model.device),
														
 
															-        ge=reference_embedding,
														
 
															-    )
														
 
															-    logger.info(
														
 
															-        f"Generated audio: {fake_audios.shape}, equivalent to {fake_audios.shape[-1] / model.sampling_rate:.2f} seconds"
														
 
															-    )
														
 
															-
														
 
															-    # Save audio
														
 
															-    fake_audio = fake_audios[0, 0].float().cpu().numpy()
														
 
															-    sf.write(output_path, fake_audio, model.sampling_rate)
														
 
															-    logger.info(f"Saved audio to {output_path}")
														
 
															-
														
 
															-
														
 
															-if __name__ == "__main__":
														
 
															-    main()
														
--- a/tools/webui.py
+++ b/tools/webui.py
@@ -80,7 +80,7 @@ def inference(
 
															         )
														
 
															     # Parse reference audio aka prompt
														
 
															-    prompt_tokens, reference_embedding = encode_reference(
														
 
															+    prompt_tokens = encode_reference(
														
 
															         decoder_model=decoder_model,
														
 
															         reference_audio=reference_audio,
														
 
															         enable_reference_audio=enable_reference_audio,
														
@@ -125,10 +125,6 @@ def inference(
 
															         if result.action == "next":
														
 
															             break
														
 
															-        text_tokens = llama_tokenizer.encode(result.text, return_tensors="pt").to(
														
 
															-            decoder_model.device
														
 
															-        )
														
 
															-
														
 
															         with torch.autocast(
														
 
															             device_type=(
														
 
															                 "cpu"
														
@@ -140,8 +136,6 @@ def inference(
 
															             fake_audios = decode_vq_tokens(
														
 
															                 decoder_model=decoder_model,
														
 
															                 codes=result.codes,
														
 
															-                text_tokens=text_tokens,
														
 
															-                reference_embedding=reference_embedding,
														
 
															             )
														
 
															         fake_audios = fake_audios.float().cpu().numpy()
														
@@ -287,7 +281,7 @@ def build_app():
 
															                             label=i18n("Iterative Prompt Length, 0 means off"),
														
 
															                             minimum=0,
														
 
															                             maximum=500,
														
 
															-                            value=150,
														
 
															+                            value=100,
														
 
															                             step=8,
														
 
															                         )
														
@@ -295,26 +289,30 @@ def build_app():
 
															                             label=i18n("Maximum tokens per batch, 0 means no limit"),
														
 
															                             minimum=0,
														
 
															                             maximum=2048,
														
 
															-                            value=0,  # 0 means no limit
														
 
															+                            value=1024,  # 0 means no limit
														
 
															                             step=8,
														
 
															                         )
														
 
															                         top_p = gr.Slider(
														
 
															-                            label="Top-P", minimum=0, maximum=1, value=0.7, step=0.01
														
 
															+                            label="Top-P",
														
 
															+                            minimum=0.6,
														
 
															+                            maximum=0.9,
														
 
															+                            value=0.7,
														
 
															+                            step=0.01,
														
 
															                         )
														
 
															                         repetition_penalty = gr.Slider(
														
 
															                             label=i18n("Repetition Penalty"),
														
 
															-                            minimum=0,
														
 
															-                            maximum=2,
														
 
															-                            value=1.5,
														
 
															+                            minimum=1,
														
 
															+                            maximum=1.5,
														
 
															+                            value=1.2,
														
 
															                             step=0.01,
														
 
															                         )
														
 
															                         temperature = gr.Slider(
														
 
															                             label="Temperature",
														
 
															-                            minimum=0,
														
 
															-                            maximum=2,
														
 
															+                            minimum=0.6,
														
 
															+                            maximum=0.9,
														
 
															                             value=0.7,
														
 
															                             step=0.01,
														
 
															                         )
														
@@ -438,7 +436,6 @@ def parse_args():
 
															         default="checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth",
														
 
															     )
														
 
															     parser.add_argument("--decoder-config-name", type=str, default="firefly_gan_vq")
														
 
															-    parser.add_argument("--tokenizer", type=str, default="fishaudio/fish-speech-1")
														
 
															     parser.add_argument("--device", type=str, default="cuda")
														
 
															     parser.add_argument("--half", action="store_true")
														
 
															     parser.add_argument("--compile", action="store_true")
														
@@ -458,7 +455,6 @@ if __name__ == "__main__":
 
															         precision=args.precision,
														
 
															         compile=args.compile,
														
 
															     )
														
 
															-    llama_tokenizer = AutoTokenizer.from_pretrained(args.tokenizer)
														
 
															     logger.info("Llama model loaded, loading VQ-GAN model...")
														
 
															     decoder_model = load_decoder_model(
														
@@ -479,7 +475,7 @@ if __name__ == "__main__":
 
															             max_new_tokens=0,
														
 
															             chunk_length=100,
														
 
															             top_p=0.7,
														
 
															-            repetition_penalty=1.5,
														
 
															+            repetition_penalty=1.2,
														
 
															             temperature=0.7,
														
 
															         )
														
 
															     )