2 anos atrás · 681567df58
--- a/docs/zh/inference.md
+++ b/docs/zh/inference.md
@@ -76,3 +76,13 @@ python -m zibai tools.api_server:app --listen 127.0.0.1:8000
 
				 随后, 你可以在 `http://127.0.0.1:8000/docs` 中查看并测试 API.  
			
 
				 一般来说, 你需要先调用 `PUT /v1/models/default` 来加载模型, 然后调用 `POST /v1/models/default/invoke` 来进行推理. 具体的参数请参考 API 文档.
			
 
				 
			
 
				+
			
 
				+## WebUI 推理
			
 
				+在运行 WebUI 之前, 你需要先启动 HTTP 服务, 如上所述.
			
 
				+
			
 
				+随后你可以使用以下命令来启动 WebUI:
			
 
				+```bash
			
 
				+python fish_speech/webui/app.py
			
 
				+```
			
 
				+
			
 
				+祝大家玩得开心!
			
--- a/fish_speech/webui/app.py
+++ b/fish_speech/webui/app.py
@@ -1,14 +1,17 @@
 
				 import html
			
 
				+import io
			
 
				 import traceback
			
 
				 
			
 
				 import gradio as gr
			
 
				+import librosa
			
 
				+import requests
			
 
				 
			
 
				 from fish_speech.text import parse_text_to_segments, segments_to_phones
			
 
				 
			
 
				 HEADER_MD = """
			
 
				 # Fish Speech
			
 
				 
			
 
				-基于 VITS 和 GPT 的多语种语音合成. 项目很大程度上基于 Rcell 的 GPT-VITS.
			
 
				+基于 VQ-GAN 和 Llama 的多语种语音合成. 感谢 Rcell 的 GPT-VITS 提供的思路.
			
 
				 """
			
 
				 
			
 
				 TEXTBOX_PLACEHOLDER = """在启用自动音素的情况下, 模型默认会全自动将输入文本转换为音素. 例如:
			
@@ -66,7 +69,7 @@ def prepare_text(
 
				     else:
			
 
				         reference_text = ""
			
 
				 
			
 
				-    if input_mode != "自动音素转换":
			
 
				+    if input_mode != "自动音素":
			
 
				         return [
			
 
				             [idx, reference_text + line, "-", "-"]
			
 
				             for idx, line in enumerate(lines)
			
@@ -92,69 +95,272 @@ def prepare_text(
 
				     return rows, None
			
 
				 
			
 
				 
			
 
				+def load_model(
			
 
				+    server_url,
			
 
				+    llama_ckpt_path,
			
 
				+    llama_config_name,
			
 
				+    tokenizer,
			
 
				+    vqgan_ckpt_path,
			
 
				+    vqgan_config_name,
			
 
				+    device,
			
 
				+    precision,
			
 
				+    compile_model,
			
 
				+):
			
 
				+    payload = {
			
 
				+        "device": device,
			
 
				+        "llama": {
			
 
				+            "config_name": llama_config_name,
			
 
				+            "checkpoint_path": llama_ckpt_path,
			
 
				+            "precision": precision,
			
 
				+            "tokenizer": tokenizer,
			
 
				+            "compile": compile_model,
			
 
				+        },
			
 
				+        "vqgan": {
			
 
				+            "config_name": vqgan_config_name,
			
 
				+            "checkpoint_path": vqgan_ckpt_path,
			
 
				+        },
			
 
				+    }
			
 
				+
			
 
				+    try:
			
 
				+        resp = requests.put(f"{server_url}/v1/models/default", json=payload)
			
 
				+        resp.raise_for_status()
			
 
				+    except Exception:
			
 
				+        traceback.print_exc()
			
 
				+        err = traceback.format_exc()
			
 
				+        return build_html_error_message(f"加载模型时发生错误. \n\n{err}")
			
 
				+
			
 
				+    return "模型加载成功."
			
 
				+
			
 
				+
			
 
				+def build_model_config_block():
			
 
				+    server_url = gr.Textbox(label="服务器地址", value="http://localhost:8000")
			
 
				+
			
 
				+    with gr.Row():
			
 
				+        with gr.Column(scale=1):
			
 
				+            device = gr.Dropdown(
			
 
				+                label="设备",
			
 
				+                choices=["cpu", "cuda"],
			
 
				+                value="cuda",
			
 
				+            )
			
 
				+        with gr.Column(scale=1):
			
 
				+            precision = gr.Dropdown(
			
 
				+                label="精度",
			
 
				+                choices=["bfloat16", "float16"],
			
 
				+                value="float16",
			
 
				+            )
			
 
				+        with gr.Column(scale=1):
			
 
				+            compile_model = gr.Checkbox(
			
 
				+                label="编译模型",
			
 
				+                value=True,
			
 
				+            )
			
 
				+
			
 
				+    llama_ckpt_path = gr.Textbox(
			
 
				+        label="Llama 模型路径", value="checkpoints/text2semantic-400m-v0.2-4k.pth"
			
 
				+    )
			
 
				+    llama_config_name = gr.Textbox(label="Llama 配置文件", value="text2semantic_finetune")
			
 
				+    tokenizer = gr.Textbox(label="Tokenizer", value="fishaudio/speech-lm-v1")
			
 
				+
			
 
				+    vqgan_ckpt_path = gr.Textbox(label="VQGAN 模型路径", value="checkpoints/vqgan-v1.pth")
			
 
				+    vqgan_config_name = gr.Textbox(label="VQGAN 配置文件", value="vqgan_pretrain")
			
 
				+
			
 
				+    load_model_btn = gr.Button(value="加载模型", variant="primary")
			
 
				+    error = gr.HTML(label="错误信息")
			
 
				+
			
 
				+    load_model_btn.click(
			
 
				+        load_model,
			
 
				+        [
			
 
				+            server_url,
			
 
				+            llama_ckpt_path,
			
 
				+            llama_config_name,
			
 
				+            tokenizer,
			
 
				+            vqgan_ckpt_path,
			
 
				+            vqgan_config_name,
			
 
				+            device,
			
 
				+            precision,
			
 
				+            compile_model,
			
 
				+        ],
			
 
				+        [error],
			
 
				+    )
			
 
				+
			
 
				+    return server_url
			
 
				+
			
 
				+
			
 
				+def inference(
			
 
				+    server_url,
			
 
				+    text,
			
 
				+    input_mode,
			
 
				+    language0,
			
 
				+    language1,
			
 
				+    language2,
			
 
				+    enable_reference_audio,
			
 
				+    reference_audio,
			
 
				+    reference_text,
			
 
				+    max_new_tokens,
			
 
				+    top_k,
			
 
				+    top_p,
			
 
				+    repetition_penalty,
			
 
				+    temperature,
			
 
				+    speaker,
			
 
				+):
			
 
				+    languages = [language0, language1, language2]
			
 
				+    languages = [
			
 
				+        {
			
 
				+            "中文": "zh",
			
 
				+            "日文": "jp",
			
 
				+            "英文": "en",
			
 
				+        }[language]
			
 
				+        for language in languages
			
 
				+    ]
			
 
				+
			
 
				+    if len(set(languages)) != len(languages):
			
 
				+        return [], build_html_error_message("语言优先级不能重复.")
			
 
				+
			
 
				+    order = ",".join(languages)
			
 
				+    payload = {
			
 
				+        "text": text,
			
 
				+        "prompt_text": reference_text if enable_reference_audio else None,
			
 
				+        "prompt_tokens": reference_audio if enable_reference_audio else None,
			
 
				+        "max_new_tokens": int(max_new_tokens),
			
 
				+        "top_k": int(top_k) if top_k > 0 else None,
			
 
				+        "top_p": top_p,
			
 
				+        "repetition_penalty": repetition_penalty,
			
 
				+        "temperature": temperature,
			
 
				+        "order": order,
			
 
				+        "use_g2p": input_mode == "自动音素",
			
 
				+        "seed": None,
			
 
				+        "speaker": speaker if speaker.strip() != "" else None,
			
 
				+    }
			
 
				+
			
 
				+    try:
			
 
				+        resp = requests.post(f"{server_url}/v1/models/default/invoke", json=payload)
			
 
				+        resp.raise_for_status()
			
 
				+    except Exception:
			
 
				+        traceback.print_exc()
			
 
				+        err = traceback.format_exc()
			
 
				+        return [], build_html_error_message(f"推理时发生错误. \n\n{err}")
			
 
				+
			
 
				+    content = io.BytesIO(resp.content)
			
 
				+    content.seek(0)
			
 
				+    content, sr = librosa.load(content, sr=None, mono=True)
			
 
				+
			
 
				+    return (sr, content), None
			
 
				+
			
 
				+
			
 
				 with gr.Blocks(theme=gr.themes.Base()) as app:
			
 
				     gr.Markdown(HEADER_MD)
			
 
				 
			
 
				+    # Use light theme by default
			
 
				+    app.load(
			
 
				+        None,
			
 
				+        None,
			
 
				+        js="() => {const params = new URLSearchParams(window.location.search);if (!params.has('__theme')) {params.set('__theme', 'light');window.location.search = params.toString();}}",
			
 
				+    )
			
 
				+
			
 
				+    # Inference
			
 
				     with gr.Row():
			
 
				         with gr.Column(scale=3):
			
 
				-            text = gr.Textbox(label="输入文本", placeholder=TEXTBOX_PLACEHOLDER, lines=3)
			
 
				-
			
 
				-            with gr.Row():
			
 
				-                with gr.Tab(label="合成参数"):
			
 
				-                    gr.Markdown("配置常见合成参数.")
			
 
				+            with gr.Tab(label="模型配置"):
			
 
				+                server_url = build_model_config_block()
			
 
				+
			
 
				+            with gr.Tab(label="推理配置"):
			
 
				+                text = gr.Textbox(
			
 
				+                    label="输入文本", placeholder=TEXTBOX_PLACEHOLDER, lines=15
			
 
				+                )
			
 
				+
			
 
				+                with gr.Row():
			
 
				+                    with gr.Tab(label="合成参数"):
			
 
				+                        gr.Markdown("配置常见合成参数. 自动音素会在推理时自动将文本转换为音素.")
			
 
				+
			
 
				+                        input_mode = gr.Dropdown(
			
 
				+                            choices=["文本", "自动音素"],
			
 
				+                            value="文本",
			
 
				+                            label="输入模式",
			
 
				+                        )
			
 
				 
			
 
				-                    input_mode = gr.Dropdown(
			
 
				-                        choices=["手动输入音素/文本", "自动音素转换"],
			
 
				-                        value="手动输入音素/文本",
			
 
				-                        label="输入模式",
			
 
				-                    )
			
 
				+                        max_new_tokens = gr.Slider(
			
 
				+                            label="最大生成 Token 数",
			
 
				+                            minimum=0,
			
 
				+                            maximum=4096,
			
 
				+                            value=0,  # 0 means no limit
			
 
				+                            step=8,
			
 
				+                        )
			
 
				 
			
 
				-                with gr.Tab(label="语言优先级"):
			
 
				-                    gr.Markdown("该参数只在自动音素转换时生效.")
			
 
				+                        top_k = gr.Slider(
			
 
				+                            label="Top-K", minimum=0, maximum=100, value=0, step=1
			
 
				+                        )
			
 
				 
			
 
				-                    with gr.Column(scale=1):
			
 
				-                        language0 = gr.Dropdown(
			
 
				-                            choices=["中文", "日文", "英文"],
			
 
				-                            label="语言 1",
			
 
				-                            value="中文",
			
 
				+                        top_p = gr.Slider(
			
 
				+                            label="Top-P", minimum=0, maximum=1, value=0.5, step=0.01
			
 
				                         )
			
 
				 
			
 
				-                    with gr.Column(scale=1):
			
 
				-                        language1 = gr.Dropdown(
			
 
				-                            choices=["中文", "日文", "英文"],
			
 
				-                            label="语言 2",
			
 
				-                            value="日文",
			
 
				+                        repetition_penalty = gr.Slider(
			
 
				+                            label="重复惩罚", minimum=0, maximum=2, value=1.5, step=0.01
			
 
				                         )
			
 
				 
			
 
				-                    with gr.Column(scale=1):
			
 
				-                        language2 = gr.Dropdown(
			
 
				-                            choices=["中文", "日文", "英文"],
			
 
				-                            label="语言 3",
			
 
				-                            value="英文",
			
 
				+                        temperature = gr.Slider(
			
 
				+                            label="温度", minimum=0, maximum=2, value=0.7, step=0.01
			
 
				                         )
			
 
				 
			
 
				-                with gr.Tab(label="参考音频"):
			
 
				-                    gr.Markdown("3 秒左右的参考音频, 适用于无微调直接推理.")
			
 
				+                        speaker = gr.Textbox(
			
 
				+                            label="说话人",
			
 
				+                            placeholder="说话人",
			
 
				+                            lines=1,
			
 
				+                        )
			
 
				 
			
 
				-                    enable_reference_audio = gr.Checkbox(label="启用参考音频", value=False)
			
 
				-                    reference_audio = gr.Audio(label="参考音频")
			
 
				-                    reference_text = gr.Textbox(
			
 
				-                        label="参考文本",
			
 
				-                        placeholder="参考文本",
			
 
				-                        lines=1,
			
 
				-                        value="万一他很崇拜我们呢? 嘿嘿.",
			
 
				-                    )
			
 
				+                    with gr.Tab(label="语言优先级"):
			
 
				+                        gr.Markdown("该参数只在自动音素转换时生效.")
			
 
				+
			
 
				+                        with gr.Column(scale=1):
			
 
				+                            language0 = gr.Dropdown(
			
 
				+                                choices=["中文", "日文", "英文"],
			
 
				+                                label="语言 1",
			
 
				+                                value="中文",
			
 
				+                            )
			
 
				+
			
 
				+                        with gr.Column(scale=1):
			
 
				+                            language1 = gr.Dropdown(
			
 
				+                                choices=["中文", "日文", "英文"],
			
 
				+                                label="语言 2",
			
 
				+                                value="日文",
			
 
				+                            )
			
 
				+
			
 
				+                        with gr.Column(scale=1):
			
 
				+                            language2 = gr.Dropdown(
			
 
				+                                choices=["中文", "日文", "英文"],
			
 
				+                                label="语言 3",
			
 
				+                                value="英文",
			
 
				+                            )
			
 
				+
			
 
				+                    with gr.Tab(label="参考音频"):
			
 
				+                        gr.Markdown("5-10 秒的参考音频, 适用于指定音色.")
			
 
				+
			
 
				+                        enable_reference_audio = gr.Checkbox(
			
 
				+                            label="启用参考音频", value=False
			
 
				+                        )
			
 
				+                        reference_audio = gr.Audio(
			
 
				+                            label="参考音频",
			
 
				+                            value="docs/assets/audios/0_input.wav",
			
 
				+                            type="filepath",
			
 
				+                        )
			
 
				+                        reference_text = gr.Textbox(
			
 
				+                            label="参考文本",
			
 
				+                            placeholder="参考文本",
			
 
				+                            lines=1,
			
 
				+                            value="在一无所知中，梦里的一天结束了，一个新的「轮回」便会开始。",
			
 
				+                        )
			
 
				 
			
 
				-            with gr.Row():
			
 
				-                with gr.Column(scale=2):
			
 
				-                    generate = gr.Button(value="合成", variant="primary")
			
 
				-                with gr.Column(scale=1):
			
 
				-                    clear = gr.Button(value="清空")
			
 
				+                with gr.Row():
			
 
				+                    with gr.Column(scale=2):
			
 
				+                        generate = gr.Button(value="合成", variant="primary")
			
 
				+                    with gr.Column(scale=1):
			
 
				+                        clear = gr.Button(value="清空")
			
 
				 
			
 
				         with gr.Column(scale=3):
			
 
				             error = gr.HTML(label="错误信息")
			
 
				-            parsed_text = gr.Dataframe(label="解析结果", headers=["ID", "文本", "语言", "音素"])
			
 
				-            audio = gr.Audio(label="合成音频")
			
 
				+            parsed_text = gr.Dataframe(
			
 
				+                label="解析结果 (仅参考)", headers=["ID", "文本", "语言", "音素"]
			
 
				+            )
			
 
				+            audio = gr.Audio(label="合成音频", type="numpy")
			
 
				 
			
 
				     # Language & Text Parsing
			
 
				     kwargs = dict(
			
@@ -178,7 +384,27 @@ with gr.Blocks(theme=gr.themes.Base()) as app:
 
				     enable_reference_audio.change(prepare_text, **kwargs)
			
 
				 
			
 
				     # Submit
			
 
				-    generate.click(lambda: None, outputs=[audio])
			
 
				+    generate.click(
			
 
				+        inference,
			
 
				+        [
			
 
				+            server_url,
			
 
				+            text,
			
 
				+            input_mode,
			
 
				+            language0,
			
 
				+            language1,
			
 
				+            language2,
			
 
				+            enable_reference_audio,
			
 
				+            reference_audio,
			
 
				+            reference_text,
			
 
				+            max_new_tokens,
			
 
				+            top_k,
			
 
				+            top_p,
			
 
				+            repetition_penalty,
			
 
				+            temperature,
			
 
				+            speaker,
			
 
				+        ],
			
 
				+        [audio, error],
			
 
				+    )
			
 
				 
			
 
				 
			
 
				 if __name__ == "__main__":