há 2 anos atrás · 639e2d047e
--- a/fish_speech/configs/vqgan_pretrain_v2.yaml
+++ b/fish_speech/configs/vqgan_pretrain_v2.yaml
@@ -0,0 +1,125 @@
 
															+defaults:
														
 
															+  - base
														
 
															+  - _self_
														
 
															+
														
 
															+project: vqgan_pretrain_v2
														
 
															+
														
 
															+# Lightning Trainer
														
 
															+trainer:
														
 
															+  accelerator: gpu
														
 
															+  devices: 4
														
 
															+  strategy: ddp_find_unused_parameters_true
														
 
															+  precision: 32
														
 
															+  max_steps: 1_000_000
														
 
															+  val_check_interval: 5000
														
 
															+
														
 
															+sample_rate: 44100
														
 
															+hop_length: 512
														
 
															+num_mels: 128
														
 
															+n_fft: 2048
														
 
															+win_length: 2048
														
 
															+segment_size: 256
														
 
															+
														
 
															+# Dataset Configuration
														
 
															+train_dataset:
														
 
															+  _target_: fish_speech.datasets.vqgan.VQGANDataset
														
 
															+  filelist: data/Genshin/vq_train_filelist.txt
														
 
															+  sample_rate: ${sample_rate}
														
 
															+  hop_length: ${hop_length}
														
 
															+  slice_frames: ${segment_size}
														
 
															+
														
 
															+val_dataset:
														
 
															+  _target_: fish_speech.datasets.vqgan.VQGANDataset
														
 
															+  filelist: data/Genshin/vq_val_filelist.txt
														
 
															+  sample_rate: ${sample_rate}
														
 
															+  hop_length: ${hop_length}
														
 
															+
														
 
															+data:
														
 
															+  _target_: fish_speech.datasets.vqgan.VQGANDataModule
														
 
															+  train_dataset: ${train_dataset}
														
 
															+  val_dataset: ${val_dataset}
														
 
															+  num_workers: 4
														
 
															+  batch_size: 32
														
 
															+  val_batch_size: 4
														
 
															+
														
 
															+# Model Configuration
														
 
															+model:
														
 
															+  _target_: fish_speech.models.vqgan.VQGAN
														
 
															+  sample_rate: ${sample_rate}
														
 
															+  hop_length: ${hop_length}
														
 
															+  segment_size: 8192
														
 
															+  mode: pretrain-stage1
														
 
															+
														
 
															+  downsample:
														
 
															+    _target_: fish_speech.models.vqgan.modules.encoders.ConvDownSampler
														
 
															+    dims: ["${num_mels}", 512, 256]
														
 
															+    kernel_sizes: [3, 3]
														
 
															+    strides: [2, 2]
														
 
															+
														
 
															+  mel_encoder:
														
 
															+    _target_: fish_speech.models.vqgan.modules.modules.WN
														
 
															+    hidden_channels: 256
														
 
															+    kernel_size: 3
														
 
															+    dilation_rate: 2
														
 
															+    n_layers: 12
														
 
															+
														
 
															+  vq_encoder:
														
 
															+    _target_: fish_speech.models.vqgan.modules.encoders.VQEncoder
														
 
															+    in_channels: 256
														
 
															+    vq_channels: 256
														
 
															+    codebook_size: 1024
														
 
															+    codebook_layers: 4
														
 
															+    downsample: 1
														
 
															+
														
 
															+  decoder:
														
 
															+    _target_: fish_speech.models.vqgan.modules.modules.WN
														
 
															+    hidden_channels: 256
														
 
															+    out_channels: ${num_mels}
														
 
															+    kernel_size: 3
														
 
															+    dilation_rate: 2
														
 
															+    n_layers: 6
														
 
															+
														
 
															+  generator:
														
 
															+    _target_: fish_speech.models.vqgan.modules.decoder.Generator
														
 
															+    initial_channel: ${num_mels}
														
 
															+    resblock: "1"
														
 
															+    resblock_kernel_sizes: [3, 7, 11]
														
 
															+    resblock_dilation_sizes: [[1, 3, 5], [1, 3, 5], [1, 3, 5]]
														
 
															+    upsample_rates: [8, 8, 2, 2, 2]
														
 
															+    upsample_initial_channel: 512
														
 
															+    upsample_kernel_sizes: [16, 16, 4, 4, 4]
														
 
															+
														
 
															+  discriminator:
														
 
															+    _target_: fish_speech.models.vqgan.modules.discriminator.EnsembleDiscriminator
														
 
															+    periods: [2, 3, 5, 7, 11, 17, 23, 37]
														
 
															+
														
 
															+  mel_transform:
														
 
															+    _target_: fish_speech.models.vqgan.spectrogram.LogMelSpectrogram
														
 
															+    sample_rate: ${sample_rate}
														
 
															+    n_fft: ${n_fft}
														
 
															+    hop_length: ${hop_length}
														
 
															+    win_length: ${win_length}
														
 
															+    n_mels: ${num_mels}
														
 
															+    f_min: 0
														
 
															+    f_max: 16000
														
 
															+
														
 
															+  optimizer:
														
 
															+    _target_: torch.optim.AdamW
														
 
															+    _partial_: true
														
 
															+    lr: 2e-4
														
 
															+    betas: [0.8, 0.99]
														
 
															+    eps: 1e-5
														
 
															+
														
 
															+  lr_scheduler:
														
 
															+    _target_: torch.optim.lr_scheduler.ExponentialLR
														
 
															+    _partial_: true
														
 
															+    gamma: 0.999999  # Estimated base on LibriTTS dataset
														
 
															+
														
 
															+callbacks:
														
 
															+  grad_norm_monitor:
														
 
															+    sub_module: 
														
 
															+      - generator
														
 
															+      - discriminator
														
 
															+      - mel_encoder
														
 
															+      - vq_encoder
														
 
															+      - decoder
														
--- a/fish_speech/models/vqgan/lit_module.py
+++ b/fish_speech/models/vqgan/lit_module.py
@@ -1,5 +1,5 @@
 
															 import itertools
														
 
															-from typing import Any, Callable
														
 
															+from typing import Any, Callable, Literal
														
 
															 import lightning as L
														
 
															 import torch
														
@@ -47,12 +47,15 @@ class VQGAN(L.LightningModule):
 
															         segment_size: int = 20480,
														
 
															         hop_length: int = 640,
														
 
															         sample_rate: int = 32000,
														
 
															-        freeze_hifigan: bool = False,
														
 
															-        freeze_vq: bool = False,
														
 
															+        mode: Literal["pretrain-stage1", "pretrain-stage2", "finetune"] = "finetune",
														
 
															         speaker_encoder: SpeakerEncoder = None,
														
 
															     ):
														
 
															         super().__init__()
														
 
															+        # pretrain-stage1: vq use gt mel as target, hifigan use gt mel as input
														
 
															+        # pretrain-stage2: end-to-end training, use gt mel as hifi gan target
														
 
															+        # finetune: end-to-end training, use gt mel as hifi gan target but freeze vq
														
 
															+
														
 
															         # Model parameters
														
 
															         self.optimizer_builder = optimizer
														
 
															         self.lr_scheduler_builder = lr_scheduler
														
@@ -71,22 +74,13 @@ class VQGAN(L.LightningModule):
 
															         self.segment_size = segment_size
														
 
															         self.hop_length = hop_length
														
 
															         self.sampling_rate = sample_rate
														
 
															-        self.freeze_hifigan = freeze_hifigan
														
 
															-        self.freeze_vq = freeze_vq
														
 
															+        self.mode = mode
														
 
															         # Disable automatic optimization
														
 
															         self.automatic_optimization = False
														
 
															-        # Stage 1: Train the VQ only
														
 
															-        if self.freeze_hifigan:
														
 
															-            for p in self.discriminator.parameters():
														
 
															-                p.requires_grad = False
														
 
															-
														
 
															-            for p in self.generator.parameters():
														
 
															-                p.requires_grad = False
														
 
															-
														
 
															-        # Stage 2: Train the HifiGAN + Decoder + Generator
														
 
															-        if freeze_vq:
														
 
															+        # Finetune: Train the VQ only
														
 
															+        if self.mode == "finetune":
														
 
															             for p in self.vq_encoder.parameters():
														
 
															                 p.requires_grad = False
														
@@ -99,7 +93,7 @@ class VQGAN(L.LightningModule):
 
															     def configure_optimizers(self):
														
 
															         # Need two optimizers and two schedulers
														
 
															         components = []
														
 
															-        if self.freeze_vq is False:
														
 
															+        if self.mode != "finetune":
														
 
															             components.extend(
														
 
															                 [
														
 
															                     self.downsample.parameters(),
														
@@ -114,9 +108,7 @@ class VQGAN(L.LightningModule):
 
															         if self.decoder is not None:
														
 
															             components.append(self.decoder.parameters())
														
 
															-        if self.freeze_hifigan is False:
														
 
															-            components.append(self.generator.parameters())
														
 
															-
														
 
															+        components.append(self.generator.parameters())
														
 
															         optimizer_generator = self.optimizer_builder(itertools.chain(*components))
														
 
															         optimizer_discriminator = self.optimizer_builder(
														
 
															             self.discriminator.parameters()
														
@@ -157,7 +149,7 @@ class VQGAN(L.LightningModule):
 
															                 audios, sample_rate=self.sampling_rate
														
 
															             )
														
 
															-        if self.freeze_vq:
														
 
															+        if self.mode == "finetune":
														
 
															             # Disable gradient computation for VQ
														
 
															             torch.set_grad_enabled(False)
														
 
															             self.vq_encoder.eval()
														
@@ -183,9 +175,7 @@ class VQGAN(L.LightningModule):
 
															         # vq_features is 50 hz, need to convert to true mel size
														
 
															         text_features = self.mel_encoder(features, feature_masks)
														
 
															-        text_features, _, loss_vq = self.vq_encoder(
														
 
															-            text_features, feature_masks, freeze_codebook=self.freeze_vq
														
 
															-        )
														
 
															+        text_features, _, loss_vq = self.vq_encoder(text_features, feature_masks)
														
 
															         text_features = F.interpolate(
														
 
															             text_features, size=gt_mels.shape[2], mode="nearest"
														
 
															         )
														
@@ -193,7 +183,7 @@ class VQGAN(L.LightningModule):
 
															         if loss_vq.ndim > 1:
														
 
															             loss_vq = loss_vq.mean()
														
 
															-        if self.freeze_vq:
														
 
															+        if self.mode == "finetune":
														
 
															             # Enable gradient computation
														
 
															             torch.set_grad_enabled(True)
														
@@ -208,55 +198,69 @@ class VQGAN(L.LightningModule):
 
															         else:
														
 
															             decoded_mels = text_features
														
 
															-        fake_audios = self.generator(decoded_mels)
														
 
															-
														
 
															-        y_hat_mels = self.mel_transform(fake_audios.squeeze(1))
														
 
															-
														
 
															-        y, ids_slice = rand_slice_segments(audios, audio_lengths, self.segment_size)
														
 
															-        y_hat = slice_segments(fake_audios, ids_slice, self.segment_size)
														
 
															+        input_mels = gt_mels if self.mode == "pretrain-stage1" else decoded_mels
														
 
															+        if self.segment_size is not None:
														
 
															+            audios, ids_slice = rand_slice_segments(
														
 
															+                audios, audio_lengths, self.segment_size
														
 
															+            )
														
 
															+            input_mels = slice_segments(
														
 
															+                input_mels,
														
 
															+                ids_slice // self.hop_length,
														
 
															+                self.segment_size // self.hop_length,
														
 
															+            )
														
 
															+            gen_mel_masks = slice_segments(
														
 
															+                mel_masks,
														
 
															+                ids_slice // self.hop_length,
														
 
															+                self.segment_size // self.hop_length,
														
 
															+            )
														
 
															-        assert y.shape == y_hat.shape, f"{y.shape} != {y_hat.shape}"
														
 
															+        fake_audios = self.generator(input_mels)
														
 
															+        fake_audio_mels = self.mel_transform(fake_audios.squeeze(1))
														
 
															+        assert (
														
 
															+            audios.shape == fake_audios.shape
														
 
															+        ), f"{audios.shape} != {fake_audios.shape}"
														
 
															-        # Since we don't want to update the discriminator, we skip the backward pass
														
 
															-        if self.freeze_hifigan is False:
														
 
															-            # Discriminator
														
 
															-            y_d_hat_r, y_d_hat_g, _, _ = self.discriminator(y, y_hat.detach())
														
 
															+        # Discriminator
														
 
															+        y_d_hat_r, y_d_hat_g, _, _ = self.discriminator(audios, fake_audios.detach())
														
 
															-            with torch.autocast(device_type=audios.device.type, enabled=False):
														
 
															-                loss_disc_all, _, _ = discriminator_loss(y_d_hat_r, y_d_hat_g)
														
 
															+        with torch.autocast(device_type=audios.device.type, enabled=False):
														
 
															+            loss_disc_all, _, _ = discriminator_loss(y_d_hat_r, y_d_hat_g)
														
 
															-            self.log(
														
 
															-                "train/discriminator/loss",
														
 
															-                loss_disc_all,
														
 
															-                on_step=True,
														
 
															-                on_epoch=False,
														
 
															-                prog_bar=True,
														
 
															-                logger=True,
														
 
															-                sync_dist=True,
														
 
															-            )
														
 
															+        self.log(
														
 
															+            "train/discriminator/loss",
														
 
															+            loss_disc_all,
														
 
															+            on_step=True,
														
 
															+            on_epoch=False,
														
 
															+            prog_bar=True,
														
 
															+            logger=True,
														
 
															+            sync_dist=True,
														
 
															+        )
														
 
															-            optim_d.zero_grad()
														
 
															-            self.manual_backward(loss_disc_all)
														
 
															-            self.clip_gradients(
														
 
															-                optim_d, gradient_clip_val=1.0, gradient_clip_algorithm="norm"
														
 
															-            )
														
 
															-            optim_d.step()
														
 
															+        optim_d.zero_grad()
														
 
															+        self.manual_backward(loss_disc_all)
														
 
															+        self.clip_gradients(
														
 
															+            optim_d, gradient_clip_val=1000.0, gradient_clip_algorithm="norm"
														
 
															+        )
														
 
															+        optim_d.step()
														
 
															-        y_d_hat_r, y_d_hat_g, fmap_r, fmap_g = self.discriminator(y, y_hat)
														
 
															+        y_d_hat_r, y_d_hat_g, fmap_r, fmap_g = self.discriminator(audios, fake_audios)
														
 
															         with torch.autocast(device_type=audios.device.type, enabled=False):
														
 
															             loss_decoded_mel = F.l1_loss(gt_mels * mel_masks, decoded_mels * mel_masks)
														
 
															-            loss_mel = F.l1_loss(gt_mels * mel_masks, y_hat_mels * mel_masks)
														
 
															+            loss_mel = F.l1_loss(
														
 
															+                input_mels * gen_mel_masks, fake_audio_mels * gen_mel_masks
														
 
															+            )
														
 
															             loss_adv, _ = generator_loss(y_d_hat_g)
														
 
															             loss_fm = feature_loss(fmap_r, fmap_g)
														
 
															-            if self.freeze_hifigan is True:
														
 
															-                loss_gen_all = loss_decoded_mel + loss_vq
														
 
															+            if self.mode == "pretrain-stage1":
														
 
															+                loss_vq_all = loss_decoded_mel + loss_vq
														
 
															+                loss_gen_all = loss_mel * 45 + loss_fm + loss_adv
														
 
															             else:
														
 
															                 loss_gen_all = loss_mel * 45 + loss_vq * 45 + loss_fm + loss_adv
														
 
															         self.log(
														
 
															-            "train/generator/loss",
														
 
															+            "train/generator/loss_gen_all",
														
 
															             loss_gen_all,
														
 
															             on_step=True,
														
 
															             on_epoch=False,
														
@@ -264,6 +268,18 @@ class VQGAN(L.LightningModule):
 
															             logger=True,
														
 
															             sync_dist=True,
														
 
															         )
														
 
															+
														
 
															+        if self.mode == "pretrain-stage1":
														
 
															+            self.log(
														
 
															+                "train/generator/loss_vq_all",
														
 
															+                loss_vq_all,
														
 
															+                on_step=True,
														
 
															+                on_epoch=False,
														
 
															+                prog_bar=True,
														
 
															+                logger=True,
														
 
															+                sync_dist=True,
														
 
															+            )
														
 
															+
														
 
															         self.log(
														
 
															             "train/generator/loss_decoded_mel",
														
 
															             loss_decoded_mel,
														
@@ -311,9 +327,14 @@ class VQGAN(L.LightningModule):
 
															         )
														
 
															         optim_g.zero_grad()
														
 
															+
														
 
															+        # Only backpropagate loss_vq_all in pretrain-stage1
														
 
															+        if self.mode == "pretrain-stage1":
														
 
															+            self.manual_backward(loss_vq_all)
														
 
															+
														
 
															         self.manual_backward(loss_gen_all)
														
 
															         self.clip_gradients(
														
 
															-            optim_g, gradient_clip_val=1.0, gradient_clip_algorithm="norm"
														
 
															+            optim_g, gradient_clip_val=1000.0, gradient_clip_algorithm="norm"
														
 
															         )
														
 
															         optim_g.step()
														
--- a/fish_speech/models/vqgan/modules/discriminator.py
+++ b/fish_speech/models/vqgan/modules/discriminator.py
@@ -117,9 +117,8 @@ class DiscriminatorS(nn.Module):
 
															 class EnsembleDiscriminator(nn.Module):
														
 
															-    def __init__(self, ckpt_path=None):
														
 
															+    def __init__(self, ckpt_path=None, periods=(2, 3, 5, 7, 11)):
														
 
															         super(EnsembleDiscriminator, self).__init__()
														
 
															-        periods = [2, 3, 5, 7, 11]  # [1, 2, 3, 5, 7, 11]
														
 
															         discs = [DiscriminatorS(use_spectral_norm=True)]
														
 
															         discs = discs + [DiscriminatorP(i, use_spectral_norm=False) for i in periods]
														
--- a/fish_speech/models/vqgan/modules/encoders.py
+++ b/fish_speech/models/vqgan/modules/encoders.py
@@ -309,7 +309,7 @@ class VQEncoder(nn.Module):
 
															             nn.Conv1d(vq_channels, in_channels, kernel_size=1, stride=1),
														
 
															         )
														
 
															-    def forward(self, x, x_mask, freeze_codebook=False):
														
 
															+    def forward(self, x, x_mask):
														
 
															         # x: [B, C, T], x_mask: [B, 1, T]
														
 
															         x_len = x.shape[2]