2 years ago · 703bcbd64e
--- a/fish_speech/configs/hubert_vq.yaml
+++ b/fish_speech/configs/hubert_vq.yaml
@@ -6,42 +6,49 @@ project: hubert_vq
 
				 
			
 
				 # Lightning Trainer
			
 
				 trainer:
			
 
				-  accumulate_grad_batches: 2
			
 
				-  gradient_clip_val: 1000.0  # For safety
			
 
				-  gradient_clip_algorithm: 'norm'
			
 
				-  precision: 32
			
 
				+  accelerator: gpu
			
 
				+  strategy:
			
 
				+    _target_: lightning.pytorch.strategies.DDPStrategy
			
 
				+    static_graph: true
			
 
				+  precision: 16-mixed
			
 
				   max_steps: 1_000_000
			
 
				 
			
 
				 sample_rate: 32000
			
 
				+hop_length: 640
			
 
				+num_mels: 128
			
 
				 
			
 
				 # Dataset Configuration
			
 
				 train_dataset:
			
 
				   _target_: fish_speech.datasets.vqgan.VQGANDataset
			
 
				-  filelist: data/test.filelist
			
 
				+  filelist: data/vq_train_filelist.txt
			
 
				   sample_rate: ${sample_rate}
			
 
				 
			
 
				 val_dataset:
			
 
				-  _target_: fish_speech.datasets.text.TextDataset
			
 
				-  repo: fishaudio/cn-hubert-25hz-vq
			
 
				-  prefix: 'data/test'
			
 
				+  _target_: fish_speech.datasets.vqgan.VQGANDataset
			
 
				+  filelist: data/vq_val_filelist.txt
			
 
				+  sample_rate: ${sample_rate}
			
 
				 
			
 
				 data:
			
 
				-  _target_: fish_speech.datasets.text.TextDataModule
			
 
				+  _target_: fish_speech.datasets.vqgan.VQGANDataModule
			
 
				   train_dataset: ${train_dataset}
			
 
				   val_dataset: ${val_dataset}
			
 
				   num_workers: 4
			
 
				   batch_size: 8
			
 
				-  tokenizer: ${tokenizer}
			
 
				+  val_batch_size: 4
			
 
				+  hop_length: ${hop_length}
			
 
				 
			
 
				 # Model Configuration
			
 
				 model:
			
 
				   _target_: fish_speech.models.vqgan.VQGAN
			
 
				+  sample_rate: ${sample_rate}
			
 
				+  hop_length: ${hop_length}
			
 
				+  segment_size: 20480
			
 
				 
			
 
				   encoder:
			
 
				     _target_: fish_speech.models.vqgan.modules.VQEncoder
			
 
				     in_channels: 1024
			
 
				     channels: 192
			
 
				-    num_mels: 128
			
 
				+    num_mels: ${num_mels}
			
 
				     num_heads: 2
			
 
				     num_feature_layers: 2
			
 
				     num_speaker_layers: 4
			
@@ -70,9 +77,9 @@ model:
 
				     _target_: fish_speech.models.vqgan.spectrogram.LogMelSpectrogram
			
 
				     sample_rate: ${sample_rate}
			
 
				     n_fft: 2048
			
 
				-    hop_length: 640
			
 
				+    hop_length: ${hop_length}
			
 
				     win_length: 2048
			
 
				-    n_mels: 128
			
 
				+    n_mels: ${num_mels}
			
 
				 
			
 
				   optimizer:
			
 
				     _target_: torch.optim.AdamW
			
--- a/fish_speech/datasets/vqgan.py
+++ b/fish_speech/datasets/vqgan.py
@@ -1,11 +1,12 @@
 
				 from dataclasses import dataclass
			
 
				 from pathlib import Path
			
 
				+from typing import Optional
			
 
				 
			
 
				 import librosa
			
 
				 import numpy as np
			
 
				 import torch
			
 
				 from lightning import LightningDataModule
			
 
				-from torch.utils.data import Dataset
			
 
				+from torch.utils.data import DataLoader, Dataset
			
 
				 
			
 
				 
			
 
				 class VQGANDataset(Dataset):
			
@@ -78,12 +79,14 @@ class VQGANDataModule(LightningDataModule):
 
				         batch_size: int = 32,
			
 
				         hop_length: int = 640,
			
 
				         num_workers: int = 4,
			
 
				+        val_batch_size: Optional[int] = None,
			
 
				     ):
			
 
				         super().__init__()
			
 
				 
			
 
				         self.train_dataset = train_dataset
			
 
				         self.val_dataset = val_dataset
			
 
				         self.batch_size = batch_size
			
 
				+        self.val_batch_size = val_batch_size or batch_size
			
 
				         self.hop_length = hop_length
			
 
				         self.num_workers = num_workers
			
 
				 
			
@@ -106,8 +109,6 @@ class VQGANDataModule(LightningDataModule):
 
				 
			
 
				 
			
 
				 if __name__ == "__main__":
			
 
				-    from torch.utils.data import DataLoader
			
 
				-
			
 
				     dataset = VQGANDataset("data/LibriTTS_R/vq_train_filelist.txt")
			
 
				     dataloader = DataLoader(
			
 
				         dataset, batch_size=4, shuffle=False, collate_fn=VQGANCollator()
			
--- a/fish_speech/models/vqgan/lit_module.py
+++ b/fish_speech/models/vqgan/lit_module.py
@@ -1,10 +1,16 @@
 
				+import itertools
			
 
				 from typing import Any, Callable
			
 
				 
			
 
				 import lightning as L
			
 
				 import torch
			
 
				 import torch.nn.functional as F
			
 
				+import wandb
			
 
				+from lightning.pytorch.loggers import TensorBoardLogger, WandbLogger
			
 
				+from matplotlib import pyplot as plt
			
 
				 from torch import nn
			
 
				-from torch.utils.checkpoint import checkpoint as gradient_checkpointing
			
 
				+
			
 
				+from fish_speech.models.vqgan.modules import EnsembleDiscriminator, Generator, VQEncoder
			
 
				+from fish_speech.models.vqgan.utils import plot_mel, sequence_mask
			
 
				 
			
 
				 
			
 
				 class VQGAN(L.LightningModule):
			
@@ -12,11 +18,13 @@ class VQGAN(L.LightningModule):
 
				         self,
			
 
				         optimizer: Callable,
			
 
				         lr_scheduler: Callable,
			
 
				-        encoder: nn.Module,
			
 
				-        generator: nn.Module,
			
 
				-        discriminator: nn.Module,
			
 
				+        encoder: VQEncoder,
			
 
				+        generator: Generator,
			
 
				+        discriminator: EnsembleDiscriminator,
			
 
				         mel_transform: nn.Module,
			
 
				         segment_size: int = 20480,
			
 
				+        hop_length: int = 640,
			
 
				+        sample_rate: int = 32000,
			
 
				     ):
			
 
				         super().__init__()
			
 
				 
			
@@ -33,15 +41,19 @@ class VQGAN(L.LightningModule):
 
				 
			
 
				         # Crop length for saving memory
			
 
				         self.segment_size = segment_size
			
 
				+        self.hop_length = hop_length
			
 
				+        self.sampling_rate = sample_rate
			
 
				 
			
 
				         # Disable automatic optimization
			
 
				         self.automatic_optimization = False
			
 
				 
			
 
				     def configure_optimizers(self):
			
 
				         # Need two optimizers and two schedulers
			
 
				-        optimizer_generator = self.optimizer_builder(self.generator.parameters())
			
 
				+        optimizer_generator = self.optimizer_builder(
			
 
				+            itertools.chain(self.encoder.parameters(), self.generator.parameters())
			
 
				+        )
			
 
				         optimizer_discriminator = self.optimizer_builder(
			
 
				-            self.discriminators.parameters()
			
 
				+            self.discriminator.parameters()
			
 
				         )
			
 
				 
			
 
				         lr_scheduler_generator = self.lr_scheduler_builder(optimizer_generator)
			
@@ -66,109 +78,112 @@ class VQGAN(L.LightningModule):
 
				             },
			
 
				         )
			
 
				 
			
 
				-    def training_generator(self, audio, audio_mask):
			
 
				-        # fake_audio, base_loss = self.forward(audio, audio_mask)
			
 
				+    @staticmethod
			
 
				+    def discriminator_loss(disc_real_outputs, disc_generated_outputs):
			
 
				+        loss = 0
			
 
				+        r_losses = []
			
 
				+        g_losses = []
			
 
				+        for dr, dg in zip(disc_real_outputs, disc_generated_outputs):
			
 
				+            dr = dr.float()
			
 
				+            dg = dg.float()
			
 
				+            r_loss = torch.mean((1 - dr) ** 2)
			
 
				+            g_loss = torch.mean(dg**2)
			
 
				+            loss += r_loss + g_loss
			
 
				+            r_losses.append(r_loss.item())
			
 
				+            g_losses.append(g_loss.item())
			
 
				+
			
 
				+        return loss, r_losses, g_losses
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def generator_loss(disc_outputs):
			
 
				+        loss = 0
			
 
				+        gen_losses = []
			
 
				+        for dg in disc_outputs:
			
 
				+            dg = dg.float()
			
 
				+            l = torch.mean((1 - dg) ** 2)
			
 
				+            gen_losses.append(l)
			
 
				+            loss += l
			
 
				+
			
 
				+        return loss, gen_losses
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def feature_loss(fmap_r, fmap_g):
			
 
				+        loss = 0
			
 
				+        for dr, dg in zip(fmap_r, fmap_g):
			
 
				+            for rl, gl in zip(dr, dg):
			
 
				+                rl = rl.float().detach()
			
 
				+                gl = gl.float()
			
 
				+                loss += torch.mean(torch.abs(rl - gl))
			
 
				+
			
 
				+        return loss * 2
			
 
				 
			
 
				-        assert fake_audio.shape == audio.shape
			
 
				+    def training_step(self, batch, batch_idx):
			
 
				+        optim_g, optim_d = self.optimizers()
			
 
				 
			
 
				-        # Apply mask
			
 
				-        audio = audio * audio_mask
			
 
				-        fake_audio = fake_audio * audio_mask
			
 
				+        audios, audio_lengths = batch["audios"], batch["audio_lengths"]
			
 
				+        features, feature_lengths = batch["features"], batch["feature_lengths"]
			
 
				 
			
 
				-        # Multi-Resolution STFT Loss
			
 
				-        sc_loss, mag_loss = self.multi_resolution_stft_loss(
			
 
				-            fake_audio.squeeze(1), audio.squeeze(1)
			
 
				-        )
			
 
				-        loss_stft = sc_loss + mag_loss
			
 
				+        with torch.no_grad():
			
 
				+            gt_mels = self.mel_transform(audios).transpose(1, 2)
			
 
				+            key_padding_mask = sequence_mask(feature_lengths)
			
 
				+            mels_key_padding_mask = sequence_mask(audio_lengths // self.hop_length)
			
 
				 
			
 
				-        self.log(
			
 
				-            "train/generator/stft",
			
 
				-            loss_stft,
			
 
				-            on_step=True,
			
 
				-            on_epoch=False,
			
 
				-            prog_bar=True,
			
 
				-            logger=True,
			
 
				-            sync_dist=True,
			
 
				-        )
			
 
				+            assert abs(gt_mels.shape[1] - mels_key_padding_mask.shape[1]) <= 1
			
 
				+            gt_mel_length = min(gt_mels.shape[1], mels_key_padding_mask.shape[1])
			
 
				+            gt_mels = gt_mels[:, :gt_mel_length]
			
 
				+            mels_key_padding_mask = mels_key_padding_mask[:, :gt_mel_length]
			
 
				 
			
 
				-        # L1 Mel-Spectrogram Loss
			
 
				-        # This is not used in backpropagation currently
			
 
				-        audio_mel = self.mel_transforms.loss(audio.squeeze(1))
			
 
				-        fake_audio_mel = self.mel_transforms.loss(fake_audio.squeeze(1))
			
 
				-        loss_mel = F.l1_loss(audio_mel, fake_audio_mel)
			
 
				+            assert abs(features.shape[1] - key_padding_mask.shape[1]) <= 1
			
 
				+            gt_feature_length = min(features.shape[1], key_padding_mask.shape[1])
			
 
				+            features = features[:, :gt_feature_length]
			
 
				+            key_padding_mask = key_padding_mask[:, :gt_feature_length]
			
 
				 
			
 
				-        self.log(
			
 
				-            "train/generator/mel",
			
 
				-            loss_mel,
			
 
				-            on_step=True,
			
 
				-            on_epoch=False,
			
 
				-            prog_bar=True,
			
 
				-            logger=True,
			
 
				-            sync_dist=True,
			
 
				+        # Generator
			
 
				+        encoded = self.encoder(
			
 
				+            x=features,
			
 
				+            mels=gt_mels,
			
 
				+            key_padding_mask=key_padding_mask,
			
 
				+            mels_key_padding_mask=mels_key_padding_mask,
			
 
				         )
			
 
				 
			
 
				-        # Now, we need to reduce the length of the audio to save memory
			
 
				-        if self.crop_length is not None and audio.shape[2] > self.crop_length:
			
 
				-            slice_idx = torch.randint(0, audio.shape[-1] - self.crop_length, (1,))
			
 
				+        features = encoded.features
			
 
				+        audios = audios[:, None, :]
			
 
				 
			
 
				-            audio = audio[..., slice_idx : slice_idx + self.crop_length]
			
 
				-            fake_audio = fake_audio[..., slice_idx : slice_idx + self.crop_length]
			
 
				-            audio_mask = audio_mask[..., slice_idx : slice_idx + self.crop_length]
			
 
				-
			
 
				-            assert audio.shape == fake_audio.shape == audio_mask.shape
			
 
				-
			
 
				-        # Adv Loss
			
 
				-        loss_adv_all = 0
			
 
				-
			
 
				-        for key, disc in self.discriminators.items():
			
 
				-            score_fakes, feat_fake = disc(fake_audio)
			
 
				-
			
 
				-            # Adversarial Loss
			
 
				-            score_fakes = torch.cat(score_fakes, dim=1)
			
 
				-            loss_fake = torch.mean((1 - score_fakes) ** 2)
			
 
				-
			
 
				-            self.log(
			
 
				-                f"train/generator/adv_{key}",
			
 
				-                loss_fake,
			
 
				-                on_step=True,
			
 
				-                on_epoch=False,
			
 
				-                prog_bar=False,
			
 
				-                logger=True,
			
 
				-                sync_dist=True,
			
 
				-            )
			
 
				+        # Get slice of audio
			
 
				+        if audios.shape[-1] > self.segment_size:
			
 
				+            start = torch.randint(
			
 
				+                0, audios.shape[-1] - self.segment_size, (1,), device=audios.device
			
 
				+            ).item()
			
 
				+            start = start // self.hop_length * self.hop_length
			
 
				 
			
 
				-            loss_adv_all += loss_fake
			
 
				+            audios = audios[:, :, start : start + self.segment_size]
			
 
				+            audio_masks = sequence_mask(audio_lengths)[
			
 
				+                :, None, start : start + self.segment_size
			
 
				+            ]
			
 
				 
			
 
				-            if self.feature_matching is False:
			
 
				-                continue
			
 
				+            mel_start = start // self.hop_length
			
 
				+            mel_size = self.segment_size // self.hop_length
			
 
				+            gt_mels = gt_mels[:, mel_start : mel_start + mel_size]
			
 
				+            mels_key_padding_mask = mels_key_padding_mask[
			
 
				+                :, mel_start : mel_start + mel_size
			
 
				+            ]
			
 
				 
			
 
				-            # Feature Matching Loss
			
 
				-            _, feat_real = disc(audio)
			
 
				-            loss_fm = 0
			
 
				-            for dr, dg in zip(feat_real, feat_fake):
			
 
				-                for rl, gl in zip(dr, dg):
			
 
				-                    loss_fm += F.l1_loss(rl, gl)
			
 
				+            features = features[:, :, mel_start : mel_start + mel_size]
			
 
				 
			
 
				-            loss_fm /= len(feat_real)
			
 
				+        fake_audios = self.generator(features)
			
 
				+        audio = torch.masked_fill(audios, audio_masks, 0.0)
			
 
				+        fake_audios = torch.masked_fill(fake_audios, audio_masks, 0.0)
			
 
				+        assert fake_audios.shape == audio.shape
			
 
				 
			
 
				-            self.log(
			
 
				-                f"train/generator/adv_fm_{key}",
			
 
				-                loss_fm,
			
 
				-                on_step=True,
			
 
				-                on_epoch=False,
			
 
				-                prog_bar=False,
			
 
				-                logger=True,
			
 
				-                sync_dist=True,
			
 
				-            )
			
 
				-
			
 
				-            loss_adv_all += loss_fm
			
 
				+        # Discriminator
			
 
				+        y_d_hat_r, y_d_hat_g, _, _ = self.discriminator(audio, fake_audios.detach())
			
 
				 
			
 
				-        loss_adv_all /= len(self.discriminators)
			
 
				-        loss_gen_all = base_loss + loss_stft * 2.5 + loss_mel * 45 + loss_adv_all
			
 
				+        with torch.autocast(device_type=audios.device.type, enabled=False):
			
 
				+            loss_disc_all, _, _ = self.discriminator_loss(y_d_hat_r, y_d_hat_g)
			
 
				 
			
 
				         self.log(
			
 
				-            "train/generator/all",
			
 
				-            loss_gen_all,
			
 
				+            "train/discriminator/loss",
			
 
				+            loss_disc_all,
			
 
				             on_step=True,
			
 
				             on_epoch=False,
			
 
				             prog_bar=True,
			
@@ -176,99 +191,79 @@ class VQGAN(L.LightningModule):
 
				             sync_dist=True,
			
 
				         )
			
 
				 
			
 
				-        return loss_gen_all, audio, fake_audio
			
 
				+        optim_d.zero_grad()
			
 
				+        self.manual_backward(loss_disc_all)
			
 
				+        self.clip_gradients(
			
 
				+            optim_d, gradient_clip_val=1000.0, gradient_clip_algorithm="norm"
			
 
				+        )
			
 
				+        optim_d.step()
			
 
				 
			
 
				-    def training_discriminator(self, audio, fake_audio):
			
 
				-        loss_disc_all = 0
			
 
				+        y_d_hat_r, y_d_hat_g, fmap_r, fmap_g = self.discriminator(audios, fake_audios)
			
 
				+        fake_mels = self.mel_transform(fake_audios.squeeze(1)).transpose(1, 2)
			
 
				 
			
 
				-        for key, disc in self.discriminators.items():
			
 
				-            if self.training and self.checkpointing:
			
 
				-                scores, _ = gradient_checkpointing(disc, audio, use_reentrant=False)
			
 
				-                score_fakes, _ = gradient_checkpointing(
			
 
				-                    disc, fake_audio.detach(), use_reentrant=False
			
 
				-                )
			
 
				-            else:
			
 
				-                scores, _ = disc(audio)
			
 
				-                score_fakes, _ = disc(fake_audio.detach())
			
 
				-
			
 
				-            scores = torch.cat(scores, dim=1)
			
 
				-            score_fakes = torch.cat(score_fakes, dim=1)
			
 
				-            loss_disc = torch.mean((scores - 1) ** 2) + torch.mean((score_fakes) ** 2)
			
 
				-
			
 
				-            self.log(
			
 
				-                f"train/discriminator/{key}",
			
 
				-                loss_disc,
			
 
				-                on_step=True,
			
 
				-                on_epoch=False,
			
 
				-                prog_bar=False,
			
 
				-                logger=True,
			
 
				-                sync_dist=True,
			
 
				-            )
			
 
				+        # Fill mel mask
			
 
				+        fake_mels = torch.masked_fill(fake_mels, mels_key_padding_mask[:, :, None], 0.0)
			
 
				+        gt_mels = torch.masked_fill(gt_mels, mels_key_padding_mask[:, :, None], 0.0)
			
 
				 
			
 
				-            loss_disc_all += loss_disc
			
 
				+        with torch.autocast(device_type=audios.device.type, enabled=False):
			
 
				+            loss_mel = F.l1_loss(gt_mels, fake_mels)
			
 
				+            loss_adv, _ = self.generator_loss(y_d_hat_g)
			
 
				+            loss_fm = self.feature_loss(fmap_r, fmap_g)
			
 
				 
			
 
				-        loss_disc_all /= len(self.discriminators)
			
 
				+            loss_gen_all = loss_fm * 45 + loss_mel + loss_adv + encoded.loss
			
 
				 
			
 
				         self.log(
			
 
				-            "train/discriminator/all",
			
 
				-            loss_disc_all,
			
 
				+            "train/generator/loss",
			
 
				+            loss_gen_all,
			
 
				             on_step=True,
			
 
				             on_epoch=False,
			
 
				             prog_bar=True,
			
 
				             logger=True,
			
 
				             sync_dist=True,
			
 
				         )
			
 
				-
			
 
				-        return loss_disc_all
			
 
				-
			
 
				-    def training_step(self, batch, batch_idx):
			
 
				-        optim_g, optim_d = self.optimizers()
			
 
				-
			
 
				-        audio, lengths = batch["audio"], batch["lengths"]
			
 
				-        audio_mask = sequence_mask(lengths)[:, None, :].to(audio.device, torch.float32)
			
 
				-
			
 
				-        # Generator
			
 
				-        optim_g.zero_grad()
			
 
				-        loss_gen_all, audio, fake_audio = self.training_generator(audio, audio_mask)
			
 
				-        self.manual_backward(loss_gen_all)
			
 
				-
			
 
				         self.log(
			
 
				-            "train/generator/grad_norm",
			
 
				-            grad_norm(self.generator.parameters()),
			
 
				+            "train/generator/loss_mel",
			
 
				+            loss_mel,
			
 
				+            on_step=True,
			
 
				+            on_epoch=False,
			
 
				+            prog_bar=False,
			
 
				+            logger=True,
			
 
				+            sync_dist=True,
			
 
				+        )
			
 
				+        self.log(
			
 
				+            "train/generator/loss_fm",
			
 
				+            loss_fm,
			
 
				             on_step=True,
			
 
				             on_epoch=False,
			
 
				             prog_bar=False,
			
 
				             logger=True,
			
 
				             sync_dist=True,
			
 
				         )
			
 
				-
			
 
				-        self.clip_gradients(
			
 
				-            optim_g, gradient_clip_val=1000, gradient_clip_algorithm="norm"
			
 
				+        self.log(
			
 
				+            "train/generator/loss_adv",
			
 
				+            loss_adv,
			
 
				+            on_step=True,
			
 
				+            on_epoch=False,
			
 
				+            prog_bar=False,
			
 
				+            logger=True,
			
 
				+            sync_dist=True,
			
 
				+        )
			
 
				+        self.log(
			
 
				+            "train/generator/loss_vq",
			
 
				+            encoded.loss,
			
 
				+            on_step=True,
			
 
				+            on_epoch=False,
			
 
				+            prog_bar=False,
			
 
				+            logger=True,
			
 
				+            sync_dist=True,
			
 
				         )
			
 
				-        optim_g.step()
			
 
				-
			
 
				-        # Discriminator
			
 
				-        assert fake_audio.shape == audio.shape
			
 
				-
			
 
				-        optim_d.zero_grad()
			
 
				-        loss_disc_all = self.training_discriminator(audio, fake_audio)
			
 
				-        self.manual_backward(loss_disc_all)
			
 
				-
			
 
				-        for key, disc in self.discriminators.items():
			
 
				-            self.log(
			
 
				-                f"train/discriminator/grad_norm_{key}",
			
 
				-                grad_norm(disc.parameters()),
			
 
				-                on_step=True,
			
 
				-                on_epoch=False,
			
 
				-                prog_bar=False,
			
 
				-                logger=True,
			
 
				-                sync_dist=True,
			
 
				-            )
			
 
				 
			
 
				+        optim_g.zero_grad()
			
 
				+        self.manual_backward(loss_gen_all)
			
 
				         self.clip_gradients(
			
 
				-            optim_d, gradient_clip_val=1000, gradient_clip_algorithm="norm"
			
 
				+            optim_g, gradient_clip_val=1000.0, gradient_clip_algorithm="norm"
			
 
				         )
			
 
				-        optim_d.step()
			
 
				+        optim_g.step()
			
 
				 
			
 
				         # Manual LR Scheduler
			
 
				         scheduler_g, scheduler_d = self.lr_schedulers()
			
@@ -276,25 +271,55 @@ class VQGAN(L.LightningModule):
 
				         scheduler_d.step()
			
 
				 
			
 
				     def validation_step(self, batch: Any, batch_idx: int):
			
 
				-        audio, lengths = batch["audio"], batch["lengths"]
			
 
				-        audio_mask = sequence_mask(lengths)[:, None, :].to(audio.device, torch.float32)
			
 
				+        audios, audio_lengths = batch["audios"], batch["audio_lengths"]
			
 
				+        features, feature_lengths = batch["features"], batch["feature_lengths"]
			
 
				+
			
 
				+        with torch.no_grad():
			
 
				+            gt_mels = self.mel_transform(audios).transpose(1, 2)
			
 
				+            key_padding_mask = sequence_mask(feature_lengths)
			
 
				+            mels_key_padding_mask = sequence_mask(audio_lengths // self.hop_length)
			
 
				+            audio_masks = sequence_mask(audio_lengths)
			
 
				+
			
 
				+            assert abs(gt_mels.shape[1] - mels_key_padding_mask.shape[1]) <= 1
			
 
				+            gt_mel_length = min(gt_mels.shape[1], mels_key_padding_mask.shape[1])
			
 
				+            gt_mels = gt_mels[:, :gt_mel_length]
			
 
				+            mels_key_padding_mask = mels_key_padding_mask[:, :gt_mel_length]
			
 
				+
			
 
				+            assert abs(features.shape[1] - key_padding_mask.shape[1]) <= 1
			
 
				+            gt_feature_length = min(features.shape[1], key_padding_mask.shape[1])
			
 
				+            features = features[:, :gt_feature_length]
			
 
				+            key_padding_mask = key_padding_mask[:, :gt_feature_length]
			
 
				 
			
 
				         # Generator
			
 
				-        fake_audio, _ = self.forward(audio, audio_mask)
			
 
				-        assert fake_audio.shape == audio.shape
			
 
				+        encoded = self.encoder(
			
 
				+            x=features,
			
 
				+            mels=gt_mels,
			
 
				+            key_padding_mask=key_padding_mask,
			
 
				+            mels_key_padding_mask=mels_key_padding_mask,
			
 
				+        )
			
 
				+
			
 
				+        features = encoded.features
			
 
				+        audios = audios[:, None, :]
			
 
				 
			
 
				-        # Apply mask
			
 
				-        audio = audio * audio_mask
			
 
				-        fake_audio = fake_audio * audio_mask
			
 
				+        fake_audios = self.generator(features)
			
 
				+        min_audio_length = min(audios.shape[-1], fake_audios.shape[-1])
			
 
				 
			
 
				-        # L1 Mel-Spectrogram Loss
			
 
				-        audio_mel = self.mel_transforms.loss(audio.squeeze(1))
			
 
				-        fake_audio_mel = self.mel_transforms.loss(fake_audio.squeeze(1))
			
 
				-        loss_mel = F.l1_loss(audio_mel, fake_audio_mel)
			
 
				+        audios = audios[:, :, :min_audio_length]
			
 
				+        fake_audios = fake_audios[:, :, :min_audio_length]
			
 
				+        audio_masks = audio_masks[:, None, :min_audio_length]
			
 
				 
			
 
				+        audio = torch.masked_fill(audios, audio_masks, 0.0)
			
 
				+        fake_audios = torch.masked_fill(fake_audios, audio_masks, 0.0)
			
 
				+        assert fake_audios.shape == audio.shape
			
 
				+
			
 
				+        fake_mels = self.mel_transform(fake_audios.squeeze(1)).transpose(1, 2)
			
 
				+        gt_mels = torch.masked_fill(gt_mels, mels_key_padding_mask[:, :, None], 0.0)
			
 
				+        fake_mels = torch.masked_fill(fake_mels, mels_key_padding_mask[:, :, None], 0.0)
			
 
				+
			
 
				+        mel_loss = F.l1_loss(gt_mels, fake_mels)
			
 
				         self.log(
			
 
				-            "val/metrics/mel",
			
 
				-            loss_mel,
			
 
				+            "val/mel_loss",
			
 
				+            mel_loss,
			
 
				             on_step=False,
			
 
				             on_epoch=True,
			
 
				             prog_bar=True,
			
@@ -302,5 +327,61 @@ class VQGAN(L.LightningModule):
 
				             sync_dist=True,
			
 
				         )
			
 
				 
			
 
				-        # Report other metrics
			
 
				-        self.report_val_metrics(fake_audio, audio, lengths)
			
 
				+        for idx, (mel, gen_mel, audio, gen_audio, audio_len) in enumerate(
			
 
				+            zip(
			
 
				+                gt_mels.transpose(1, 2),
			
 
				+                fake_mels.transpose(1, 2),
			
 
				+                audios,
			
 
				+                fake_audios,
			
 
				+                audio_lengths,
			
 
				+            )
			
 
				+        ):
			
 
				+            mel_len = audio_len // self.hop_length
			
 
				+
			
 
				+            image_mels = plot_mel(
			
 
				+                [
			
 
				+                    gen_mel[:, :mel_len],
			
 
				+                    mel[:, :mel_len],
			
 
				+                ],
			
 
				+                ["Sampled Spectrogram", "Ground-Truth Spectrogram"],
			
 
				+            )
			
 
				+
			
 
				+            if isinstance(self.logger, WandbLogger):
			
 
				+                self.logger.experiment.log(
			
 
				+                    {
			
 
				+                        "reconstruction_mel": wandb.Image(image_mels, caption="mels"),
			
 
				+                        "wavs": [
			
 
				+                            wandb.Audio(
			
 
				+                                audio[0, :audio_len],
			
 
				+                                sample_rate=self.sampling_rate,
			
 
				+                                caption="gt",
			
 
				+                            ),
			
 
				+                            wandb.Audio(
			
 
				+                                gen_audio[0, :audio_len],
			
 
				+                                sample_rate=self.sampling_rate,
			
 
				+                                caption="prediction",
			
 
				+                            ),
			
 
				+                        ],
			
 
				+                    },
			
 
				+                )
			
 
				+
			
 
				+            if isinstance(self.logger, TensorBoardLogger):
			
 
				+                self.logger.experiment.add_figure(
			
 
				+                    f"sample-{idx}/mels",
			
 
				+                    image_mels,
			
 
				+                    global_step=self.global_step,
			
 
				+                )
			
 
				+                self.logger.experiment.add_audio(
			
 
				+                    f"sample-{idx}/wavs/gt",
			
 
				+                    audio[0, :audio_len],
			
 
				+                    self.global_step,
			
 
				+                    sample_rate=self.sampling_rate,
			
 
				+                )
			
 
				+                self.logger.experiment.add_audio(
			
 
				+                    f"sample-{idx}/wavs/prediction",
			
 
				+                    gen_audio[0, :audio_len],
			
 
				+                    self.global_step,
			
 
				+                    sample_rate=self.sampling_rate,
			
 
				+                )
			
 
				+
			
 
				+            plt.close(image_mels)
			
--- a/fish_speech/models/vqgan/modules.py
+++ b/fish_speech/models/vqgan/modules.py
@@ -38,12 +38,14 @@ class VQEncoder(nn.Module):
 
				         # Feature Encoder
			
 
				         down_sample = 2 if input_downsample else 1
			
 
				 
			
 
				-        self.vq_in = nn.Linear(in_channels * down_sample, in_channels)
			
 
				+        self.vq_in = nn.Conv1d(
			
 
				+            in_channels, in_channels, kernel_size=down_sample, stride=down_sample
			
 
				+        )
			
 
				         self.vq = VectorQuantization(
			
 
				             dim=in_channels,
			
 
				             codebook_size=code_book_size,
			
 
				             threshold_ema_dead_code=2,
			
 
				-            kmeans_init=True,
			
 
				+            kmeans_init=False,
			
 
				             kmeans_iters=50,
			
 
				         )
			
 
				 
			
@@ -78,7 +80,7 @@ class VQEncoder(nn.Module):
 
				         )
			
 
				 
			
 
				         # Final Mixer
			
 
				-        self.mixer_in = nn.ModuleList(
			
 
				+        self.mixer_blocks = nn.ModuleList(
			
 
				             [
			
 
				                 TransformerBlock(
			
 
				                     channels,
			
@@ -102,47 +104,61 @@ class VQEncoder(nn.Module):
 
				             for p in self.vq_in.parameters():
			
 
				                 p.requires_grad = False
			
 
				 
			
 
				-    def forward(self, x, mels, key_padding_mask=None):
			
 
				+    def forward(
			
 
				+        self, x, mels, key_padding_mask=None, mels_key_padding_mask=None
			
 
				+    ) -> VQEncoderOutput:
			
 
				         # x: (batch, seq_len, channels)
			
 
				-        # x: (batch, seq_len, 128)
			
 
				-
			
 
				-        if self.input_downsample and key_padding_mask is not None:
			
 
				-            key_padding_mask = key_padding_mask[:, ::2]
			
 
				+        # mels: (batch, seq_len, 128)
			
 
				 
			
 
				-        # Merge Channels
			
 
				-        if self.input_downsample:
			
 
				-            feature_0, feature_1 = x[:, ::2], x[:, 1::2]
			
 
				-            min_len = min(feature_0.size(1), feature_1.size(1))
			
 
				-            x = torch.cat([feature_0[:, :min_len], feature_1[:, :min_len]], dim=2)
			
 
				+        assert key_padding_mask.size(1) == x.size(
			
 
				+            1
			
 
				+        ), f"key_padding_mask shape {key_padding_mask.size()} does not match features shape {features.size()}"
			
 
				 
			
 
				-        # Encode Features
			
 
				-        features = self.vq_in(x)
			
 
				-        assert key_padding_mask.size(1) == features.size(
			
 
				+        assert mels_key_padding_mask.size(1) == mels.size(
			
 
				             1
			
 
				-        ), f"key_padding_mask shape {key_padding_mask.size()} is not (batch_size, seq_len)"
			
 
				+        ), f"mels_key_padding_mask shape {mels_key_padding_mask.size()} does not match mels shape {mels.size()}"
			
 
				 
			
 
				-        features, _, loss = self.vq(features, mask=~key_padding_mask)
			
 
				+        # Encode Features
			
 
				+        features = self.vq_in(x.transpose(1, 2))
			
 
				+        features, _, loss = self.vq(features)
			
 
				+        features = features.transpose(1, 2)
			
 
				 
			
 
				         if self.input_downsample:
			
 
				             features = F.interpolate(
			
 
				                 features.transpose(1, 2), scale_factor=2
			
 
				             ).transpose(1, 2)
			
 
				 
			
 
				+        # Shape may change due to downsampling, let's cut it to the same size
			
 
				+        if features.shape[1] != key_padding_mask.shape[1]:
			
 
				+            assert abs(features.shape[1] - key_padding_mask.shape[1]) <= 1
			
 
				+            min_len = min(features.shape[1], key_padding_mask.shape[1])
			
 
				+            features = features[:, :min_len]
			
 
				+            key_padding_mask = key_padding_mask[:, :min_len]
			
 
				+
			
 
				         features = self.feature_in(features)
			
 
				         for block in self.feature_blocks:
			
 
				             features = block(features, key_padding_mask=key_padding_mask)
			
 
				 
			
 
				         # Encode Speaker
			
 
				-        speaker = self.speaker_in(x)
			
 
				+        speaker = self.speaker_in(mels)
			
 
				         speaker = torch.cat(
			
 
				             [self.speaker_query.expand(speaker.shape[0], -1, -1), speaker], dim=1
			
 
				         )
			
 
				+        mels_key_padding_mask = torch.cat(
			
 
				+            [
			
 
				+                torch.ones(
			
 
				+                    speaker.shape[0], 1, dtype=torch.bool, device=speaker.device
			
 
				+                ),
			
 
				+                mels_key_padding_mask,
			
 
				+            ],
			
 
				+            dim=1,
			
 
				+        )
			
 
				         for block in self.speaker_blocks:
			
 
				-            speaker = block(mels, key_padding_mask=key_padding_mask)
			
 
				+            speaker = block(speaker, key_padding_mask=mels_key_padding_mask)
			
 
				 
			
 
				         # Mix
			
 
				         x = features + speaker[:, :1]
			
 
				-        for block in self.mixer_in:
			
 
				+        for block in self.mixer_blocks:
			
 
				             x = block(x, key_padding_mask=key_padding_mask)
			
 
				 
			
 
				         return VQEncoderOutput(
			
@@ -350,7 +366,7 @@ class RelativeAttention(nn.Module):
 
				             assert key_padding_mask.size() == (
			
 
				                 batch_size,
			
 
				                 seq_len,
			
 
				-            ), f"key_padding_mask shape {key_padding_mask.size()} is not (batch_size, seq_len)"
			
 
				+            ), f"key_padding_mask shape {key_padding_mask.size()} does not match x shape {x.size()}"
			
 
				             assert (
			
 
				                 key_padding_mask.dtype == torch.bool
			
 
				             ), f"key_padding_mask dtype {key_padding_mask.dtype} is not bool"
			
--- a/fish_speech/models/vqgan/utils.py
+++ b/fish_speech/models/vqgan/utils.py
@@ -1,6 +1,8 @@
 
				+import matplotlib
			
 
				 import torch
			
 
				-import torch.utils.data
			
 
				-from librosa.filters import mel as librosa_mel_fn
			
 
				+from matplotlib import pyplot as plt
			
 
				+
			
 
				+matplotlib.use("Agg")
			
 
				 
			
 
				 
			
 
				 def convert_pad_shape(pad_shape):
			
@@ -13,7 +15,7 @@ def sequence_mask(length, max_length=None):
 
				     if max_length is None:
			
 
				         max_length = length.max()
			
 
				     x = torch.arange(max_length, dtype=length.dtype, device=length.device)
			
 
				-    return x.unsqueeze(0) < length.unsqueeze(1)
			
 
				+    return x.unsqueeze(0) >= length.unsqueeze(1)
			
 
				 
			
 
				 
			
 
				 def init_weights(m, mean=0.0, std=0.01):
			
@@ -24,3 +26,27 @@ def init_weights(m, mean=0.0, std=0.01):
 
				 
			
 
				 def get_padding(kernel_size, dilation=1):
			
 
				     return int((kernel_size * dilation - dilation) / 2)
			
 
				+
			
 
				+
			
 
				+def plot_mel(data, titles=None):
			
 
				+    fig, axes = plt.subplots(len(data), 1, squeeze=False)
			
 
				+
			
 
				+    if titles is None:
			
 
				+        titles = [None for i in range(len(data))]
			
 
				+
			
 
				+    plt.tight_layout()
			
 
				+
			
 
				+    for i in range(len(data)):
			
 
				+        mel = data[i]
			
 
				+
			
 
				+        if isinstance(mel, torch.Tensor):
			
 
				+            mel = mel.detach().cpu().numpy()
			
 
				+
			
 
				+        axes[i][0].imshow(mel, origin="lower")
			
 
				+        axes[i][0].set_aspect(2.5, adjustable="box")
			
 
				+        axes[i][0].set_ylim(0, mel.shape[0])
			
 
				+        axes[i][0].set_title(titles[i], fontsize="medium")
			
 
				+        axes[i][0].tick_params(labelsize="x-small", left=False, labelleft=False)
			
 
				+        axes[i][0].set_anchor("W")
			
 
				+
			
 
				+    return fig
			
--- a/fish_speech/utils/viz.py
+++ b/fish_speech/utils/viz.py
@@ -1,29 +0,0 @@
 
				-import matplotlib
			
 
				-from matplotlib import pyplot as plt
			
 
				-from torch import Tensor
			
 
				-
			
 
				-matplotlib.use("Agg")
			
 
				-
			
 
				-
			
 
				-def plot_mel(data, titles=None):
			
 
				-    fig, axes = plt.subplots(len(data), 1, squeeze=False)
			
 
				-
			
 
				-    if titles is None:
			
 
				-        titles = [None for i in range(len(data))]
			
 
				-
			
 
				-    plt.tight_layout()
			
 
				-
			
 
				-    for i in range(len(data)):
			
 
				-        mel = data[i]
			
 
				-
			
 
				-        if isinstance(mel, Tensor):
			
 
				-            mel = mel.detach().cpu().numpy()
			
 
				-
			
 
				-        axes[i][0].imshow(mel, origin="lower")
			
 
				-        axes[i][0].set_aspect(2.5, adjustable="box")
			
 
				-        axes[i][0].set_ylim(0, mel.shape[0])
			
 
				-        axes[i][0].set_title(titles[i], fontsize="medium")
			
 
				-        axes[i][0].tick_params(labelsize="x-small", left=False, labelleft=False)
			
 
				-        axes[i][0].set_anchor("W")
			
 
				-
			
 
				-    return fig
			
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -30,6 +30,8 @@ dependencies = [
 
				     "jieba",
			
 
				     "g2p_en",
			
 
				     "pyopenjtalk",
			
 
				+    "wandb",
			
 
				+    "tensorboard",
			
 
				 ]
			
 
				 
			
 
				 [build-system]