2 лет назад · 852edb9474
--- a/fish_speech/configs/vq_diffusion.yaml
+++ b/fish_speech/configs/vq_diffusion.yaml
@@ -11,7 +11,7 @@ trainer:
 
				   strategy: ddp_find_unused_parameters_true
			
 
				   gradient_clip_val: 1.0
			
 
				   gradient_clip_algorithm: 'norm'
			
 
				-  precision: 16-mixed
			
 
				+  precision: bf16-mixed
			
 
				   max_steps: 300_000
			
 
				   val_check_interval: 5000
			
 
				 
			
--- a/fish_speech/datasets/vqgan.py
+++ b/fish_speech/datasets/vqgan.py
@@ -26,7 +26,11 @@ class VQGANDataset(Dataset):
 
				         filelist = Path(filelist)
			
 
				         root = filelist.parent
			
 
				 
			
 
				-        self.files = [root / line.strip() for line in filelist.read_text().splitlines()]
			
 
				+        self.files = [
			
 
				+            root / line.strip()
			
 
				+            for line in filelist.read_text().splitlines()
			
 
				+            if line.strip()
			
 
				+        ]
			
 
				         self.sample_rate = sample_rate
			
 
				         self.hop_length = hop_length
			
 
				         self.slice_frames = slice_frames
			
--- a/fish_speech/models/vq_diffusion/lit_module.py
+++ b/fish_speech/models/vq_diffusion/lit_module.py
@@ -99,8 +99,11 @@ class VQDiffusion(L.LightningModule):
 
				         # Generator and discriminators
			
 
				         self.mel_transform = mel_transform
			
 
				         self.feature_mel_transform = feature_mel_transform
			
 
				-        self.noise_scheduler_train = DDIMScheduler(num_train_timesteps=1000)
			
 
				-        self.noise_scheduler_infer = UniPCMultistepScheduler(num_train_timesteps=1000)
			
 
				+        self.noise_scheduler = DDIMScheduler(
			
 
				+            num_train_timesteps=1000,
			
 
				+            clip_sample=False,
			
 
				+            beta_end=0.01,
			
 
				+        )
			
 
				 
			
 
				         # Modules
			
 
				         self.vq_encoder = vq_encoder
			
@@ -193,14 +196,14 @@ class VQDiffusion(L.LightningModule):
 
				         # Sample a random timestep for each image
			
 
				         timesteps = torch.randint(
			
 
				             0,
			
 
				-            self.noise_scheduler_train.config.num_train_timesteps,
			
 
				+            self.noise_scheduler.config.num_train_timesteps,
			
 
				             (normalized_gt_mels.shape[0],),
			
 
				             device=normalized_gt_mels.device,
			
 
				         ).long()
			
 
				 
			
 
				         # Add noise to the clean images according to the noise magnitude at each timestep
			
 
				         # (this is the forward diffusion process)
			
 
				-        noisy_images = self.noise_scheduler_train.add_noise(
			
 
				+        noisy_images = self.noise_scheduler.add_noise(
			
 
				             normalized_gt_mels, noise, timesteps
			
 
				         )
			
 
				 
			
@@ -279,9 +282,9 @@ class VQDiffusion(L.LightningModule):
 
				 
			
 
				         # Begin sampling
			
 
				         sampled_mels = torch.randn_like(gt_mels)
			
 
				-        self.noise_scheduler_infer.set_timesteps(100)
			
 
				+        self.noise_scheduler.set_timesteps(50)
			
 
				 
			
 
				-        for t in tqdm(self.noise_scheduler_infer.timesteps):
			
 
				+        for t in tqdm(self.noise_scheduler.timesteps):
			
 
				             timesteps = torch.tensor([t], device=sampled_mels.device, dtype=torch.long)
			
 
				 
			
 
				             # 1. predict noise model_output
			
@@ -290,7 +293,7 @@ class VQDiffusion(L.LightningModule):
 
				             )
			
 
				 
			
 
				             # 2. compute previous image: x_t -> x_t-1
			
 
				-            sampled_mels = self.noise_scheduler_infer.step(
			
 
				+            sampled_mels = self.noise_scheduler.step(
			
 
				                 model_output, t, sampled_mels
			
 
				             ).prev_sample