2 лет назад · 7f4b9631ab
--- a/tools/vqgan/calculate_kmeans_init.py
+++ b/tools/vqgan/calculate_kmeans_init.py
@@ -0,0 +1,100 @@
 
															+from pathlib import Path
														
 
															+
														
 
															+import click
														
 
															+import numpy as np
														
 
															+import torch
														
 
															+from einops import rearrange, repeat
														
 
															+from torch.utils.data import DataLoader, Dataset
														
 
															+from tqdm import tqdm
														
 
															+from vector_quantize_pytorch.vector_quantize_pytorch import (
														
 
															+    batched_bincount,
														
 
															+    batched_sample_vectors,
														
 
															+    cdist,
														
 
															+)
														
 
															+
														
 
															+
														
 
															+class KMeansDataset(Dataset):
														
 
															+    def __init__(self, filelist):
														
 
															+        root = Path(filelist).parent
														
 
															+
														
 
															+        with open(filelist) as f:
														
 
															+            self.files = f.read().splitlines()
														
 
															+
														
 
															+        self.files = [root / file.strip() for file in self.files]
														
 
															+
														
 
															+    def __len__(self):
														
 
															+        return len(self.files)
														
 
															+
														
 
															+    def __getitem__(self, idx):
														
 
															+        file = self.files[idx]
														
 
															+        feature = np.load(file.with_suffix(".npy"))
														
 
															+        return torch.from_numpy(feature).float()
														
 
															+
														
 
															+    @staticmethod
														
 
															+    def collate_fn(features):
														
 
															+        features = torch.concat(features, dim=0)
														
 
															+        return features
														
 
															+
														
 
															+
														
 
															+@click.command()
														
 
															+@click.option(
														
 
															+    "--filelist",
														
 
															+    type=click.Path(exists=True, path_type=Path),
														
 
															+    default="data/test.filelist",
														
 
															+)
														
 
															+@click.option("--output", type=click.Path(path_type=Path), default="kmeans.pt")
														
 
															+@click.option("--num-clusters", type=int, default=2048)
														
 
															+@click.option("--epochs", type=int, default=10)
														
 
															+def main(filelist: Path, output: Path, num_clusters: int, epochs: int):
														
 
															+    loader = DataLoader(
														
 
															+        KMeansDataset(filelist),
														
 
															+        batch_size=1024,
														
 
															+        shuffle=True,
														
 
															+        num_workers=2,
														
 
															+        collate_fn=KMeansDataset.collate_fn,
														
 
															+    )
														
 
															+
														
 
															+    means = None
														
 
															+    for _ in tqdm(range(epochs), desc="Epochs", position=0):
														
 
															+        total_bins = torch.zeros(1, num_clusters, dtype=torch.int64, device="cuda")
														
 
															+
														
 
															+        for samples in tqdm(loader, desc="Batches", position=1):
														
 
															+            samples = samples.cuda()[None]
														
 
															+            num_codebooks, dim, dtype = (
														
 
															+                samples.shape[0],
														
 
															+                samples.shape[-1],
														
 
															+                samples.dtype,
														
 
															+            )
														
 
															+
														
 
															+            if means is None:
														
 
															+                means = batched_sample_vectors(samples, num_clusters)
														
 
															+
														
 
															+            dists = -cdist(samples, means)
														
 
															+
														
 
															+            buckets = torch.argmax(dists, dim=-1)
														
 
															+            bins = batched_bincount(buckets, minlength=num_clusters)
														
 
															+
														
 
															+            zero_mask = bins == 0
														
 
															+            bins_min_clamped = bins.masked_fill(zero_mask, 1)
														
 
															+
														
 
															+            new_means = buckets.new_zeros(num_codebooks, num_clusters, dim, dtype=dtype)
														
 
															+
														
 
															+            new_means.scatter_add_(1, repeat(buckets, "h n -> h n d", d=dim), samples)
														
 
															+            new_means = new_means / rearrange(bins_min_clamped, "... -> ... 1")
														
 
															+
														
 
															+            means = torch.where(rearrange(zero_mask, "... -> ... 1"), means, new_means)
														
 
															+
														
 
															+            total_bins += bins
														
 
															+
														
 
															+    torch.save(
														
 
															+        {
														
 
															+            "centroids": means,
														
 
															+            "bins": bins,
														
 
															+        },
														
 
															+        output,
														
 
															+    )
														
 
															+    print(f"Saved to {output}")
														
 
															+
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    main()
														
--- a/tools/vqgan/create_train_split.py
+++ b/tools/vqgan/create_train_split.py
@@ -0,0 +1,31 @@
 
															+from pathlib import Path
														
 
															+from random import Random
														
 
															+
														
 
															+import click
														
 
															+from tqdm import tqdm
														
 
															+
														
 
															+from fish_speech.utils.file import AUDIO_EXTENSIONS, list_files
														
 
															+
														
 
															+
														
 
															+@click.command()
														
 
															+@click.argument("root", type=click.Path(exists=True, path_type=Path))
														
 
															+def main(root):
														
 
															+    files = list_files(root, AUDIO_EXTENSIONS, recursive=True, show_progress=True)
														
 
															+    print(f"Found {len(files)} files")
														
 
															+
														
 
															+    files = [str(file) for file in tqdm(files) if file.with_suffix(".npy").exists()]
														
 
															+    print(f"Found {len(files)} files with features")
														
 
															+
														
 
															+    Random(42).shuffle(files)
														
 
															+
														
 
															+    with open(root / "vq_train_filelist.txt", "w") as f:
														
 
															+        f.write("\n".join(files[:-100]))
														
 
															+
														
 
															+    with open(root / "vq_val_filelist.txt", "w") as f:
														
 
															+        f.write("\n".join(files[-100:]))
														
 
															+
														
 
															+    print("Done")
														
 
															+
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    main()