2 years ago · ba1e088246
--- a/fish_speech/configs/llama_finetune.yaml
+++ b/fish_speech/configs/llama_finetune.yaml
@@ -18,12 +18,12 @@ tokenizer:
 
															 # Dataset Configuration
														
 
															 train_dataset:
														
 
															-  - _target_: fish_speech.datasets.text.TextDataset
														
 
															+  - _target_: fish_speech.datasets.text.StreamTextDataset
														
 
															     repo: fishaudio/cn-hubert-25hz-vq
														
 
															     prefix: 'data/train'
														
 
															 val_dataset:
														
 
															-  _target_: fish_speech.datasets.text.TextDataset
														
 
															+  _target_: fish_speech.datasets.text.StreamTextDataset
														
 
															   repo: fishaudio/cn-hubert-25hz-vq
														
 
															   prefix: 'data/test'
														
--- a/fish_speech/configs/llama_pretrain.yaml
+++ b/fish_speech/configs/llama_pretrain.yaml
@@ -28,11 +28,11 @@ tokenizer:
 
															 dataset:
														
 
															   _target_: fish_speech.datasets.text.InterleaveDataset
														
 
															   datasets:
														
 
															-    - _target_: fish_speech.datasets.text.TextDataset
														
 
															+    - _target_: fish_speech.datasets.text.StreamTextDataset
														
 
															       prefix: 'en/'
														
 
															-    - _target_: fish_speech.datasets.text.TextDataset
														
 
															+    - _target_: fish_speech.datasets.text.StreamTextDataset
														
 
															       prefix: 'zh/'
														
 
															-    - _target_: fish_speech.datasets.text.TextDataset
														
 
															+    - _target_: fish_speech.datasets.text.StreamTextDataset
														
 
															       prefix: 'ja/'
														
 
															   probabilities: [0.4, 0.3, 0.3]
														
 
															   seed: 42
														
--- a/fish_speech/datasets/text.py
+++ b/fish_speech/datasets/text.py
@@ -1,26 +1,56 @@
 
															+import json
														
 
															 import random
														
 
															 from dataclasses import dataclass
														
 
															 from itertools import chain
														
 
															+from pathlib import Path
														
 
															 from random import Random
														
 
															 from typing import Optional, Union
														
 
															 import numpy as np
														
 
															 import pyarrow.parquet as pq
														
 
															+import torch
														
 
															 from datasets.download.streaming_download_manager import xopen
														
 
															 from huggingface_hub import HfApi
														
 
															 from lightning import LightningDataModule
														
 
															-from lightning.pytorch.utilities.exceptions import MisconfigurationException
														
 
															 from torch.distributed import get_rank, get_world_size, is_initialized
														
 
															-from torch.utils.data import DataLoader, IterableDataset, get_worker_info
														
 
															+from torch.utils.data import DataLoader, Dataset, IterableDataset, get_worker_info
														
 
															 from transformers import AutoTokenizer
														
 
															+from fish_speech.text import clean_text, g2p
														
 
															 from fish_speech.utils import RankedLogger
														
 
															 from fish_speech.utils.braceexpand import braceexpand
														
 
															 log = RankedLogger(__name__, rank_zero_only=True)
														
 
															-class TextDataset(IterableDataset):
														
 
															+def split_by_rank_worker(files):
														
 
															+    # We need to know the total number of devices
														
 
															+    # to split the data properly
														
 
															+
														
 
															+    total_devices = 1
														
 
															+    if is_initialized():
														
 
															+        total_devices = get_world_size()
														
 
															+
														
 
															+    worker_info = get_worker_info()
														
 
															+    if worker_info is not None:
														
 
															+        total_devices *= worker_info.num_workers
														
 
															+
														
 
															+    if len(files) < total_devices:
														
 
															+        # Repeat the files N times to match the number of devices
														
 
															+        files = files * (total_devices // len(files) + 1)
														
 
															+
														
 
															+    # DDP
														
 
															+    if is_initialized():
														
 
															+        files = files[get_rank() :: get_world_size()]
														
 
															+
														
 
															+    # Split by worker
														
 
															+    if worker_info is not None:
														
 
															+        files = files[worker_info.id :: worker_info.num_workers]
														
 
															+
														
 
															+    return files
														
 
															+
														
 
															+
														
 
															+class StreamTextDataset(IterableDataset):
														
 
															     def __init__(
														
 
															         self,
														
 
															         files: Optional[Union[list[str], str]] = None,
														
@@ -55,34 +85,8 @@ class TextDataset(IterableDataset):
 
															         self.files = sorted(files)
														
 
															         Random(seed).shuffle(self.files)
														
 
															-    def get_data_splits(self, files):
														
 
															-        # We need to know the total number of devices
														
 
															-        # to split the data properly
														
 
															-
														
 
															-        total_devices = 1
														
 
															-        if is_initialized():
														
 
															-            total_devices = get_world_size()
														
 
															-
														
 
															-        worker_info = get_worker_info()
														
 
															-        if worker_info is not None:
														
 
															-            total_devices *= worker_info.num_workers
														
 
															-
														
 
															-        if len(files) < total_devices:
														
 
															-            # Repeat the files N times to match the number of devices
														
 
															-            files = files * (total_devices // len(files) + 1)
														
 
															-
														
 
															-        # DDP
														
 
															-        if is_initialized():
														
 
															-            files = files[get_rank() :: get_world_size()]
														
 
															-
														
 
															-        # Split by worker
														
 
															-        if worker_info is not None:
														
 
															-            files = files[worker_info.id :: worker_info.num_workers]
														
 
															-
														
 
															-        return files
														
 
															-
														
 
															     def __iter__(self):
														
 
															-        files = self.get_data_splits(self.files)
														
 
															+        files = split_by_rank_worker(self.files)
														
 
															         random.shuffle(files)
														
 
															         for filename in files:
														
@@ -106,6 +110,127 @@ class TextDataset(IterableDataset):
 
															                 yield from texts
														
 
															+# @dataclass
														
 
															+# class DatasetLine:
														
 
															+#     text: str
														
 
															+#     semantic: str
														
 
															+#     speaker: str
														
 
															+
														
 
															+
														
 
															+class AutoAugTextDataset(IterableDataset):
														
 
															+    """
														
 
															+    Auto Augment Dataset by Speaker
														
 
															+
														
 
															+    1. Random concatenate multiple sentences from the same speaker to form a longer sentence
														
 
															+    2. Automatically normalize the text
														
 
															+    3. Mix text and phones
														
 
															+    """
														
 
															+
														
 
															+    def __init__(
														
 
															+        self,
														
 
															+        jsonl_files: list[str],
														
 
															+        seed: int = 42,
														
 
															+        phones_prob: float = 0.5,
														
 
															+        max_length: int = 1024,
														
 
															+        order: Optional[list[str]] = None,
														
 
															+        tokenizer: AutoTokenizer = None,
														
 
															+    ):
														
 
															+        super().__init__()
														
 
															+
														
 
															+        self.jsonl_files = jsonl_files
														
 
															+        self.seed = seed
														
 
															+        self.phones_prob = phones_prob
														
 
															+        self.max_length = max_length
														
 
															+        self.order = order
														
 
															+        self.tokenizer = tokenizer
														
 
															+
														
 
															+        # Read all lines, and group by speaker
														
 
															+        self.speakers = {}
														
 
															+        self.lines = []
														
 
															+
														
 
															+        for filename in self.jsonl_files:
														
 
															+            lines = Path(filename).read_text().splitlines()
														
 
															+            for json_line in lines:
														
 
															+                line = json.loads(json_line)
														
 
															+                speaker = line.get("speaker", None)
														
 
															+
														
 
															+                if speaker not in self.speakers:
														
 
															+                    self.speakers[speaker] = []
														
 
															+
														
 
															+                self.lines.append(line)
														
 
															+                self.speakers[speaker].append(line)
														
 
															+
														
 
															+        # Shuffle the lines
														
 
															+        Random(seed).shuffle(self.lines)
														
 
															+
														
 
															+    def __iter__(self):
														
 
															+        lines = split_by_rank_worker(self.lines)
														
 
															+        random.shuffle(lines)
														
 
															+
														
 
															+        for line in lines:
														
 
															+            yield self.augment(line)
														
 
															+
														
 
															+    def tokenize_sentence(
														
 
															+        self, sentence: str, semantic: list[int], mode: str = "sample"
														
 
															+    ):
														
 
															+        sentence = clean_text(sentence)
														
 
															+
														
 
															+        if (
														
 
															+            mode == "sample" and (random.random() < self.phones_prob)
														
 
															+        ) or mode == "phones":
														
 
															+            sentence = " ".join([t for _, t in g2p(sentence, order=self.order)])
														
 
															+
														
 
															+        semantic = " ".join([f"<semantic_{i}>" for i in semantic])
														
 
															+
														
 
															+        tokens = self.tokenizer.encode(
														
 
															+            f"{sentence} {semantic}", max_length=10**6, add_special_tokens=False
														
 
															+        )
														
 
															+        return sentence, semantic, len(tokens)
														
 
															+
														
 
															+    def augment(self, line):
														
 
															+        speaker = line.get("speaker", None)
														
 
															+
														
 
															+        # 20% to pure text or pure phones
														
 
															+        mode = "sample"
														
 
															+        if random.random() < 0.2:
														
 
															+            mode = random.choice(["text", "phones"])
														
 
															+
														
 
															+        if speaker is None:
														
 
															+            a, b, _ = self.tokenize_sentence(line["text"], line["semantic"], mode=mode)
														
 
															+            return {"text": f"[INST] {a} [/INST] {b} </s>"}
														
 
															+
														
 
															+        # Random sample based on speaker using a truncated normal distribution
														
 
															+        a = torch.tensor([0], dtype=torch.float32)
														
 
															+        torch.nn.init.trunc_normal_(
														
 
															+            a,
														
 
															+            mean=self.max_length // 2,
														
 
															+            std=self.max_length // 4,
														
 
															+            a=0,
														
 
															+            b=self.max_length,
														
 
															+        )
														
 
															+        remaining_tokens = a.long().item() - 4
														
 
															+
														
 
															+        final_text, final_semantic = [], []
														
 
															+
														
 
															+        # Shuffle unique lines
														
 
															+        idxs = list(range(len(self.speakers[speaker])))
														
 
															+        random.shuffle(idxs)
														
 
															+
														
 
															+        while remaining_tokens > 0 and len(idxs) > 0:
														
 
															+            line = self.speakers[speaker][idxs.pop()]
														
 
															+            text, semantic, length = self.tokenize_sentence(
														
 
															+                line["text"], line["semantic"], mode=mode
														
 
															+            )
														
 
															+            remaining_tokens -= length
														
 
															+            final_text.append(text)
														
 
															+            final_semantic.append(semantic)
														
 
															+
														
 
															+        final_text = " ".join(final_text)
														
 
															+        final_semantic = " ".join(final_semantic)
														
 
															+
														
 
															+        return {"text": f"[INST] {final_text} [/INST] {final_semantic} </s>"}
														
 
															+
														
 
															+
														
 
															 @dataclass
														
 
															 class TextDataCollator:
														
 
															     tokenizer: AutoTokenizer
														
@@ -164,8 +289,8 @@ class InterleaveDataset(IterableDataset):
 
															 class TextDataModule(LightningDataModule):
														
 
															     def __init__(
														
 
															         self,
														
 
															-        train_dataset: Union[TextDataset, InterleaveDataset],
														
 
															-        val_dataset: Union[TextDataset, InterleaveDataset],
														
 
															+        train_dataset: Union[StreamTextDataset, AutoAugTextDataset, InterleaveDataset],
														
 
															+        val_dataset: Union[StreamTextDataset, AutoAugTextDataset, InterleaveDataset],
														
 
															         batch_size: int = 32,
														
 
															         tokenizer: AutoTokenizer = None,
														
 
															         max_length: int = 1024,
														
@@ -198,26 +323,33 @@ class TextDataModule(LightningDataModule):
 
															 if __name__ == "__main__":
														
 
															-    dm = TextDataModule(
														
 
															-        InterleaveDataset(
														
 
															-            datasets=[
														
 
															-                TextDataset(
														
 
															-                    prefix="en/en_part_",
														
 
															-                ),
														
 
															-                TextDataset(
														
 
															-                    prefix="zh/zh_part_",
														
 
															-                ),
														
 
															-                TextDataset(
														
 
															-                    prefix="ja/ja_part_",
														
 
															-                ),
														
 
															-            ],
														
 
															-            probabilities=[0.8, 0.1, 0.1],
														
 
															-        ),
														
 
															-        TextDataset(
														
 
															-            files="ja/ja_part_{00000..00159}",
														
 
															+    import json
														
 
															+
														
 
															+    # data/Genshin/English/Aabid/vo_KVCOP001_1907808_aabid_01.lab
														
 
															+    # all_files = [i for i in Path("data/Genshin/English").rglob("*.lab")]
														
 
															+    # with open("test.jsonl", "w") as f:
														
 
															+    #     for i in all_files:
														
 
															+    #         wav_file = i.with_suffix(".wav")
														
 
															+    #         duration = float(Path(wav_file).stat().st_size) / 2 / 44100
														
 
															+    #         eta_tokens = duration * 25
														
 
															+    #         fake_tokens = [random.randint(0, 2048) for _ in range(int(eta_tokens))]
														
 
															+    #         f.write(json.dumps({"text": Path(i).read_text(), "speaker": i.parent.name, "semantic": fake_tokens}) + "\n")
														
 
															+
														
 
															+    ds = AutoAugTextDataset(
														
 
															+        jsonl_files=["test.jsonl"],
														
 
															+        order=["en"],
														
 
															+        tokenizer=AutoTokenizer.from_pretrained(
														
 
															+            "fishaudio/speech-lm-300m", revision="text-pretrain-10k-phones"
														
 
															         ),
														
 
															+    )
														
 
															+
														
 
															+    dm = TextDataModule(
														
 
															+        train_dataset=ds,
														
 
															+        val_dataset=ds,
														
 
															+        tokenizer=ds.tokenizer,
														
 
															         batch_size=2,
														
 
															-        tokenizer=AutoTokenizer.from_pretrained("bert-base-multilingual-cased"),
														
 
															+        max_length=1024,
														
 
															+        num_workers=0,
														
 
															     )
														
 
															     for batch in dm.train_dataloader():