1 vuosi sitten · 40665e1a39
--- a/.gitignore
+++ b/.gitignore
@@ -30,3 +30,4 @@ asr-label*
 
															 /example
														
 
															 /faster_whisper
														
 
															 /.gradio
														
 
															+*log
														
--- a/fish_speech/configs/text2semantic_finetune.yaml
+++ b/fish_speech/configs/text2semantic_finetune.yaml
@@ -4,22 +4,25 @@ defaults:
 
															 project: text2semantic_finetune_dual_ar
														
 
															 max_length: 4096
														
 
															-pretrained_ckpt_path: checkpoints/fish-speech-1.4
														
 
															+pretrained_ckpt_path: checkpoints/fish-speech-1.5
														
 
															 # Lightning Trainer
														
 
															 trainer:
														
 
															   accumulate_grad_batches: 1
														
 
															   gradient_clip_val: 1.0
														
 
															   gradient_clip_algorithm: "norm"
														
 
															-  max_steps: 1000
														
 
															+  max_steps: 10000
														
 
															   precision: bf16-true
														
 
															   limit_val_batches: 10
														
 
															   val_check_interval: 100
														
 
															+  # strategy:
														
 
															+  #   find_unused_parameters: true
														
 
															+  #   static_graph: true 
														
 
															 # Dataset Configuration
														
 
															 tokenizer:
														
 
															-  _target_: transformers.AutoTokenizer.from_pretrained
														
 
															-  pretrained_model_name_or_path: ${pretrained_ckpt_path}
														
 
															+  _target_: fish_speech.tokenizer.FishTokenizer
														
 
															+  model_path: ${pretrained_ckpt_path}/tokenizer.tiktoken
														
 
															 # Dataset Configuration
														
 
															 train_dataset:
														
@@ -47,7 +50,7 @@ data:
 
															   train_dataset: ${train_dataset}
														
 
															   val_dataset: ${val_dataset}
														
 
															   num_workers: 4
														
 
															-  batch_size: 8
														
 
															+  batch_size: 4
														
 
															   tokenizer: ${tokenizer}
														
 
															   max_length: ${max_length}
														
--- a/fish_speech/conversation.py
+++ b/fish_speech/conversation.py
@@ -207,35 +207,34 @@ class Conversation:
 
															             tokenizer, add_shift=False, ignore_loss_tokens=ignore_loss_tokens
														
 
															         )
														
 
															-        # Colors for alternating tokens
														
 
															         colors = {
														
 
															-            "blue": "\033[94m",  # Light blue
														
 
															-            "cyan": "\033[96m",  # Cyan
														
 
															-            "green": "\033[92m",  # Light green
														
 
															-            "dark_green": "\033[32m",  # Dark green
														
 
															+            "purple": "\033[95m",
														
 
															+            "yellow": "\033[93m",
														
 
															+            "red": "\033[91m",
														
 
															+            "cyan": "\033[96m",
														
 
															         }
														
 
															-        blue_idx = 0
														
 
															-        green_idx = 0
														
 
															+        first_idx = 0
														
 
															+        second_idx = 0
														
 
															-        def print_in_blue(x):
														
 
															-            nonlocal blue_idx
														
 
															-            color = colors["blue"] if blue_idx % 2 == 0 else colors["cyan"]
														
 
															+        def print_first_group(x):
														
 
															+            nonlocal first_idx
														
 
															+            color = colors["purple"] if first_idx % 2 == 0 else colors["yellow"]
														
 
															             print(f"{color}{x}\033[0m", end="")
														
 
															-            blue_idx += 1
														
 
															+            first_idx += 1
														
 
															-        def print_in_green(x):
														
 
															-            nonlocal green_idx
														
 
															-            color = colors["green"] if green_idx % 2 == 0 else colors["dark_green"]
														
 
															+        def print_second_group(x):
														
 
															+            nonlocal second_idx
														
 
															+            color = colors["red"] if second_idx % 2 == 0 else colors["cyan"]
														
 
															             print(f"{color}{x}\033[0m", end="")
														
 
															-            green_idx += 1
														
 
															+            second_idx += 1
														
 
															         for tok, lab in zip(encoded.tokens, encoded.labels):
														
 
															             val = tokenizer.decode([tok])
														
 
															             if lab == -100:
														
 
															-                print_in_green(val)
														
 
															+                print_second_group(val)
														
 
															             else:
														
 
															-                print_in_blue(val)
														
 
															+                print_first_group(val)
														
 
															         print()
														
--- a/fish_speech/datasets/semantic.py
+++ b/fish_speech/datasets/semantic.py
@@ -14,12 +14,18 @@ from huggingface_hub import HfApi
 
															 from lightning import LightningDataModule
														
 
															 from torch.distributed import get_rank, get_world_size, is_initialized
														
 
															 from torch.utils.data import DataLoader, IterableDataset, get_worker_info
														
 
															-from transformers import AutoTokenizer
														
 
															-from fish_speech.conversation import CODEBOOK_PAD_TOKEN_ID
														
 
															+from fish_speech.conversation import (
														
 
															+    CODEBOOK_PAD_TOKEN_ID,
														
 
															+    Conversation,
														
 
															+    Message,
														
 
															+    TextPart,
														
 
															+    VQPart,
														
 
															+)
														
 
															 from fish_speech.datasets.protos.text_data_pb2 import SampledData
														
 
															 from fish_speech.datasets.protos.text_data_stream import read_pb_stream
														
 
															 from fish_speech.text.clean import clean_text
														
 
															+from fish_speech.tokenizer import FishTokenizer
														
 
															 from fish_speech.utils import RankedLogger
														
 
															 from fish_speech.utils.braceexpand import braceexpand
														
@@ -73,7 +79,7 @@ class AutoTextSemanticInstructionDataset(IterableDataset):
 
															         seed: int = 42,
														
 
															         interactive_prob: float = 0.5,
														
 
															         max_length: int = 1024,
														
 
															-        tokenizer: AutoTokenizer = None,
														
 
															+        tokenizer: FishTokenizer = None,
														
 
															         use_speaker: bool | float = True,
														
 
															         causal: bool = True,
														
 
															         num_codebooks: Optional[int] = None,
														
@@ -106,9 +112,12 @@ class AutoTextSemanticInstructionDataset(IterableDataset):
 
															         self.num_codebooks = num_codebooks
														
 
															         self.skip_text_prob = skip_text_prob
														
 
															-        self.semantic_token_id = self.tokenizer.convert_tokens_to_ids("<|semantic|>")
														
 
															         self.groups = None
														
 
															+    def __iter__(self):
														
 
															+        while True:
														
 
															+            yield self.augment()
														
 
															+
														
 
															     def init_mock_data_server(self):
														
 
															         if self.groups is not None:
														
 
															             return
														
@@ -148,20 +157,6 @@ class AutoTextSemanticInstructionDataset(IterableDataset):
 
															         Random(self.seed).shuffle(self.groups)
														
 
															         self.group_weights = [len(i.sentences) for i in self.groups]
														
 
															-    def __iter__(self):
														
 
															-        while True:
														
 
															-            yield self.augment()
														
 
															-
														
 
															-    def tokenize_sentence(self, sentence: str):
														
 
															-        sentence = clean_text(sentence)
														
 
															-        tokens = self.tokenizer.encode(
														
 
															-            f"{sentence}",
														
 
															-            max_length=10**6,
														
 
															-            add_special_tokens=False,
														
 
															-            truncation=False,
														
 
															-        )
														
 
															-        return sentence, len(tokens)
														
 
															-
														
 
															     def sample_data(self):
														
 
															         if self.groups is None:
														
 
															             self.init_mock_data_server()
														
@@ -190,155 +185,119 @@ class AutoTextSemanticInstructionDataset(IterableDataset):
 
															             samples=samples,
														
 
															         )
														
 
															-    def augment(self):
														
 
															-        final_text, final_semantic = [], []
														
 
															-        response = self.sample_data()
														
 
															-        if len(response.samples) == 0:
														
 
															-            # Invalid group
														
 
															-            return None
														
 
															-
														
 
															-        samples = list(response.samples)
														
 
															-        idx = 0
														
 
															-        use_interactive = random.random() < self.interactive_prob
														
 
															-
														
 
															-        if use_interactive is False:
														
 
															-            # Random sample based on speaker using a truncated normal distribution
														
 
															-            a = torch.tensor([0], dtype=torch.float32)
														
 
															-            torch.nn.init.trunc_normal_(
														
 
															-                a,
														
 
															-                mean=self.max_length // 2,
														
 
															-                std=self.max_length // 4,
														
 
															-                a=10,
														
 
															-                b=self.max_length,
														
 
															-            )
														
 
															-            remaining_tokens = a.long().item() - 4
														
 
															-        else:
														
 
															-            remaining_tokens = self.max_length
														
 
															-
														
 
															-        # Use speaker
														
 
															-        if isinstance(self.use_speaker, float):
														
 
															-            use_speaker = random.random() < self.use_speaker
														
 
															-        else:
														
 
															-            use_speaker = self.use_speaker
														
 
															-
														
 
															-        all_tokens, all_labels = [], []
														
 
															-        while remaining_tokens > 0 and len(samples) > 0:
														
 
															-            sentence = samples.pop(0)
														
 
															-
														
 
															-            text = random.choice(sentence.texts)
														
 
															-            text, length = self.tokenize_sentence(text)
														
 
															-            remaining_tokens -= length + len(sentence.semantics[0].values)
														
 
															-
														
 
															-            if use_interactive is False:
														
 
															-                final_text.append(text)
														
 
															-                final_semantic.append(sentence.semantics)
														
 
															-            else:
														
 
															-                # For interactive mode, we only apply speaker for the first sentence
														
 
															-                # [INST] [SPK: speaker] text [/INST] ... [INST] text [/INST]
														
 
															-                tokens, labels = self.pack_sentences(
														
 
															-                    sentences=[text],
														
 
															-                    semantics=[sentence.semantics],
														
 
															-                    speaker=response.name if use_speaker else None,
														
 
															-                    skip_text=random.random() < self.skip_text_prob,
														
 
															-                )
														
 
															-
														
 
															-                all_tokens.append(tokens)
														
 
															-                all_labels.append(labels)
														
 
															-
														
 
															-            idx += 1
														
 
															-
														
 
															-        if use_interactive is False:
														
 
															-            tokens, labels = self.pack_sentences(
														
 
															-                final_text,
														
 
															-                semantics=final_semantic,
														
 
															-                speaker=response.name if use_speaker else None,
														
 
															-            )
														
 
															-            all_tokens.append(tokens)
														
 
															-            all_labels.append(labels)
														
 
															-
														
 
															-        tokens = torch.cat(all_tokens, dim=1)
														
 
															-        labels = torch.cat(all_labels, dim=1)
														
 
															-
														
 
															-        # Verify that the length is correct
														
 
															-        assert tokens.size(1) == labels.size(1), f"{tokens.size(1)} != {labels.size(1)}"
														
 
															-
														
 
															-        data = {"tokens": tokens, "labels": labels}
														
 
															-
														
 
															-        return data
														
 
															-
														
 
															     def pack_sentences(
														
 
															         self,
														
 
															         sentences: list[str],
														
 
															         semantics: list,
														
 
															-        speaker: Optional[str] = None,
														
 
															+        # speaker: Optional[str] = None,
														
 
															         skip_text: bool = False,
														
 
															     ):
														
 
															-        if speaker is None:
														
 
															-            speaker = "assistant"
														
 
															+        # if speaker is None:
														
 
															+        #     speaker = "assistant"
														
 
															+
														
 
															+        messages = [
														
 
															+            Message(
														
 
															+                role="system",
														
 
															+                parts=[TextPart(text="Speak out the provided text.")],
														
 
															+                # add_im_end=False,
														
 
															+                # cal_loss=True,
														
 
															+            )
														
 
															+        ]
														
 
															         cated_sentences = " ".join(sentences)
														
 
															         if skip_text:
														
 
															             cated_sentences = "<|skip_text|>"
														
 
															-        final_text = "<|im_start|>user\n" + cated_sentences + "<|im_end|>"
														
 
															-        final_text = final_text + f"<|im_start|>{speaker}\n"
														
 
															+        messages.append(
														
 
															+            Message(
														
 
															+                role="user",
														
 
															+                parts=[TextPart(text=cated_sentences)],
														
 
															+                # cal_loss=True,
														
 
															+            )
														
 
															+        )
														
 
															-        encoded = self.tokenizer.encode(
														
 
															-            final_text,
														
 
															-            add_special_tokens=False,
														
 
															-            truncation=False,
														
 
															-            max_length=10**6,
														
 
															+        vq_codes = [x.values for x in semantics[0]]
														
 
															+        vq_codes_tensor = torch.tensor(vq_codes).to(torch.int32)
														
 
															+        vqpart = VQPart(codes=vq_codes_tensor)
														
 
															+        messages.append(
														
 
															+            Message(
														
 
															+                role="assistant",
														
 
															+                parts=[TextPart(text="<|voice|>"), vqpart],
														
 
															+                cal_loss=True,
														
 
															+            )
														
 
															         )
														
 
															-        semantic_length = sum([len(i[0].values) for i in semantics])
														
 
															-        prompt_length = len(encoded)
														
 
															+
														
 
															         num_codebooks = (
														
 
															             len(semantics[0]) if self.num_codebooks is None else self.num_codebooks
														
 
															         )
														
 
															-        # Pack the tokens and semantics (add <s> and </s> to semantic tokens)
														
 
															-        tokens = (
														
 
															-            encoded
														
 
															-            + [self.semantic_token_id] * semantic_length
														
 
															-            + self.tokenizer.convert_tokens_to_ids(["<|im_end|>"])
														
 
															+        conversation = Conversation(messages=messages)
														
 
															+        # conversation.visualize(tokenizer=self.tokenizer)
														
 
															+        encoded = conversation.encode(
														
 
															+            tokenizer=self.tokenizer,
														
 
															         )
														
 
															-        # Codebook bos/padding: 0, eos: 1
														
 
															-        codes = [[CODEBOOK_PAD_TOKEN_ID] * prompt_length for _ in range(num_codebooks)]
														
 
															-        for segment in semantics:
														
 
															-            for book_idx, book in zip(range(num_codebooks), segment):
														
 
															-                for j in book.values:
														
 
															-                    codes[book_idx].append(int(j) + 1)
														
 
															+        tokens_raw = encoded.tokens
														
 
															+        tokens = torch.zeros((num_codebooks + 1, len(tokens_raw)), dtype=torch.int)
														
 
															+        tokens[0] = tokens_raw
														
 
															-        for book in codes:
														
 
															-            book.extend([CODEBOOK_PAD_TOKEN_ID] * 1)
														
 
															+        vq_parts = encoded.vq_parts
														
 
															+        vq_parts = [part.to(tokens.device) for part in vq_parts]
														
 
															+        vq_parts = torch.cat(vq_parts, dim=1)
														
 
															+        tokens[1:, encoded.vq_mask_tokens] = vq_parts
														
 
															-        tokens = [tokens] + codes
														
 
															+        labels_raw = encoded.labels
														
 
															+        labels = torch.full((num_codebooks + 1, len(labels_raw)), -100, dtype=torch.int)
														
 
															+        labels[0, :] = labels_raw
														
 
															+        labels[1:, encoded.vq_mask_labels] = vq_parts
														
 
															+        labels[1:, -1:] = CODEBOOK_PAD_TOKEN_ID
														
 
															-        tokens = torch.tensor(tokens, dtype=torch.long)
														
 
															-        labels = tokens.clone()
														
 
															-
														
 
															-        if skip_text:
														
 
															-            # If text is not provided, the sentence is used for condition only, all labels are -100
														
 
															-            torch.fill_(labels, -100)
														
 
															-            return tokens, labels
														
 
															-
														
 
															-        # Mask out the <s> tokens for semantic, predict semantic tokens only
														
 
															-        # Since we don't mask out the input tokens, the language modeling still works
														
 
															-        labels[1:, :prompt_length] = -100
														
 
															-
														
 
															-        tokens = tokens[:, :-1]
														
 
															-        labels = labels[:, 1:]
														
 
															+        tokens = tokens.long()
														
 
															+        labels = labels.long()
														
 
															         # Verify the padding is correct, and the last token is eos
														
 
															-        assert (tokens[1:, :prompt_length] == CODEBOOK_PAD_TOKEN_ID).all()
														
 
															+        assert (tokens[1:, ~(encoded.vq_mask_tokens)] == CODEBOOK_PAD_TOKEN_ID).all()
														
 
															         assert (labels[1:, -1:] == CODEBOOK_PAD_TOKEN_ID).all()
														
 
															         return tokens, labels
														
 
															+    def augment(self):
														
 
															+        response = self.sample_data()
														
 
															+        if len(response.samples) == 0:
														
 
															+            # Invalid group
														
 
															+            return None
														
 
															+
														
 
															+        samples = list(response.samples)
														
 
															+        all_tokens, all_labels = [], []
														
 
															+
														
 
															+        while len(samples) > 0:
														
 
															+            sentence = samples.pop(0)
														
 
															+            text = clean_text(random.choice(sentence.texts))
														
 
															+
														
 
															+            tokens, labels = self.pack_sentences(
														
 
															+                sentences=[text],
														
 
															+                semantics=[sentence.semantics],
														
 
															+                # speaker=response.name if use_speaker else None,
														
 
															+                skip_text=random.random() < self.skip_text_prob,
														
 
															+            )
														
 
															+
														
 
															+            all_tokens.append(tokens)
														
 
															+            all_labels.append(labels)
														
 
															+
														
 
															+        tokens = torch.cat(all_tokens, dim=1)
														
 
															+        labels = torch.cat(all_labels, dim=1)
														
 
															+
														
 
															+        # Verify that the length is correct
														
 
															+        assert tokens.size(1) == labels.size(1), f"{tokens.size(1)} != {labels.size(1)}"
														
 
															+
														
 
															+        data = {"tokens": tokens, "labels": labels}
														
 
															+
														
 
															+        return data
														
 
															+
														
 
															 @dataclass
														
 
															 class TextDataCollator:
														
 
															-    tokenizer: AutoTokenizer
														
 
															+    tokenizer: FishTokenizer
														
 
															     max_length: int = 1024
														
 
															     def __call__(self, examples):
														
@@ -388,7 +347,7 @@ class TextDataCollator:
 
															                 _tokens = F.pad(
														
 
															                     _tokens,
														
 
															                     (0, max_tokens_length - tokens_length),
														
 
															-                    value=self.tokenizer.eos_token_id,
														
 
															+                    value=self.tokenizer.get_token_id("<|end_of_text|>"),
														
 
															                 )
														
 
															                 _tokens[1:, tokens_length:] = CODEBOOK_PAD_TOKEN_ID
														
 
															                 _labels = F.pad(
														
@@ -446,7 +405,7 @@ class SemanticDataModule(LightningDataModule):
 
															         train_dataset: Union[AutoTextSemanticInstructionDataset, InterleaveDataset],
														
 
															         val_dataset: Union[AutoTextSemanticInstructionDataset, InterleaveDataset],
														
 
															         batch_size: int = 32,
														
 
															-        tokenizer: AutoTokenizer = None,
														
 
															+        tokenizer: FishTokenizer = None,
														
 
															         max_length: int = 1024,
														
 
															         num_workers: int = 4,
														
 
															     ):
														
@@ -483,14 +442,13 @@ if __name__ == "__main__":
 
															     ds = AutoTextSemanticInstructionDataset(
														
 
															         ["data/protos"],
														
 
															-        tokenizer=AutoTokenizer.from_pretrained("fishaudio/fish-speech-1"),
														
 
															+        tokenizer=FishTokenizer("checkpoints/fish-speech-1.5/tokenizer.tiktoken"),
														
 
															         use_speaker=False,
														
 
															         interactive_prob=1.0,
														
 
															         skip_text_prob=0.5,
														
 
															     )
														
 
															     for i in ds:
														
 
															-        print(ds.tokenizer.decode(i["tokens"][0], skip_special_tokens=False))
														
 
															-        # i["labels"][0][i["labels"][0] == -100] = 0
														
 
															-        # print(ds.tokenizer.decode(i["labels"][0], skip_special_tokens=False))
														
 
															+        # Please uncomment line 235 to visualize the tokenized message
														
 
															+        print(i)
														
 
															         break
														
--- a/fish_speech/models/text2semantic/llama.py
+++ b/fish_speech/models/text2semantic/llama.py
@@ -167,7 +167,7 @@ class BaseTransformer(nn.Module):
 
															     def __init__(
														
 
															         self,
														
 
															         config: BaseModelArgs,
														
 
															-        tokenizer: FishTokenizer | AutoTokenizer,
														
 
															+        tokenizer: FishTokenizer,
														
 
															         init_weights: bool = True,
														
 
															     ) -> None:
														
 
															         super().__init__()
														
@@ -246,17 +246,24 @@ class BaseTransformer(nn.Module):
 
															                 dtype=dtype,
														
 
															             )
														
 
															-    def embed(self, x: Tensor) -> Tensor:
														
 
															-        vocab_embeds = [self.embeddings(x[:, 0])]
														
 
															+    def embed(self, inp: Tensor, share_codebook_embeddings=True) -> Tensor:
														
 
															+        embeds = []
														
 
															+        semantic_token_ids_tensor = torch.tensor(
														
 
															+            self.semantic_token_ids, device=inp.device
														
 
															+        )
														
 
															+
														
 
															         for i in range(self.config.num_codebooks):
														
 
															-            emb = self.codebook_embeddings(x[:, i + 1] + i * self.config.codebook_size)
														
 
															-            semantic_token_ids_tensor = torch.tensor(
														
 
															-                self.semantic_token_ids, device=x.device
														
 
															-            )
														
 
															-            emb[~torch.isin(x[:, 0], semantic_token_ids_tensor)] = 0
														
 
															+            if share_codebook_embeddings:
														
 
															+                emb = self.codebook_embeddings(
														
 
															+                    inp[:, i + 1] + i * self.config.codebook_size
														
 
															+                )
														
 
															+            else:
														
 
															+                emb = self.codebook_embeddings(inp[:, i + 1])
														
 
															+            embeds.append(emb)
														
 
															-        x = torch.stack(vocab_embeds, dim=3)
														
 
															-        x = x.sum(dim=3)
														
 
															+        vq_embeds_sum = torch.stack(embeds, dim=1).sum(dim=1)
														
 
															+        vq_embeds_sum[~torch.isin(inp[:, 0], semantic_token_ids_tensor)] = 0
														
 
															+        x = self.embeddings(inp[:, 0]) + vq_embeds_sum
														
 
															         return x
														
@@ -277,8 +284,14 @@ class BaseTransformer(nn.Module):
 
															         # To maintain consistency, key_padding_mask use TRUE to mask out
														
 
															         mask = None
														
 
															         if key_padding_mask is not None:
														
 
															-            mask = self.causal_mask[None, None, :seq_len, :seq_len]  # (B, N, Q, K)
														
 
															-            mask = mask & key_padding_mask[:, None, None, :].logical_not()
														
 
															+            causal = self.causal_mask[:seq_len, :seq_len]
														
 
															+            causal = rearrange(causal, "q k -> 1 1 q k")
														
 
															+
														
 
															+            atten_mask = rearrange(key_padding_mask, "b s -> b 1 1 s")
														
 
															+            atten_mask = atten_mask.logical_not()
														
 
															+            mask = causal & atten_mask
														
 
															+
														
 
															+        # return freqs_cis, mask
														
 
															         for layer in self.layers:
														
 
															             if self.config.use_gradient_checkpointing and self.training:
														
@@ -303,36 +316,12 @@ class BaseTransformer(nn.Module):
 
															         self,
														
 
															         inp: Tensor,
														
 
															         input_pos: Optional[Tensor] = None,
														
 
															-        vq_masks: Optional[Tensor] = None,  # this is not used in fact
														
 
															         return_all: bool = False,
														
 
															     ) -> BaseTransformerForwardResult:
														
 
															-        # This is used for generation, optimized for torch compile
														
 
															-        # assert (
														
 
															-        #     self.max_seq_len != -1 and self.max_batch_size != -1
														
 
															-        # ), "Please call setup_caches before forward_generate"
														
 
															-
														
 
															-        embeds = []
														
 
															-        for i in range(self.config.num_codebooks):
														
 
															-            if self.config.share_codebook_embeddings:
														
 
															-                _tokens = inp[:, i + 1] + i * self.config.codebook_size
														
 
															-            else:
														
 
															-                _tokens = inp[:, i + 1]
														
 
															-
														
 
															-            emb = self.codebook_embeddings(_tokens)
														
 
															-            embeds.append(emb)
														
 
															-
														
 
															-        vq_embeds_sum = torch.stack(embeds, dim=1).sum(dim=1)
														
 
															-        # if self.config.use_codebook_mlp:
														
 
															-        #     vq_embeds_sum = vq_embeds_sum / self.config.num_codebooks
														
 
															-        #     vq_embeds_sum = self.codebook_mlp(vq_embeds_sum)
														
 
															-
														
 
															-        vq_masks = (inp[:, 0] >= self.tokenizer.semantic_begin_id) & (
														
 
															-            inp[:, 0] <= self.tokenizer.semantic_end_id
														
 
															+        x = self.embed(
														
 
															+            inp, share_codebook_embeddings=self.config.share_codebook_embeddings
														
 
															         )
														
 
															-        vq_embeds_sum[~vq_masks] = 0
														
 
															-        x = self.embeddings(inp[:, 0]) + vq_embeds_sum
														
 
															-
														
 
															         if input_pos is None:
														
 
															             input_pos = torch.arange(inp.shape[-1], device=x.device)
														
 
															             max_seq_len = inp.shape[-1]
														
@@ -401,11 +390,8 @@ class BaseTransformer(nn.Module):
 
															             case _:
														
 
															                 raise ValueError(f"Unknown model type: {config.model_type}")
														
 
															-        if is_agent:
														
 
															-            tokenizer = AutoTokenizer.from_pretrained(str(path))
														
 
															-        else:
														
 
															-            tokenizer_path = str(path) + "/tokenizer.tiktoken"
														
 
															-            tokenizer = FishTokenizer(tokenizer_path)
														
 
															+        tokenizer_path = str(path) + "/tokenizer.tiktoken"
														
 
															+        tokenizer = FishTokenizer(tokenizer_path)
														
 
															         log.info(f"Loading model from {path}, config: {config}")
														
 
															         model = model_cls(config, tokenizer=tokenizer)
														
@@ -862,6 +848,17 @@ class RMSNorm(nn.Module):
 
															 def precompute_freqs_cis(seq_len: int, n_elem: int, base: int = 10000) -> Tensor:
														
 
															+    """
														
 
															+    Precomputes frequency tensors for complex exponentials (cis)
														
 
															+
														
 
															+    Args:
														
 
															+        seq_len: Length of the sequence for which positional embeddings are needed.
														
 
															+        n_elem: Number of elements in the frequency tensor.
														
 
															+        base: Base value for the frequency scaling (default: 10000).
														
 
															+
														
 
															+    Returns:
														
 
															+        A tensor containing the precomputed frequencies in real and imaginary parts (bfloat16).
														
 
															+    """
														
 
															     freqs = 1.0 / (
														
 
															         base ** (torch.arange(0, n_elem, 2)[: (n_elem // 2)].float() / n_elem)
														
 
															     )
														
--- a/tools/llama/merge_lora.py
+++ b/tools/llama/merge_lora.py
@@ -76,19 +76,20 @@ def merge(lora_config, base_weight, lora_weight, output):
 
															     new_state_dict = torch.load(output / "model.pth", map_location="cpu")
														
 
															     original_keys = set(llama_state_dict_copy.keys())
														
 
															-    merged_keys = set(new_state_dict.keys())
														
 
															-
														
 
															-    assert original_keys == merged_keys, "Keys should be same"
														
 
															+    tolerance = 1e-5
														
 
															     for key in original_keys:
														
 
															         diff_l1 = (new_state_dict[key] - llama_state_dict_copy[key]).abs().sum().item()
														
 
															-        if diff_l1 != 0:
														
 
															+        if diff_l1 > tolerance:
														
 
															+            logger.info(f"Significant difference found in key: {key}")
														
 
															             break
														
 
															-    else:
														
 
															-        logger.error("Merged model is same as the original model")
														
 
															-        exit(1)
														
 
															-    logger.info("Merged model is different from the original model, check passed")
														
 
															+    if diff_l1 <= tolerance:
														
 
															+        logger.warning(
														
 
															+            "Merged model seems identical to the original model. Further validation might be needed."
														
 
															+        )
														
 
															+    else:
														
 
															+        logger.info("Merged model is different from the original model, check passed")
														
 
															 if __name__ == "__main__":