2 лет назад · 6e67ebda73
--- a/fish_speech/datasets/text.py
+++ b/fish_speech/datasets/text.py
@@ -593,7 +593,7 @@ class TextDataCollator:
 
															                     (0, max_tokens_length - tokens_length),
														
 
															                     value=self.tokenizer.eos_token_id,
														
 
															                 )
														
 
															-                _tokens[1:, tokens_length:] = CODEBOOK_EOS_TOKEN_ID
														
 
															+                _tokens[1:, tokens_length:] = CODEBOOK_PAD_TOKEN_ID
														
 
															                 _labels = F.pad(
														
 
															                     _labels, (0, max_tokens_length - _labels.size(1)), value=-100
														
 
															                 )
														
--- a/fish_speech/models/text2semantic/llama.py
+++ b/fish_speech/models/text2semantic/llama.py
@@ -192,9 +192,6 @@ class Transformer(nn.Module):
 
															     ) -> TransformerForwardResult:
														
 
															         # x: (batch, num_codebooks + 1, seq_len)
														
 
															         seq_len = inp.size(2)
														
 
															-
														
 
															-        # For codebook, the decoding is actually shifted by 1
														
 
															-        # Which  is the labels section
														
 
															         codebooks = inp[:, 1:]
														
 
															         # Here we want to merge the embeddings of the codebooks
														
@@ -228,13 +225,20 @@ class Transformer(nn.Module):
 
															         # Drop the last token and rotate left
														
 
															         codebooks = codebooks[:, :-1, 1:]
														
 
															-        codebooks = F.pad(codebooks, (0, 1), value=self.config.codebook_padding_idx)
														
 
															+        codebooks = F.pad(
														
 
															+            codebooks, (0, 1, 1, 0), value=self.config.codebook_padding_idx
														
 
															+        )
														
 
															         codebook_embeddings = self.fast_embeddings(codebooks)
														
 
															-
														
 
															-        x = torch.cat([x[:, None], codebook_embeddings], dim=1)  # (B, N + 1, S, D)
														
 
															+        x = codebook_embeddings + x[:, None]  # (B, N + 1, S, D)
														
 
															         b, s = x.size(0), x.size(2)
														
 
															         x = rearrange(x, "b n s d -> (b s) n d")  # flatten the batch and seq_len
														
 
															+        # Remove padded part
														
 
															+        codebooks = rearrange(codebooks, "b n s -> (b s) n")
														
 
															+        codebook_mask = (codebooks == self.config.codebook_padding_idx).all(dim=-1)
														
 
															+        x_bs, x_len = x.size(0), x.size(1)
														
 
															+        x = x[~codebook_mask]
														
 
															+
														
 
															         for layer in self.fast_layers:
														
 
															             if self.config.use_gradient_checkpointing and self.training:
														
 
															                 x = checkpoint(layer, x, fast_freqs_cis, fast_mask, use_reentrant=True)
														
@@ -244,6 +248,12 @@ class Transformer(nn.Module):
 
															         # unflatten the batch and num_codebooks
														
 
															         fast_out = self.fast_norm(x)
														
 
															         codebook_logits = self.fast_output(fast_out)
														
 
															+
														
 
															+        # Re-pad the codebook_logits
														
 
															+        buffer = torch.zeros(x_bs, x_len, codebook_logits.size(-1), device=x.device)
														
 
															+        buffer[~codebook_mask] = codebook_logits
														
 
															+        codebook_logits = buffer
														
 
															+
														
 
															         assert codebook_logits.shape[1] == self.config.num_codebooks
														
 
															         codebook_logits = rearrange(
														
 
															             codebook_logits,
														
@@ -258,6 +268,22 @@ class Transformer(nn.Module):
 
															             codebook_logits=codebook_logits,
														
 
															         )
														
 
															+    def forward_fast(self, x: Tensor) -> Tensor:
														
 
															+        # Fast transformer
														
 
															+        fast_seq_len = x.shape[1]
														
 
															+        fast_mask = self.causal_mask[
														
 
															+            None, None, :fast_seq_len, :fast_seq_len
														
 
															+        ]  # (B, N, Q, K)
														
 
															+        fast_freqs_cis = self.freqs_cis[:fast_seq_len]
														
 
															+
														
 
															+        for layer in self.fast_layers:
														
 
															+            x = layer(x, fast_freqs_cis, fast_mask)
														
 
															+
														
 
															+        fast_out = self.fast_norm(x)
														
 
															+        codebook_logits = self.fast_output(fast_out)
														
 
															+
														
 
															+        return codebook_logits
														
 
															+
														
 
															     def forward_generate_slow(
														
 
															         self, x: Tensor, input_pos: Optional[Tensor] = None
														
 
															     ) -> Tensor:
														
--- a/tools/llama/generate.py
+++ b/tools/llama/generate.py
@@ -112,9 +112,11 @@ def decode_one_token(
 
															         layer.attention.kv_cache.k_cache.fill_(0)
														
 
															         layer.attention.kv_cache.v_cache.fill_(0)
														
 
															+    buffer = [x.view(1, 1, -1)]
														
 
															     for codebook_idx in range(model.config.num_codebooks):
														
 
															         input_pos = torch.tensor([codebook_idx], device=x.device, dtype=torch.long)
														
 
															         logits = model.forward_generate_fast(x, input_pos)
														
 
															+        # print(x.shape, logits.shape)
														
 
															         a = sample(
														
 
															             logits,
														
 
															             previous_tokens=(
														
@@ -126,6 +128,20 @@ def decode_one_token(
 
															         )[0]
														
 
															         x = model.fast_embeddings(a)
														
 
															         codebooks.append(a)
														
 
															+        # x = torch.cat(buffer, dim=1)
														
 
															+        # logits = model.forward_fast(x)[:, -1:, :]
														
 
															+        # a = sample(
														
 
															+        #     logits,
														
 
															+        #     previous_tokens=(
														
 
															+        #         previous_tokens[codebook_idx + 1]
														
 
															+        #         if previous_tokens is not None
														
 
															+        #         else None
														
 
															+        #     ),
														
 
															+        #     **sampling_kwargs,
														
 
															+        # )[0]
														
 
															+        # x = model.fast_embeddings(a)
														
 
															+        # codebooks.append(a)
														
 
															+        # buffer.append(x.view(1, 1, -1))
														
 
															     return torch.stack(codebooks, dim=0)
														
@@ -135,7 +151,7 @@ def prefill(
 
															 ) -> torch.Tensor:
														
 
															     # input_pos: [B, S]
														
 
															     x, logits = model.forward_generate_slow(x, input_pos)
														
 
															-    print("---", x.shape, logits.shape)
														
 
															+
														
 
															     codebooks = [
														
 
															         sample(
														
 
															             logits,
														
@@ -149,6 +165,7 @@ def prefill(
 
															         layer.attention.kv_cache.k_cache.fill_(0)
														
 
															         layer.attention.kv_cache.v_cache.fill_(0)
														
 
															+    buffer = [x.view(1, 1, -1)]
														
 
															     for codebook_idx in range(model.config.num_codebooks):
														
 
															         input_pos = torch.tensor([codebook_idx], device=x.device, dtype=torch.long)
														
 
															         logits = model.forward_generate_fast(x, input_pos)
														
@@ -160,6 +177,15 @@ def prefill(
 
															         )[0]
														
 
															         x = model.fast_embeddings(a)
														
 
															         codebooks.append(a)
														
 
															+        # x = torch.cat(buffer, dim=1)
														
 
															+        # logits = model.forward_fast(x)[:, -1:, :]
														
 
															+        # a = sample(
														
 
															+        #     logits,
														
 
															+        #     **sampling_kwargs,
														
 
															+        # )[0]
														
 
															+        # x = model.fast_embeddings(a)
														
 
															+        # codebooks.append(a)
														
 
															+        # buffer.append(x.view(1, 1, -1))
														
 
															     return torch.stack(codebooks, dim=0)
														
@@ -211,6 +237,7 @@ def decode_n_tokens(
 
															 @torch.no_grad()
														
 
															+@torch.inference_mode()
														
 
															 def generate(
														
 
															     *,
														
 
															     model: Transformer,
														
@@ -424,7 +451,7 @@ def split_text(text, min_length):
 
															 @click.option("--num-samples", type=int, default=1)
														
 
															 @click.option("--max-new-tokens", type=int, default=0)
														
 
															 @click.option("--top-k", type=int, default=None)
														
 
															-@click.option("--top-p", type=float, default=0.5)
														
 
															+@click.option("--top-p", type=float, default=0.9)
														
 
															 @click.option("--repetition-penalty", type=float, default=1.2)
														
 
															 @click.option("--temperature", type=float, default=0.7)
														
 
															 @click.option(