Explorar o código

Reuse cache for different generation size

Lengyue %!s(int64=2) %!d(string=hai) anos
pai
achega
0dafcf373d
Modificáronse 1 ficheiros con 1 adicións e 1 borrados
  1. 1 1
      tools/llama/generate.py

+ 1 - 1
tools/llama/generate.py

@@ -163,7 +163,7 @@ def decode_n_tokens(
     **sampling_kwargs,
 ):
     previous_tokens = torch.zeros(
-        (model.config.num_codebooks + 1, num_new_tokens),
+        (model.config.num_codebooks + 1, model.config.max_seq_len),
         dtype=torch.int,
         device=cur_token.device,
     )