2 vuotta sitten · 4640ea7320
--- a/fish_speech/datasets/text.py
+++ b/fish_speech/datasets/text.py
@@ -441,10 +441,10 @@ class AutoAugTextDataset(IterableDataset):
 
				         add_bos: bool = True,
			
 
				     ):
			
 
				         if speaker is not None:
			
 
				-            sentences = [f"[SPK: {speaker}]"] + sentences
			
 
				+            speaker = "assistant"
			
 
				 
			
 
				         final_text = "<|im_start|>user<|im_sep|>" + " ".join(sentences) + "<|im_end|>"
			
 
				-        final_text = final_text + "<|im_start|>assistant<|im_sep|>"
			
 
				+        final_text = final_text + f"<|im_start|>{speaker}<|im_sep|>"
			
 
				 
			
 
				         encoded = self.tokenizer.encode(
			
 
				             final_text,
			
--- a/tools/llama/generate.py
+++ b/tools/llama/generate.py
@@ -292,10 +292,10 @@ def encode_tokens(
 
				     string = clean_text(string)
			
 
				 
			
 
				     if speaker is not None:
			
 
				-        string = f"[SPK: {speaker}] {string}"
			
 
				+        speaker = "assistant"
			
 
				 
			
 
				     string = (
			
 
				-        f"<|im_start|>user<|im_sep|>{string}<|im_end|><|im_start|>assistant<|im_sep|>"
			
 
				+        f"<|im_start|>user<|im_sep|>{string}<|im_end|><|im_start|>{speaker}<|im_sep|>"
			
 
				     )
			
 
				     if bos:
			
 
				         string = f"<|begin_of_sequence|>{string}"