2 lat temu · 2966ba9019
--- a/data_server/src/main.rs
+++ b/data_server/src/main.rs
@@ -106,7 +106,11 @@ impl DataService for MyDataService {
 
				                 .cloned() // Clone each &Sentence to get Sentence
			
 
				                 .collect();
			
 
				 
			
 
				-            Ok(Response::new(SampledData { samples: sentences }))
			
 
				+            Ok(Response::new(SampledData {
			
 
				+                name: group.name.clone(), 
			
 
				+                source: group.source.clone(),
			
 
				+                samples: sentences 
			
 
				+            }))
			
 
				         } else {
			
 
				             Err(Status::internal("Failed to select a group"))
			
 
				         }
			
--- a/fish_speech/configs/text2semantic_finetune_spk.yaml
+++ b/fish_speech/configs/text2semantic_finetune_spk.yaml
@@ -0,0 +1,84 @@
 
				+defaults:
			
 
				+  - base
			
 
				+  - _self_
			
 
				+
			
 
				+project: text2semantic_400m_finetune_spk
			
 
				+max_length: 4096
			
 
				+ckpt_path: results/text2semantic_400m_finetune/checkpoints/step_000010000.ckpt
			
 
				+resume_weights_only: true
			
 
				+
			
 
				+# Lightning Trainer
			
 
				+trainer:
			
 
				+  accumulate_grad_batches: 2
			
 
				+  gradient_clip_val: 1.0
			
 
				+  gradient_clip_algorithm: 'norm'
			
 
				+  max_steps: 1000
			
 
				+  precision: bf16-true
			
 
				+  limit_val_batches: 10
			
 
				+
			
 
				+# Dataset Configuration
			
 
				+tokenizer:
			
 
				+  _target_: transformers.AutoTokenizer.from_pretrained
			
 
				+  pretrained_model_name_or_path: fishaudio/speech-lm-v1
			
 
				+
			
 
				+# Dataset Configuration
			
 
				+train_dataset:
			
 
				+  _target_: fish_speech.datasets.text.AutoAugTextDataset
			
 
				+  tokenizer: ${tokenizer}
			
 
				+  max_length: ${max_length}
			
 
				+
			
 
				+val_dataset:
			
 
				+  _target_: fish_speech.datasets.text.AutoAugTextDataset
			
 
				+  tokenizer: ${tokenizer}
			
 
				+  max_length: ${max_length}
			
 
				+
			
 
				+data:
			
 
				+  _target_: fish_speech.datasets.text.TextDataModule
			
 
				+  train_dataset: ${train_dataset}
			
 
				+  val_dataset: ${val_dataset}
			
 
				+  num_workers: 4
			
 
				+  batch_size: 8
			
 
				+  tokenizer: ${tokenizer}
			
 
				+  max_length: ${max_length}
			
 
				+
			
 
				+# Model Configuration
			
 
				+model:
			
 
				+  _target_: fish_speech.models.text2semantic.TextToSemantic
			
 
				+
			
 
				+  model:
			
 
				+    # ~ 130M parameters, for debug purpose
			
 
				+    _target_: fish_speech.models.text2semantic.llama.Transformer
			
 
				+    config:
			
 
				+      _target_: fish_speech.models.text2semantic.llama.ModelArgs
			
 
				+      max_seq_len: 4096
			
 
				+      vocab_size: 36408
			
 
				+      n_layer: 24
			
 
				+      n_head: 16
			
 
				+      dim: 1024
			
 
				+      rope_base: 10000
			
 
				+      norm_eps: 1e-5
			
 
				+      num_codebooks: 4  # single codebook
			
 
				+      codebook_size: 168 # codebook size 160 + 2 special tokens
			
 
				+
			
 
				+  optimizer:
			
 
				+    _target_: torch.optim.AdamW
			
 
				+    _partial_: true
			
 
				+    lr: 1e-4
			
 
				+    weight_decay: 0.1
			
 
				+    betas: [0.9, 0.95]
			
 
				+    eps: 1e-5
			
 
				+
			
 
				+  lr_scheduler:
			
 
				+    _target_: torch.optim.lr_scheduler.LambdaLR
			
 
				+    _partial_: true
			
 
				+    lr_lambda:
			
 
				+      _target_: fish_speech.scheduler.get_cosine_schedule_with_warmup_lr_lambda
			
 
				+      _partial_: true
			
 
				+      num_warmup_steps: 100
			
 
				+      num_training_steps: ${trainer.max_steps}
			
 
				+      final_lr_ratio: 0.1
			
 
				+
			
 
				+# Callbacks
			
 
				+callbacks:
			
 
				+  model_checkpoint:
			
 
				+    every_n_train_steps: 1000
			
--- a/fish_speech/datasets/protos/text-data.proto
+++ b/fish_speech/datasets/protos/text-data.proto
@@ -20,7 +20,9 @@ message TextData {
 
				 }
			
 
				 
			
 
				 message SampledData {
			
 
				-    repeated Sentence samples = 1;
			
 
				+    string source = 1;
			
 
				+    string name = 2;
			
 
				+    repeated Sentence samples = 3;
			
 
				 }
			
 
				 
			
 
				 message SampleDataRequest {
			
--- a/fish_speech/datasets/protos/text_data_pb2.py
+++ b/fish_speech/datasets/protos/text_data_pb2.py
@@ -14,7 +14,7 @@ _sym_db = _symbol_database.Default()
 
				 
			
 
				 
			
 
				 DESCRIPTOR = _descriptor_pool.Default().AddSerializedFile(
			
 
				-    b'\n\x0ftext-data.proto\x12\ttext_data"\x1b\n\tSemantics\x12\x0e\n\x06values\x18\x01 \x03(\r"Q\n\x08Sentence\x12\x0c\n\x04text\x18\x01 \x01(\t\x12\x0e\n\x06phones\x18\x02 \x03(\t\x12\'\n\tsemantics\x18\x03 \x03(\x0b\x32\x14.text_data.Semantics"c\n\x08TextData\x12\x0e\n\x06source\x18\x01 \x01(\t\x12\x0c\n\x04name\x18\x02 \x01(\t\x12\x11\n\tlanguages\x18\x03 \x03(\t\x12&\n\tsentences\x18\x04 \x03(\x0b\x32\x13.text_data.Sentence"3\n\x0bSampledData\x12$\n\x07samples\x18\x01 \x03(\x0b\x32\x13.text_data.Sentence"(\n\x11SampleDataRequest\x12\x13\n\x0bnum_samples\x18\x01 \x01(\r2S\n\x0b\x44\x61taService\x12\x44\n\nSampleData\x12\x1c.text_data.SampleDataRequest\x1a\x16.text_data.SampledData"\x00\x62\x06proto3'
			
 
				+    b'\n\x0ftext-data.proto\x12\ttext_data"\x1b\n\tSemantics\x12\x0e\n\x06values\x18\x01 \x03(\r"Q\n\x08Sentence\x12\x0c\n\x04text\x18\x01 \x01(\t\x12\x0e\n\x06phones\x18\x02 \x03(\t\x12\'\n\tsemantics\x18\x03 \x03(\x0b\x32\x14.text_data.Semantics"c\n\x08TextData\x12\x0e\n\x06source\x18\x01 \x01(\t\x12\x0c\n\x04name\x18\x02 \x01(\t\x12\x11\n\tlanguages\x18\x03 \x03(\t\x12&\n\tsentences\x18\x04 \x03(\x0b\x32\x13.text_data.Sentence"Q\n\x0bSampledData\x12\x0e\n\x06source\x18\x01 \x01(\t\x12\x0c\n\x04name\x18\x02 \x01(\t\x12$\n\x07samples\x18\x03 \x03(\x0b\x32\x13.text_data.Sentence"(\n\x11SampleDataRequest\x12\x13\n\x0bnum_samples\x18\x01 \x01(\r2S\n\x0b\x44\x61taService\x12\x44\n\nSampleData\x12\x1c.text_data.SampleDataRequest\x1a\x16.text_data.SampledData"\x00\x62\x06proto3'
			
 
				 )
			
 
				 
			
 
				 _globals = globals()
			
@@ -29,9 +29,9 @@ if _descriptor._USE_C_DESCRIPTORS == False:
 
				     _globals["_TEXTDATA"]._serialized_start = 142
			
 
				     _globals["_TEXTDATA"]._serialized_end = 241
			
 
				     _globals["_SAMPLEDDATA"]._serialized_start = 243
			
 
				-    _globals["_SAMPLEDDATA"]._serialized_end = 294
			
 
				-    _globals["_SAMPLEDATAREQUEST"]._serialized_start = 296
			
 
				-    _globals["_SAMPLEDATAREQUEST"]._serialized_end = 336
			
 
				-    _globals["_DATASERVICE"]._serialized_start = 338
			
 
				-    _globals["_DATASERVICE"]._serialized_end = 421
			
 
				+    _globals["_SAMPLEDDATA"]._serialized_end = 324
			
 
				+    _globals["_SAMPLEDATAREQUEST"]._serialized_start = 326
			
 
				+    _globals["_SAMPLEDATAREQUEST"]._serialized_end = 366
			
 
				+    _globals["_DATASERVICE"]._serialized_start = 368
			
 
				+    _globals["_DATASERVICE"]._serialized_end = 451
			
 
				 # @@protoc_insertion_point(module_scope)
			
--- a/fish_speech/datasets/text.py
+++ b/fish_speech/datasets/text.py
@@ -181,6 +181,7 @@ class AutoAugTextDataset(IterableDataset):
 
				         repetition_prob: float = 0.0,
			
 
				         max_length: int = 1024,
			
 
				         tokenizer: AutoTokenizer = None,
			
 
				+        use_speaker: bool = True,
			
 
				     ):
			
 
				         """
			
 
				         Args:
			
@@ -199,6 +200,7 @@ class AutoAugTextDataset(IterableDataset):
 
				         self.max_length = max_length
			
 
				         self.tokenizer = tokenizer
			
 
				         self.repetition_prob = repetition_prob
			
 
				+        self.use_speaker = use_speaker
			
 
				 
			
 
				         # Read all lines, and group by speaker
			
 
				         self.channel = grpc.insecure_channel(server)
			
@@ -218,6 +220,8 @@ class AutoAugTextDataset(IterableDataset):
 
				                     for i in phones
			
 
				                 ]
			
 
				             )
			
 
				+        else:
			
 
				+            sentence = clean_text(sentence)
			
 
				 
			
 
				         tokens = self.tokenizer.encode(
			
 
				             f"{sentence}",
			
@@ -268,6 +272,9 @@ class AutoAugTextDataset(IterableDataset):
 
				             final_text.append(text)
			
 
				             final_semantic.append(sentence.semantics)
			
 
				 
			
 
				+        if self.use_speaker is not None:
			
 
				+            final_text = [f"[SPK: {response.name}]"] + final_text
			
 
				+
			
 
				         final_text = "[INST] " + " ".join(final_text) + " [/INST]"
			
 
				         encoded = self.tokenizer.encode(
			
 
				             final_text,
			
@@ -441,15 +448,16 @@ if __name__ == "__main__":
 
				 
			
 
				     from tqdm import tqdm
			
 
				 
			
 
				-    # ds = AutoAugTextDataset(
			
 
				-    #     tokenizer=AutoTokenizer.from_pretrained("fishaudio/speech-lm-v1"),
			
 
				-    # )
			
 
				-
			
 
				-    ds = StreamTextDataset(
			
 
				-        prefix="en/",
			
 
				+    ds = AutoAugTextDataset(
			
 
				         tokenizer=AutoTokenizer.from_pretrained("fishaudio/speech-lm-v1"),
			
 
				+        use_speaker=True,
			
 
				     )
			
 
				 
			
 
				+    # ds = StreamTextDataset(
			
 
				+    #     prefix="en/",
			
 
				+    #     tokenizer=AutoTokenizer.from_pretrained("fishaudio/speech-lm-v1"),
			
 
				+    # )
			
 
				+
			
 
				     dm = TextDataModule(
			
 
				         train_dataset=ds,
			
 
				         val_dataset=ds,
			
--- a/tools/llama/generate.py
+++ b/tools/llama/generate.py
@@ -263,6 +263,7 @@ def encode_tokens(
 
				     prompt_text=None,
			
 
				     prompt_tokens=None,
			
 
				     use_g2p=False,
			
 
				+    speaker=None,
			
 
				 ):
			
 
				     if prompt_text is not None:
			
 
				         string = prompt_text + " " + string
			
@@ -277,6 +278,9 @@ def encode_tokens(
 
				     else:
			
 
				         string = clean_text(string)
			
 
				 
			
 
				+    if speaker is not None:
			
 
				+        string = f"[SPK: {speaker}] {string}"
			
 
				+
			
 
				     string = f"[INST] {string} [/INST]"
			
 
				 
			
 
				     tokens = tokenizer.encode(
			
@@ -373,6 +377,7 @@ def load_model(config_name, checkpoint_path, device, precision):
 
				 @click.option("--compile/--no-compile", default=False)
			
 
				 @click.option("--use-g2p/--no-g2p", default=True)
			
 
				 @click.option("--seed", type=int, default=42)
			
 
				+@click.option("--speaker", type=str, default=None)
			
 
				 def main(
			
 
				     text: str,
			
 
				     prompt_text: Optional[str],
			
@@ -389,6 +394,7 @@ def main(
 
				     compile: bool,
			
 
				     use_g2p: bool,
			
 
				     seed: int,
			
 
				+    speaker: Optional[str],
			
 
				 ) -> None:
			
 
				     device = "cuda"
			
 
				     precision = torch.bfloat16
			
@@ -415,6 +421,7 @@ def main(
 
				         bos=True,
			
 
				         device=device,
			
 
				         use_g2p=use_g2p,
			
 
				+        speaker=speaker,
			
 
				     )
			
 
				     prompt_length = encoded.size(1)
			
 
				     logger.info(f"Encoded prompt shape: {encoded.shape}")