ligaments-dev
/

gemma-telecom-training

ligaments-dev commited on Apr 24

Commit

aa1a19d

verified ·

1 Parent(s): 48301ee

Reduce to 1 epoch, 10k conversations for faster training on larger GPU

Files changed (1) hide show

train.py CHANGED Viewed

@@ -21,7 +21,7 @@ MODEL_ID = "google/gemma-2-2b-it"
 DATASET_ID = "talkmap/telecom-conversation-corpus"
 OUTPUT_DIR = "./gemma-2b-it-telecom"
 HUB_MODEL_ID = "ligaments-dev/gemma-2b-it-telecom"
-MAX_CONVERSATIONS = 50000
 # ------------------------------------------------------------------
 # Trackio monitoring
@@ -94,7 +94,6 @@ for conv_id, turns in conversations.items():
 train_dataset = Dataset.from_list(messages_data)
 print(f"Total conversations: {len(train_dataset)}")
-# Print a sample for debugging
 if len(train_dataset) > 0:
     print("Sample conversation:")
     print(train_dataset[0])
@@ -127,7 +126,7 @@ args = SFTConfig(
     output_dir=OUTPUT_DIR,
     hub_model_id=HUB_MODEL_ID,
     push_to_hub=True,
-    num_train_epochs=3,
     per_device_train_batch_size=1,
     gradient_accumulation_steps=4,
     learning_rate=2e-5,

 DATASET_ID = "talkmap/telecom-conversation-corpus"
 OUTPUT_DIR = "./gemma-2b-it-telecom"
 HUB_MODEL_ID = "ligaments-dev/gemma-2b-it-telecom"
+MAX_CONVERSATIONS = 10000  # cap for faster training
 # ------------------------------------------------------------------
 # Trackio monitoring
 train_dataset = Dataset.from_list(messages_data)
 print(f"Total conversations: {len(train_dataset)}")
 if len(train_dataset) > 0:
     print("Sample conversation:")
     print(train_dataset[0])
     output_dir=OUTPUT_DIR,
     hub_model_id=HUB_MODEL_ID,
     push_to_hub=True,
+    num_train_epochs=1,
     per_device_train_batch_size=1,
     gradient_accumulation_steps=4,
     learning_rate=2e-5,