lokegud
/

comfyui-training-scripts

lokegud commited on Dec 11, 2025

Commit

f4cfc9b

verified ·

1 Parent(s): 69c41e0

Upload train_production.py with huggingface_hub

Files changed (1) hide show

train_production.py CHANGED Viewed

@@ -30,7 +30,10 @@ peft_config = LoraConfig(
     task_type="CAUSAL_LM"
 )
-# Training configuration
 training_args = SFTConfig(
     output_dir="comfyui-specialist-v1",
     num_train_epochs=3,
@@ -38,24 +41,23 @@ training_args = SFTConfig(
     per_device_eval_batch_size=2,
     gradient_accumulation_steps=8,  # Effective batch size: 16
     learning_rate=2e-4,
-    warmup_steps=20,
-    logging_steps=5,
-    eval_strategy="steps",
-    eval_steps=20,
-    save_strategy="steps",
-    save_steps=50,
     save_total_limit=3,
     load_best_model_at_end=True,
     metric_for_best_model="eval_loss",
     greater_is_better=False,
     push_to_hub=True,
     hub_model_id="lokegud/comfyui-specialist-v1",
-    hub_strategy="every_save",
     hub_private_repo=False,
     report_to="trackio",
     project="comfyui-specialist",
     run_name="production-v1",
     gradient_checkpointing=True,
     max_length=2048,  # Longer context for full workflows
     dataset_text_field="messages",  # Chat format
 )

     task_type="CAUSAL_LM"
 )
+# Training configuration - Fixed for 702 examples
+# With 702 examples: 597 train, 105 eval
+# Steps per epoch: 597 / (2 * 8) = ~37 steps/epoch
+# Total steps: 37 * 3 epochs = ~111 steps
 training_args = SFTConfig(
     output_dir="comfyui-specialist-v1",
     num_train_epochs=3,
     per_device_eval_batch_size=2,
     gradient_accumulation_steps=8,  # Effective batch size: 16
     learning_rate=2e-4,
+    warmup_ratio=0.1,  # Warm up for 10% of training (~11 steps)
+    logging_steps=1,  # Log every step
+    eval_strategy="epoch",  # Evaluate after each epoch
+    save_strategy="epoch",  # Save after each epoch
     save_total_limit=3,
     load_best_model_at_end=True,
     metric_for_best_model="eval_loss",
     greater_is_better=False,
     push_to_hub=True,
     hub_model_id="lokegud/comfyui-specialist-v1",
+    hub_strategy="end",  # Only push final model
     hub_private_repo=False,
     report_to="trackio",
     project="comfyui-specialist",
     run_name="production-v1",
     gradient_checkpointing=True,
+    bf16=True,  # Faster training with bf16
     max_length=2048,  # Longer context for full workflows
     dataset_text_field="messages",  # Chat format
 )