epinfomax
/

vn-function-calling-scripts

epinfomax commited on Dec 26, 2025

Commit

4c821d6

verified ·

1 Parent(s): b41204b

Upload train.py with huggingface_hub

Files changed (1) hide show

train.py CHANGED Viewed

@@ -8,27 +8,27 @@ from trl import SFTTrainer, SFTConfig
 import trackio
 import os
-print("🚀 Starting FunctionGemma 2B Fine-tuning")
 # Load dataset
 dataset = load_dataset("epinfomax/vn-function-calling-dataset", split="train")
 # Training configuration
 config = SFTConfig(
-    output_dir="vn-function-gemma-finetuned",
     push_to_hub=True,
-    hub_model_id="epinfomax/vn-function-gemma-finetuned",
     hub_strategy="every_save",
-    num_train_epochs=3,
-    per_device_train_batch_size=4,
-    gradient_accumulation_steps=4,
-    learning_rate=2e-5,
-    logging_steps=10,
     save_strategy="steps",
     save_steps=50,
     report_to="trackio",
     project="vn-function-calling",
-    run_name="function-gemma-2b-baseline"
 )
 # LoRA configuration
@@ -41,7 +41,7 @@ peft_config = LoraConfig(
 # Initialize and train
 trainer = SFTTrainer(
-    model="google/function-gemma-2b",
     train_dataset=dataset,
     peft_config=peft_config,
     args=config,

 import trackio
 import os
+print("🚀 Starting FunctionGemma 270M Fine-tuning")
 # Load dataset
 dataset = load_dataset("epinfomax/vn-function-calling-dataset", split="train")
 # Training configuration
 config = SFTConfig(
+    output_dir="vn-function-gemma-270m-finetuned",
     push_to_hub=True,
+    hub_model_id="epinfomax/vn-function-gemma-270m-finetuned",
     hub_strategy="every_save",
+    num_train_epochs=5,  # Increased epochs for the smaller model
+    per_device_train_batch_size=8, # Increased batch size for the smaller model
+    gradient_accumulation_steps=2,
+    learning_rate=5e-5, # Slightly higher LR for smaller model
+    logging_steps=5,
     save_strategy="steps",
     save_steps=50,
     report_to="trackio",
     project="vn-function-calling",
+    run_name="function-gemma-270m-v1"
 )
 # LoRA configuration
 # Initialize and train
 trainer = SFTTrainer(
+    model="google/functiongemma-270m-it",
     train_dataset=dataset,
     peft_config=peft_config,
     args=config,