epinfomax
/

vn-function-calling-scripts

Model card Files Files and versions

xet

Community

epinfomax commited on Dec 26, 2025

Commit

f4f43e5

verified ·

1 Parent(s): ef5974f

Upload train.py with huggingface_hub

Browse files

Files changed (1) hide show

train.py +7 -8

train.py CHANGED Viewed

@@ -9,7 +9,7 @@ from transformers import AutoTokenizer
 import trackio
 import os
-print("🚀 Starting FunctionGemma 270M Fine-tuning (V2 with Template Fix)")
 model_id = "google/functiongemma-270m-it"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
@@ -18,8 +18,7 @@ tokenizer = AutoTokenizer.from_pretrained(model_id)
 dataset = load_dataset("epinfomax/vn-function-calling-dataset", split="train")
 def format_conversation(example):
-    # Modern transformers template supports 'tools' argument
-    # We render the template to a string so SFTTrainer doesn't have to guess
     text = tokenizer.apply_chat_template(
         example["messages"],
         tools=example["tools"],
@@ -33,22 +32,21 @@ dataset = dataset.map(format_conversation, remove_columns=dataset.column_names)
 # Training configuration
 config = SFTConfig(
-    dataset_text_field="text", # Use the pre-rendered text
-    max_seq_length=1024,
     output_dir="vn-function-gemma-270m-finetuned",
     push_to_hub=True,
     hub_model_id="epinfomax/vn-function-gemma-270m-finetuned",
     hub_strategy="every_save",
     num_train_epochs=5,
-    per_device_train_batch_size=8,
-    gradient_accumulation_steps=2,
     learning_rate=5e-5,
     logging_steps=5,
     save_strategy="steps",
     save_steps=50,
     report_to="trackio",
     project="vn-function-calling",
-    run_name="function-gemma-270m-v2-fixed"
 )
 # LoRA configuration
@@ -65,6 +63,7 @@ trainer = SFTTrainer(
     train_dataset=dataset,
     peft_config=peft_config,
     args=config,
 )
 trainer.train()

 import trackio
 import os
+print("🚀 Starting FunctionGemma 270M Fine-tuning (V3 - Config Fix)")
 model_id = "google/functiongemma-270m-it"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 dataset = load_dataset("epinfomax/vn-function-calling-dataset", split="train")
 def format_conversation(example):
+    # Pre-render the conversation using the model's chat template
     text = tokenizer.apply_chat_template(
         example["messages"],
         tools=example["tools"],
 # Training configuration
 config = SFTConfig(
+    dataset_text_field="text",
     output_dir="vn-function-gemma-270m-finetuned",
     push_to_hub=True,
     hub_model_id="epinfomax/vn-function-gemma-270m-finetuned",
     hub_strategy="every_save",
     num_train_epochs=5,
+    per_device_train_batch_size=4, # Reduced for stability
+    gradient_accumulation_steps=4,
     learning_rate=5e-5,
     logging_steps=5,
     save_strategy="steps",
     save_steps=50,
     report_to="trackio",
     project="vn-function-calling",
+    run_name="function-gemma-270m-v3-fixed"
 )
 # LoRA configuration
     train_dataset=dataset,
     peft_config=peft_config,
     args=config,
+    max_seq_length=1024, # Moved here from SFTConfig
 )
 trainer.train()