OliverSlivka
/

temp-sft-script

Model card Files Files and versions

xet

Community

OliverSlivka commited on Dec 16, 2025

Commit

886cfc7

verified ·

1 Parent(s): 6b88641

Upload run_sft_job.py with huggingface_hub

Browse files

Files changed (1) hide show

run_sft_job.py +26 -15

run_sft_job.py CHANGED Viewed

@@ -39,25 +39,27 @@ from trl import SFTTrainer, SFTConfig
-def format_chat_template(example):
-    # This function is used to create a single string from the chat messages.
-    # It mimics the format used by the chat templates in the TRL library.
-    text = ""
-    for message in example["messages"]:
-        role = message["role"]
-        content = message["content"]
-        text += f"**{role.capitalize()}:** {content}\n\n"
-    return {"text": text}
 # 1. Load Dataset
 print("📦 Loading dataset OliverSlivka/itemsety-real-training...")
-dataset = load_dataset("OliverSlivka/itemsety-real-training")
-# Apply the formatting function to create the 'text' column
-dataset = dataset.map(format_chat_template)
-train_dataset = dataset["train"]
-eval_dataset = dataset["validation"]
 print(f"✅ Dataset loaded and formatted. Train: {len(train_dataset)}, Eval: {len(eval_dataset)}")
 # 2. Training Configuration
@@ -113,6 +115,7 @@ trainer = SFTTrainer(
     eval_dataset=eval_dataset,  # CRITICAL: Must provide eval_dataset when eval_strategy is enabled
     args=config,
     peft_config=peft_config,
 )
 # 5. Start Training
@@ -122,3 +125,11 @@ trainer.train()
 print("✅ Training complete!")
 print(f"💾 Model pushed to Hub at: https://huggingface.co/{config.hub_model_id}")
 print("📊 View metrics at: https://huggingface.co/spaces/OliverSlivka/trackio")

+from datasets import Dataset
 # 1. Load Dataset
 print("📦 Loading dataset OliverSlivka/itemsety-real-training...")
+original_dataset = load_dataset("OliverSlivka/itemsety-real-training")
+def format_dataset(dataset):
+    # Manually create a new dataset with a 'text' column.
+    new_data = {"text": []}
+    for example in dataset:
+        text = ""
+        for message in example["messages"]:
+            role = message["role"]
+            content = message["content"]
+            text += f"**{role.capitalize()}:** {content}\n\n"
+        new_data["text"].append(text)
+    return Dataset.from_dict(new_data)
+train_dataset = format_dataset(original_dataset["train"])
+eval_dataset = format_dataset(original_dataset["validation"])
 print(f"✅ Dataset loaded and formatted. Train: {len(train_dataset)}, Eval: {len(eval_dataset)}")
 # 2. Training Configuration
     eval_dataset=eval_dataset,  # CRITICAL: Must provide eval_dataset when eval_strategy is enabled
     args=config,
     peft_config=peft_config,
+    dataset_text_field="text",
 )
 # 5. Start Training
 print("✅ Training complete!")
 print(f"💾 Model pushed to Hub at: https://huggingface.co/{config.hub_model_id}")
 print("📊 View metrics at: https://huggingface.co/spaces/OliverSlivka/trackio")
+# 5. Start Training
+print("🚀 Starting training...")
+trainer.train()
+print("✅ Training complete!")
+print(f"💾 Model pushed to Hub at: https://huggingface.co/{config.hub_model_id}")
+print("📊 View metrics at: https://huggingface.co/spaces/OliverSlivka/trackio")