Spaces:

Percy3822
/

python_ai_coder

Sleeping

App Files Files Community

Percy3822 commited on Aug 8, 2025

Commit

01be04f

verified ·

1 Parent(s): a0e05b2

Update train.py

Browse files

Files changed (1) hide show

train.py +36 -26

train.py CHANGED Viewed

@@ -1,47 +1,57 @@
 from datasets import load_dataset
 from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling
-model_id = "bigcode/starcoderbase-7b"
-dataset_repo = "Percy3822/python_ai_coder"  # Your HF dataset repo
-# Load dataset
-dataset = load_dataset(dataset_repo, split="train")
-# Load tokenizer and model
-tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
-model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
-# Tokenize
 def tokenize(example):
-    result = tokenizer(example["prompt"] + "\n" + example["completion"], truncation=True, max_length=512)
-    return result
-tokenized = dataset.map(tokenize, remove_columns=["prompt", "completion"])
 data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
-# Training config
-args = TrainingArguments(
-    output_dir="./python-ai-model",
-    per_device_train_batch_size=2,
     gradient_accumulation_steps=4,
-    num_train_epochs=3,
-    logging_steps=50,
-    save_steps=500,
     save_total_limit=2,
-    evaluation_strategy="no",
     fp16=True,
-    push_to_hub=True,
-    hub_model_id="Percy3822/python_ai_coder",
-    hub_token="<your_HF_token_here>"  # Optional if you run in a linked HF Space
 )
 trainer = Trainer(
     model=model,
-    train_dataset=tokenized,
     tokenizer=tokenizer,
-    args=args,
-    data_collator=data_collator,
 )
 trainer.train()
-trainer.push_to_hub()

 from datasets import load_dataset
 from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling
+import os
+# === CONFIG ===
+DATASET_PATH = "python_ai_dataset.jsonl"  # Your .jsonl file
+MODEL_ID = "bigcode/starcoderbase-7b"
+OUTPUT_DIR = "train_output"
+# === Load Dataset ===
+dataset = load_dataset("json", data_files=DATASET_PATH, split="train")
+# === Load Tokenizer and Model ===
+tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained(MODEL_ID, trust_remote_code=True)
+# === Preprocessing ===
 def tokenize(example):
+    return tokenizer(example["prompt"] + "\n" + example["completion"],
+                     truncation=True, max_length=512)
+tokenized_dataset = dataset.map(tokenize, remove_columns=["prompt", "completion"])
+# === Data Collator ===
 data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
+# === Training Arguments ===
+training_args = TrainingArguments(
+    output_dir=OUTPUT_DIR,
+    overwrite_output_dir=True,
+    per_device_train_batch_size=1,
     gradient_accumulation_steps=4,
+    num_train_epochs=2,
+    logging_dir="./logs",
+    logging_steps=10,
+    save_strategy="epoch",
     save_total_limit=2,
     fp16=True,
+    bf16=False,
+    report_to="none",  # Prevent HF integration logs
 )
+# === Trainer ===
 trainer = Trainer(
     model=model,
+    args=training_args,
+    train_dataset=tokenized_dataset,
     tokenizer=tokenizer,
+    data_collator=data_collator
 )
+# === Start Training ===
 trainer.train()
+# === Save Final Model ===
+trainer.save_model(OUTPUT_DIR)
+tokenizer.save_pretrained(OUTPUT_DIR)