passagereptile455
/

training-scripts

+# /// script
+# dependencies = [
+#     "trl>=0.12.0",
+#     "peft>=0.7.0",
+#     "transformers>=4.36.0",
+#     "accelerate>=0.24.0",
+#     "trackio",
+#     "datasets",
+# ]
+# ///
+"""
+Training with proper dataset formatting
+"""
+import sys
+import traceback
+from datasets import load_dataset, Dataset
+from peft import LoraConfig
+from trl import SFTTrainer, SFTConfig
+from transformers import AutoTokenizer
+import torch
+print("=" * 50)
+print("FIXED TRAINING v5")
+print("=" * 50)
+try:
+    print(f"CUDA: {torch.cuda.is_available()}")
+    # Streaming load
+    print("Streaming codeforces-cots...")
+    streaming_ds = load_dataset(
+        "open-r1/codeforces-cots", split="train", streaming=True
+    )
+    # Collect examples
+    print("Collecting 1000 examples...")
+    examples = []
+    for i, ex in enumerate(streaming_ds):
+        if i >= 1000:
+            break
+        examples.append(ex)
+    print(f"Collected {len(examples)} examples")
+    dataset = Dataset.from_list(examples)
+    print(f"Dataset columns: {dataset.column_names}")
+    # Check messages format
+    print(f"First messages sample: {dataset[0]['messages'][:100]}...")
+    # Load tokenizer
+    print("Loading tokenizer...")
+    tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-0.6B", trust_remote_code=True)
+    if tokenizer.pad_token is None:
+        tokenizer.pad_token = tokenizer.eos_token
+    # Convert messages to text format for SFT
+    def format_messages(example):
+        messages = example["messages"]
+        # Format as simple text
+        text = ""
+        for msg in messages:
+            role = msg.get("role", "user")
+            content = msg.get("content", "")
+            text += f"<|{role}|>\n{content}\n"
+        return {"text": text}
+    print("Formatting dataset...")
+    dataset = dataset.map(format_messages, remove_columns=dataset.column_names)
+    print(f"Formatted. Sample: {dataset[0]['text'][:200]}...")
+    # Config
+    config = SFTConfig(
+        output_dir="qwen3-codeforces",
+        push_to_hub=True,
+        hub_model_id="passagereptile455/qwen3-0.6b-humaneval-job1",
+        hub_strategy="every_save",
+        max_steps=200,
+        per_device_train_batch_size=1,
+        gradient_accumulation_steps=8,
+        learning_rate=5e-6,
+        max_length=512,
+        logging_steps=20,
+        save_strategy="steps",
+        save_steps=100,
+        save_total_limit=1,
+        eval_strategy="no",
+        warmup_ratio=0.1,
+        lr_scheduler_type="cosine",
+        gradient_checkpointing=True,
+        bf16=True,
+        dataset_text_field="text",  # Specify text field
+        report_to="trackio",
+        project="qwen3-humaneval",
+        run_name="job1-v5",
+    )
+    peft_config = LoraConfig(
+        r=8,
+        lora_alpha=16,
+        lora_dropout=0.05,
+        bias="none",
+        task_type="CAUSAL_LM",
+        target_modules=["q_proj", "v_proj"],
+    )
+    print("Creating trainer...")
+    trainer = SFTTrainer(
+        model="Qwen/Qwen3-0.6B",
+        train_dataset=dataset,
+        args=config,
+        peft_config=peft_config,
+    )
+    print("Training (200 steps)...")
+    trainer.train()
+    print("Pushing to Hub...")
+    trainer.push_to_hub()
+    print("=" * 50)
+    print("SUCCESS!")
+    print("=" * 50)
+except Exception as e:
+    print(f"ERROR: {e}")
+    traceback.print_exc()
+    sys.exit(1)