Qrverse
/

qr-verse-ai-lora

+# /// script
+# requires-python = ">=3.10"
+# dependencies = [
+#     "unsloth",
+#     "datasets>=3.0",
+#     "huggingface_hub>=0.25",
+#     "trl>=0.15",
+#     "transformers>=4.50",
+#     "trackio",
+# ]
+# ///
+"""
+QR-Verse AI — Round 2 Fine-Tuning (HuggingFace Jobs)
+=====================================================
+Continues fine-tuning from Round 1 LoRA adapter with expanded dataset:
+- Round 1 base: 7,300 examples
+- ChromaDB knowledge: 41 user-facing knowledge examples
+- AI art quality: ~100 vision/quality gate examples
+Uses `training-data-round2.jsonl` from the dataset repo.
+Usage:
+    hf jobs uv run --flavor a10g-small --timeout 2h \
+        --secrets HF_TOKEN \
+        https://huggingface.co/Qrverse/qr-verse-ai-lora/resolve/main/train-round2-hf-jobs.py
+"""
+import os
+import json
+import logging
+logging.basicConfig(
+    level=logging.INFO,
+    format="%(asctime)s [%(levelname)s] %(message)s",
+    datefmt="%Y-%m-%d %H:%M:%S",
+)
+logger = logging.getLogger(__name__)
+# ---------------------------------------------------------------------------
+# 1. Configuration
+# ---------------------------------------------------------------------------
+BASE_MODEL = "unsloth/Qwen3-VL-8B-Instruct"
+DATASET_ID = "QRVerse/qr-verse-training-data"
+DATA_FILE = "training-data-round2.jsonl"
+OUTPUT_REPO = "Qrverse/qr-verse-ai-lora"
+# Training hyperparameters
+TRAIN_EPOCHS = int(os.environ.get("TRAIN_EPOCHS", "3"))
+# LoRA configuration (same as Round 1 for compatibility)
+LORA_RANK = 32
+LORA_ALPHA = 64
+LORA_DROPOUT = 0.05
+# Training configuration
+LEARNING_RATE = 5e-6  # Lower LR for round 2 (was 1e-5 in Round 1)
+BATCH_SIZE = 2
+GRADIENT_ACCUMULATION_STEPS = 8  # effective batch size = 16
+MAX_SEQ_LENGTH = 4096
+WARMUP_RATIO = 0.05
+WEIGHT_DECAY = 0.01
+LOGGING_STEPS = 10
+OUTPUT_DIR = "./qr-verse-lora-output-r2"
+SYSTEM_PROMPT = (
+    "You are QR-Verse AI, a helpful assistant for the QR-Verse platform. "
+    "You help users create, customize, and manage QR codes. You can generate "
+    "QR codes for URLs, WiFi networks, vCards, email, SMS, and 20+ other types. "
+    "You also support AI-powered QR code art generation with 157+ style presets. "
+    "Always be concise, accurate, and helpful."
+)
+# ---------------------------------------------------------------------------
+# 2. Load base model with Unsloth (4-bit QLoRA)
+# ---------------------------------------------------------------------------
+logger.info("Loading base model: %s (4-bit QLoRA via Unsloth)", BASE_MODEL)
+from unsloth import FastVisionModel
+model, tokenizer = FastVisionModel.from_pretrained(
+    BASE_MODEL,
+    load_in_4bit=True,
+    max_seq_length=MAX_SEQ_LENGTH,
+)
+logger.info("Model loaded. Applying LoRA adapters (fresh — trains on full R2 dataset)...")
+# ---------------------------------------------------------------------------
+# 3. Apply LoRA adapters
+# ---------------------------------------------------------------------------
+model = FastVisionModel.get_peft_model(
+    model,
+    r=LORA_RANK,
+    lora_alpha=LORA_ALPHA,
+    lora_dropout=LORA_DROPOUT,
+    target_modules=[
+        "q_proj", "k_proj", "v_proj", "o_proj",
+        "gate_proj", "up_proj", "down_proj",
+    ],
+    bias="none",
+    use_gradient_checkpointing="unsloth",
+    random_state=42,
+)
+trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
+total_params = sum(p.numel() for p in model.parameters())
+logger.info(
+    "LoRA applied: %s trainable / %s total (%.2f%%)",
+    f"{trainable_params:,}", f"{total_params:,}",
+    100.0 * trainable_params / total_params,
+)
+# ---------------------------------------------------------------------------
+# 4. Load Round 2 dataset
+# ---------------------------------------------------------------------------
+logger.info("Loading dataset: %s / %s", DATASET_ID, DATA_FILE)
+from datasets import load_dataset
+dataset = load_dataset(DATASET_ID, data_files=DATA_FILE, split="train")
+logger.info("Dataset loaded: %d examples", len(dataset))
+# ---------------------------------------------------------------------------
+# 5. Format conversations with tokenizer chat template
+# ---------------------------------------------------------------------------
+logger.info("Formatting conversations...")
+def format_conversations(examples):
+    texts = []
+    for messages in examples["messages"]:
+        text = tokenizer.apply_chat_template(
+            messages, tokenize=False, add_generation_prompt=False,
+        )
+        texts.append(text)
+    return {"text": texts}
+dataset = dataset.map(
+    format_conversations, batched=True,
+    remove_columns=dataset.column_names, desc="Applying chat template",
+)
+logger.info("Dataset formatted: %d examples", len(dataset))
+# ---------------------------------------------------------------------------
+# 6. Configure SFTTrainer
+# ---------------------------------------------------------------------------
+logger.info("Configuring SFTTrainer (Round 2)...")
+from trl import SFTTrainer, SFTConfig
+sft_config = SFTConfig(
+    output_dir=OUTPUT_DIR,
+    save_strategy="epoch",
+    num_train_epochs=TRAIN_EPOCHS,
+    per_device_train_batch_size=BATCH_SIZE,
+    gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
+    learning_rate=LEARNING_RATE,
+    lr_scheduler_type="cosine",
+    warmup_ratio=WARMUP_RATIO,
+    weight_decay=WEIGHT_DECAY,
+    bf16=True,
+    fp16=False,
+    max_seq_length=MAX_SEQ_LENGTH,
+    logging_steps=LOGGING_STEPS,
+    logging_first_step=True,
+    report_to="trackio",
+    run_name="qr-verse-ai-round2",
+    dataset_text_field="text",
+    packing=False,
+    push_to_hub=True,
+    hub_model_id=OUTPUT_REPO,
+    hub_strategy="every_save",
+    hub_private_repo=True,
+    seed=42,
+    data_seed=42,
+    remove_unused_columns=True,
+)
+trainer = SFTTrainer(
+    model=model, tokenizer=tokenizer,
+    train_dataset=dataset, args=sft_config,
+)
+logger.info(
+    "SFTTrainer: %d epochs, lr=%.0e, batch=%d, %d examples",
+    TRAIN_EPOCHS, LEARNING_RATE,
+    BATCH_SIZE * GRADIENT_ACCUMULATION_STEPS, len(dataset),
+)
+# ---------------------------------------------------------------------------
+# 7. Train
+# ---------------------------------------------------------------------------
+logger.info("Starting Round 2 training...")
+train_result = trainer.train()
+# ---------------------------------------------------------------------------
+# 8. Log metrics
+# ---------------------------------------------------------------------------
+metrics = train_result.metrics
+logger.info("=" * 60)
+logger.info("ROUND 2 TRAINING COMPLETE")
+logger.info("=" * 60)
+logger.info("  Train loss:     %.4f", metrics.get("train_loss", 0))
+logger.info("  Runtime:        %.1f seconds", metrics.get("train_runtime", 0))
+logger.info("  Samples/sec:    %.2f", metrics.get("train_samples_per_second", 0))
+logger.info("  Epochs:         %d", TRAIN_EPOCHS)
+logger.info("=" * 60)
+# ---------------------------------------------------------------------------
+# 9. Save and push LoRA adapter
+# ---------------------------------------------------------------------------
+LOCAL_ADAPTER_DIR = os.path.join(OUTPUT_DIR, "final-adapter-r2")
+logger.info("Saving LoRA adapter: %s", LOCAL_ADAPTER_DIR)
+model.save_pretrained(LOCAL_ADAPTER_DIR)
+tokenizer.save_pretrained(LOCAL_ADAPTER_DIR)
+logger.info("Pushing Round 2 adapter to Hub: %s", OUTPUT_REPO)
+model.push_to_hub(
+    OUTPUT_REPO, tokenizer=tokenizer,
+    commit_message=f"Round 2 LoRA: {len(dataset)} examples, {TRAIN_EPOCHS} epochs, lr {LEARNING_RATE}",
+    private=True,
+)
+logger.info("Round 2 adapter pushed: https://huggingface.co/%s", OUTPUT_REPO)
+print("\n" + "=" * 60)
+print("ROUND 2 COMPLETE")
+print("=" * 60)
+print(f"  Dataset:    {len(dataset)} examples ({DATA_FILE})")
+print(f"  LoRA:       rank {LORA_RANK}, alpha {LORA_ALPHA}")
+print(f"  LR:         {LEARNING_RATE}")
+print(f"  Final loss: {metrics.get('train_loss', 'N/A')}")
+print(f"  Hub:        https://huggingface.co/{OUTPUT_REPO}")
+print()
+print("Next steps:")
+print("  1. Run convert-gguf-hf-jobs.py (F16 GGUF)")
+print("  2. Run quantize-gguf-hf-jobs.py (Q4_K_M)")
+print("  3. Download Q4_K_M + Modelfile → ollama create qr-verse-ai")
+print("=" * 60)