Qrverse
/

qr-verse-ai-lora

+# /// script
+# requires-python = ">=3.10"
+# dependencies = [
+#     "unsloth",
+#     "datasets>=3.0",
+#     "huggingface_hub>=0.25",
+#     "trl>=0.15",
+#     "transformers>=4.50",
+#     "trackio",
+# ]
+# ///
+"""
+QR-Verse AI — Round 3 Fine-Tuning (HuggingFace Jobs)
+=====================================================
+Round 3: Expanded dataset with 5 new categories:
+- tool_use_advanced: Multi-step tool chains (2-3 tools)
+- multilingual: Native conversations in all 7 locales
+- edge_cases: Adversarial inputs, error handling
+- domain_knowledge: Updated QR types, AI art, pricing
+- site_health: 8 site health monitoring tools
+Changes from Round 2:
+- LoRA rank 32 → 64 (more capacity for 18 tools)
+- ~11,234 total examples (7,454 R2 + 3,780 R3)
+- 18 tools (10 QR core + 8 site health)
+- A100 GPU (HF Pro plan)
+Usage:
+    hf jobs uv run --flavor a100-large --timeout 4h \
+        --secrets HF_TOKEN \
+        https://huggingface.co/Qrverse/qr-verse-ai-lora/resolve/main/train-round3-hf-jobs.py
+"""
+import os
+import json
+import logging
+logging.basicConfig(
+    level=logging.INFO,
+    format="%(asctime)s [%(levelname)s] %(message)s",
+    datefmt="%Y-%m-%d %H:%M:%S",
+)
+logger = logging.getLogger(__name__)
+# ---------------------------------------------------------------------------
+# 1. Configuration
+# ---------------------------------------------------------------------------
+BASE_MODEL = "unsloth/Qwen3-VL-8B-Instruct"
+DATASET_ID = "QRVerse/qr-verse-training-data"
+DATA_FILE = "training-data-round3.jsonl"
+OUTPUT_REPO = "Qrverse/qr-verse-ai-lora"
+# Training hyperparameters
+TRAIN_EPOCHS = int(os.environ.get("TRAIN_EPOCHS", "3"))
+# LoRA configuration — increased rank for 18 tools
+LORA_RANK = 64          # up from 32 in R2
+LORA_ALPHA = 128         # 2x rank
+LORA_DROPOUT = 0.05
+# Training configuration
+LEARNING_RATE = 3e-6     # Lower for R3 (was 5e-6 in R2, 1e-5 in R1)
+BATCH_SIZE = 4           # A100 has more VRAM, can use larger batch
+GRADIENT_ACCUMULATION_STEPS = 4  # effective batch size = 16
+MAX_SEQ_LENGTH = 4096
+WARMUP_RATIO = 0.05
+WEIGHT_DECAY = 0.01
+LOGGING_STEPS = 10
+OUTPUT_DIR = "./qr-verse-lora-output-r3"
+SYSTEM_PROMPT = (
+    "You are QR-Verse AI, a helpful assistant for the QR-Verse platform. "
+    "You help users create, customize, and manage QR codes. You can generate "
+    "QR codes for URLs, WiFi networks, vCards, email, SMS, and 25+ other types. "
+    "You also support AI-powered QR code art generation with 157+ style presets, "
+    "and comprehensive site health monitoring including SSL, SEO, Core Web Vitals, "
+    "broken link scanning, and hreflang validation. "
+    "Always be concise, accurate, and helpful."
+)
+# ---------------------------------------------------------------------------
+# 2. Load base model with Unsloth (4-bit QLoRA)
+# ---------------------------------------------------------------------------
+logger.info("Loading base model: %s (4-bit QLoRA via Unsloth)", BASE_MODEL)
+from unsloth import FastVisionModel
+model, tokenizer = FastVisionModel.from_pretrained(
+    BASE_MODEL,
+    load_in_4bit=True,
+    max_seq_length=MAX_SEQ_LENGTH,
+)
+logger.info("Model loaded. Applying LoRA adapters (rank %d)...", LORA_RANK)
+# ---------------------------------------------------------------------------
+# 3. Apply LoRA adapters (fresh — trains on full R3 dataset)
+# ---------------------------------------------------------------------------
+model = FastVisionModel.get_peft_model(
+    model,
+    r=LORA_RANK,
+    lora_alpha=LORA_ALPHA,
+    lora_dropout=LORA_DROPOUT,
+    target_modules=[
+        "q_proj", "k_proj", "v_proj", "o_proj",
+        "gate_proj", "up_proj", "down_proj",
+    ],
+    bias="none",
+    use_gradient_checkpointing="unsloth",
+    random_state=42,
+)
+trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
+total_params = sum(p.numel() for p in model.parameters())
+logger.info(
+    "LoRA applied: %s trainable / %s total (%.2f%%)",
+    f"{trainable_params:,}", f"{total_params:,}",
+    100.0 * trainable_params / total_params,
+)
+# ---------------------------------------------------------------------------
+# 4. Load Round 3 dataset
+# ---------------------------------------------------------------------------
+logger.info("Loading dataset: %s / %s", DATASET_ID, DATA_FILE)
+from datasets import load_dataset
+dataset = load_dataset(DATASET_ID, data_files=DATA_FILE, split="train")
+logger.info("Dataset loaded: %d examples", len(dataset))
+# ---------------------------------------------------------------------------
+# 5. Format conversations with tokenizer chat template
+# ---------------------------------------------------------------------------
+logger.info("Formatting conversations...")
+def format_conversations(examples):
+    texts = []
+    for messages in examples["messages"]:
+        text = tokenizer.apply_chat_template(
+            messages, tokenize=False, add_generation_prompt=False,
+        )
+        texts.append(text)
+    return {"text": texts}
+dataset = dataset.map(
+    format_conversations, batched=True,
+    remove_columns=dataset.column_names, desc="Applying chat template",
+)
+logger.info("Dataset formatted: %d examples", len(dataset))
+# ---------------------------------------------------------------------------
+# 6. Configure SFTTrainer
+# ---------------------------------------------------------------------------
+logger.info("Configuring SFTTrainer (Round 3)...")
+from trl import SFTTrainer, SFTConfig
+sft_config = SFTConfig(
+    output_dir=OUTPUT_DIR,
+    save_strategy="epoch",
+    num_train_epochs=TRAIN_EPOCHS,
+    per_device_train_batch_size=BATCH_SIZE,
+    gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
+    learning_rate=LEARNING_RATE,
+    lr_scheduler_type="cosine",
+    warmup_ratio=WARMUP_RATIO,
+    weight_decay=WEIGHT_DECAY,
+    bf16=True,
+    fp16=False,
+    max_seq_length=MAX_SEQ_LENGTH,
+    logging_steps=LOGGING_STEPS,
+    logging_first_step=True,
+    report_to="trackio",
+    run_name="qr-verse-ai-round3",
+    dataset_text_field="text",
+    packing=False,
+    push_to_hub=True,
+    hub_model_id=OUTPUT_REPO,
+    hub_strategy="every_save",
+    hub_private_repo=True,
+    seed=42,
+    data_seed=42,
+    remove_unused_columns=True,
+)
+trainer = SFTTrainer(
+    model=model, tokenizer=tokenizer,
+    train_dataset=dataset, args=sft_config,
+)
+logger.info(
+    "SFTTrainer: %d epochs, lr=%.0e, batch=%d (eff=%d), %d examples, LoRA r=%d",
+    TRAIN_EPOCHS, LEARNING_RATE,
+    BATCH_SIZE, BATCH_SIZE * GRADIENT_ACCUMULATION_STEPS,
+    len(dataset), LORA_RANK,
+)
+# ---------------------------------------------------------------------------
+# 7. Train
+# ---------------------------------------------------------------------------
+logger.info("Starting Round 3 training...")
+train_result = trainer.train()
+# ---------------------------------------------------------------------------
+# 8. Log metrics
+# ---------------------------------------------------------------------------
+metrics = train_result.metrics
+logger.info("=" * 60)
+logger.info("ROUND 3 TRAINING COMPLETE")
+logger.info("=" * 60)
+logger.info("  Train loss:     %.4f", metrics.get("train_loss", 0))
+logger.info("  Runtime:        %.1f seconds", metrics.get("train_runtime", 0))
+logger.info("  Samples/sec:    %.2f", metrics.get("train_samples_per_second", 0))
+logger.info("  Epochs:         %d", TRAIN_EPOCHS)
+logger.info("  LoRA rank:      %d", LORA_RANK)
+logger.info("=" * 60)
+# ---------------------------------------------------------------------------
+# 9. Save and push LoRA adapter
+# ---------------------------------------------------------------------------
+LOCAL_ADAPTER_DIR = os.path.join(OUTPUT_DIR, "final-adapter-r3")
+logger.info("Saving LoRA adapter: %s", LOCAL_ADAPTER_DIR)
+model.save_pretrained(LOCAL_ADAPTER_DIR)
+tokenizer.save_pretrained(LOCAL_ADAPTER_DIR)
+logger.info("Pushing Round 3 adapter to Hub: %s", OUTPUT_REPO)
+commit_msg = f"Round 3 LoRA: {len(dataset)} examples, {TRAIN_EPOCHS} epochs, lr {LEARNING_RATE}, rank {LORA_RANK}"
+# Try push_to_hub first, fallback to upload_folder if LFS 403
+try:
+    model.push_to_hub(
+        OUTPUT_REPO, tokenizer=tokenizer,
+        commit_message=commit_msg,
+        private=False,
+    )
+    logger.info("Round 3 adapter pushed via push_to_hub")
+except Exception as e:
+    logger.warning("push_to_hub failed: %s — trying upload_folder fallback...", e)
+    from huggingface_hub import HfApi
+    api = HfApi()
+    api.upload_folder(
+        folder_path=LOCAL_ADAPTER_DIR,
+        repo_id=OUTPUT_REPO,
+        repo_type="model",
+        commit_message=commit_msg,
+    )
+    logger.info("Round 3 adapter pushed via upload_folder fallback")
+logger.info("Round 3 adapter on Hub: https://huggingface.co/%s", OUTPUT_REPO)
+print("\n" + "=" * 60)
+print("ROUND 3 COMPLETE")
+print("=" * 60)
+print(f"  Dataset:    {len(dataset)} examples ({DATA_FILE})")
+print(f"  LoRA:       rank {LORA_RANK}, alpha {LORA_ALPHA}")
+print(f"  LR:         {LEARNING_RATE}")
+print(f"  Final loss: {metrics.get('train_loss', 'N/A')}")
+print(f"  Hub:        https://huggingface.co/{OUTPUT_REPO}")
+print()
+print("Next steps:")
+print("  1. Run convert-gguf-hf-jobs.py (F16 GGUF)")
+print("  2. Run quantize-gguf-hf-jobs.py (Q4_K_M)")
+print("  3. Download Q4_K_M + Modelfile -> ollama create qr-verse-ai")
+print("=" * 60)