Instructions to use my-ai-stack/Stack-2-9-finetuned with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use my-ai-stack/Stack-2-9-finetuned with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="my-ai-stack/Stack-2-9-finetuned")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("my-ai-stack/Stack-2-9-finetuned")
model = AutoModelForCausalLM.from_pretrained("my-ai-stack/Stack-2-9-finetuned")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use my-ai-stack/Stack-2-9-finetuned with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "my-ai-stack/Stack-2-9-finetuned"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "my-ai-stack/Stack-2-9-finetuned",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/my-ai-stack/Stack-2-9-finetuned

SGLang

How to use my-ai-stack/Stack-2-9-finetuned with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "my-ai-stack/Stack-2-9-finetuned" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "my-ai-stack/Stack-2-9-finetuned",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "my-ai-stack/Stack-2-9-finetuned" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "my-ai-stack/Stack-2-9-finetuned",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use my-ai-stack/Stack-2-9-finetuned with Docker Model Runner:
```
docker model run hf.co/my-ai-stack/Stack-2-9-finetuned
```

walidsobhie-code commited on Apr 4

Commit

bfe21f8

1 Parent(s): d863fcd

fix: remove bitsandbytes dependency to fix Kaggle CUDA compatibility

Browse files

- Created train_simple_nobnb.py: same as train_simple but without bitsandbytes
- Updated merge_simple.py: sets PEFT_DISABLE_LOFTQ=1 to avoid bitsandbytes import
- Updated Kaggle notebook (v5) to use no-bitsandbytes training
- Dependencies: removed bitsandbytes from pip install
- This fixes the CUDA setup failures on Kaggle's CUDA 12.8 environment

Training now uses pure float16 (no 4-bit quantization). Should work on T4.

Files changed (3) hide show

kaggle_train_stack29_v5.ipynb +198 -0
merge_simple.py +2 -0
train_simple_nobnb.py +182 -0

kaggle_train_stack29_v5.ipynb ADDED Viewed

	@@ -0,0 +1,198 @@

+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# 🚀 Stack 2.9 - Kaggle Training\n",
+    "\n",
+    "Free GPU training on Kaggle using Qwen2.5-Coder-7B.\n",
+    "\n",
+    "⏱️ **Runtime:** 2-4 hours  |  💾 **VRAM:** ~16GB\n",
+    "\n",
+    "**Setup:**\n",
+    "1. Settings → Accelerator → GPU **T4**\n",
+    "2. Run all cells in order\n",
+    "3. Download merged model from Output tab when done"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Check GPU\n",
+    "!nvidia-smi"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Clone repository\n",
+    "import os, shutil, subprocess\n",
+    "\n",
+    "os.chdir('/kaggle/working')\n",
+    "REPO_DIR = '/kaggle/working/stack-2.9'\n",
+    "OUTPUT_DIR = os.path.join(REPO_DIR, 'training_output')\n",
+    "\n",
+    "if os.path.exists(REPO_DIR):\n",
+    "    shutil.rmtree(REPO_DIR)\n",
+    "subprocess.run(['git', 'clone', 'https://github.com/my-ai-stack/stack-2.9.git', REPO_DIR], check=True)\n",
+    "os.chdir(REPO_DIR)\n",
+    "print('✅ Repo ready:', REPO_DIR)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Install dependencies (no bitsandbytes - avoids CUDA compatibility issues)\n",
+    "!pip install -q torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118\n",
+    "!pip install -q transformers==4.40.0 peft==0.10.0 accelerate==0.34.0 datasets==3.0.0 pyyaml tqdm scipy\n",
+    "print('✅ Dependencies ready')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Prepare training data (auto-detect or synthetic fallback)\n",
+    "import os, json\n",
+    "\n",
+    "REPO_TRAIN_DATA = os.path.join(REPO_DIR, 'training-data/final/train.jsonl')\n",
+    "MINI_DATA_DIR = os.path.join(REPO_DIR, 'data_mini')\n",
+    "MINI_DATA_FILE = os.path.join(MINI_DATA_DIR, 'train_mini.jsonl')\n",
+    "SYNTHETIC_FILE = os.path.join(REPO_DIR, 'data/synthetic.jsonl')\n",
+    "\n",
+    "print('🔍 Data check')\n",
+    "\n",
+    "if os.path.exists(REPO_TRAIN_DATA):\n",
+    "    os.makedirs(MINI_DATA_DIR, exist_ok=True)\n",
+    "    if not os.path.exists(MINI_DATA_FILE):\n",
+    "        print('   Building mini dataset (1K samples) from full data...')\n",
+    "        !python scripts/create_mini_dataset.py --size 1000 --output {MINI_DATA_FILE} --source {REPO_TRAIN_DATA}\n",
+    "    DATA_FILE = MINI_DATA_FILE\n",
+    "    print('   Using mini dataset')\n",
+    "elif os.path.exists(MINI_DATA_FILE):\n",
+    "    DATA_FILE = MINI_DATA_FILE\n",
+    "    print('   Using existing mini dataset')\n",
+    "else:\n",
+    "    print('   Creating synthetic data (last resort)')\n",
+    "    examples = [\n",
+    "        {'instruction': 'Write a Python function to reverse a string', 'output': 'def reverse_string(s):\\n    return s[::-1]'},\n",
+    "        {'instruction': 'Write a function to check if a number is prime', 'output': 'def is_prime(n):\\n    if n <= 1:\\n        return False\\n    for i in range(2, int(n**0.5) + 1):\\n        if n % i == 0:\\n            return False\\n        return True'},\n",
+    "        {'instruction': 'Write a binary search function', 'output': 'def binary_search(arr, target):\\n    left, right = 0, len(arr) - 1\\n    while left <= right:\\n        mid = (left + right) // 2\\n        if arr[mid] == target:\\n            return mid\\n        elif arr[mid] < target:\\n            left = mid + 1\\n        else:\\n            right = mid - 1\\n        return -1'},\n",
+    "    ]\n",
+    "    samples = examples * 333\n",
+    "    os.makedirs(os.path.dirname(SYNTHETIC_FILE), exist_ok=True)\n",
+    "    with open(SYNTHETIC_FILE, 'w') as f:\n",
+    "        for s in samples:\n",
+    "            f.write(json.dumps(s) + '\\n')\n",
+    "    DATA_FILE = SYNTHETIC_FILE\n",
+    "    print(f'   Synthetic dataset: {len(samples)} examples')\n",
+    "\n",
+    "print(f'\\n✅ Data: {DATA_FILE}')\n",
+    "!ls -lh {DATA_FILE}"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Generate training configuration\n",
+    "import yaml\n",
+    "\n",
+    "os.makedirs(OUTPUT_DIR, exist_ok=True)\n",
+    "\n",
+    "config = {\n",
+    "    'model': {'name': 'Qwen/Qwen2.5-Coder-7B', 'trust_remote_code': True, 'torch_dtype': 'float16'},\n",
+    "    'data': {'input_path': DATA_FILE, 'max_length': 2048, 'train_split': 1.0},\n",
+    "    'lora': {'r': 16, 'alpha': 32, 'dropout': 0.05, 'target_modules': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'gate_proj', 'up_proj', 'down_proj'], 'bias': 'none', 'task_type': 'CAUSAL_LM'},\n",
+    "    'training': {'num_epochs': 1, 'batch_size': 2, 'gradient_accumulation': 4, 'learning_rate': 2e-4, 'warmup_steps': 50, 'weight_decay': 0.01, 'max_grad_norm': 1.0, 'logging_steps': 10, 'save_steps': 100, 'save_total_limit': 2, 'fp16': True, 'bf16': False, 'gradient_checkpointing': True},\n",
+    "    'output': {'lora_dir': os.path.join(OUTPUT_DIR, 'lora'), 'logging_dir': os.path.join(OUTPUT_DIR, 'logs')},\n",
+    "    'quantization': {'enabled': False},\n",
+    "    'hardware': {'device': 'cuda', 'num_gpus': 1, 'use_4bit': False, 'use_8bit': False}\n",
+    "}\n",
+    "\n",
+    "config_path = os.path.join(OUTPUT_DIR, 'train_config.yaml')\n",
+    "with open(config_path, 'w') as f:\n",
+    "    yaml.dump(config, f, default_flow_style=False)\n",
+    "\n",
+    "print(f'✅ Config: {config_path}')\n",
+    "print(f\"   Model: {config['model']['name']}\")\n",
+    "print(f\"   Data: {config['data']['input_path']}\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Train (using standalone train_simple_nobnb.py)\n",
+    "print('='*60)\n",
+    "print('STARTING TRAINING')\n",
+    "print('='*60)\n",
+    "\n",
+    "!cd {REPO_DIR} && python train_simple_nobnb.py --config {config_path}\n",
+    "\n",
+    "print('\\n✅ Training step finished')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Merge LoRA adapter into final model\n",
+    "lora_dir = os.path.join(OUTPUT_DIR, 'lora')\n",
+    "merged_dir = os.path.join(OUTPUT_DIR, 'merged')\n",
+    "\n",
+    "print('='*60)\n",
+    "print('MERGING LORA ADAPTER')\n",
+    "print('='*60)\n",
+    "\n",
+    "!cd {REPO_DIR} && python merge_simple.py \\\n",
+    "    --base-model {config['model']['name']} \\\n",
+    "    --adapter-path {lora_dir} \\\n",
+    "    --output-path {merged_dir} \\\n",
+    "    --use-safetensors\n",
+    "\n",
+    "print('\\n✅ Merge complete!')\n",
+    "print(f'Merged model: {merged_dir}')\n",
+    "!ls -lh {merged_dir}"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## 📥 Download Model\n",
+    "\n",
+    "1. Open **Output** tab on the right\n",
+    "2. Find `training_output/merged/`\n",
+    "3. Select all files and **Download**\n",
+    "\n",
+    "⚠️ **Do this before Kaggle session ends!**"
+   ]
+  }
+ ],
+ "metadata": {
+  "kaggle": {
+   "accelerator": "gpu"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 0
+}

merge_simple.py CHANGED Viewed

@@ -9,6 +9,8 @@ import os
 from pathlib import Path
 import torch
 from peft import PeftModel
 from transformers import AutoModelForCausalLM, AutoTokenizer

 from pathlib import Path
 import torch
+# Disable LoFTQ to avoid bitsandbytes import
+os.environ['PEFT_DISABLE_LOFTQ'] = '1'
 from peft import PeftModel
 from transformers import AutoModelForCausalLM, AutoTokenizer

train_simple_nobnb.py ADDED Viewed

	@@ -0,0 +1,182 @@

+#!/usr/bin/env python3
+"""
+Simple standalone training script for Stack 2.9.
+No bitsandbytes dependency — uses pure float16.
+"""
+import argparse
+import os
+import sys
+from pathlib import Path
+import yaml
+from datasets import load_dataset
+from transformers import (
+    AutoModelForCausalLM,
+    AutoTokenizer,
+    TrainingArguments,
+    Trainer,
+    DataCollatorForLanguageModeling
+)
+from peft import LoraConfig, get_peft_model, TaskType
+import torch
+def load_config(config_path: str) -> dict:
+    with open(config_path, 'r') as f:
+        return yaml.safe_load(f)
+def load_model_and_tokenizer(model_name: str, trust_remote_code: bool = True):
+    """Load base model in float16 (no quantization)."""
+    tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=trust_remote_code)
+    model = AutoModelForCausalLM.from_pretrained(
+        model_name,
+        torch_dtype=torch.float16,
+        trust_remote_code=trust_remote_code,
+        device_map="auto"
+    )
+    return model, tokenizer
+def load_data(data_path: str, tokenizer, max_length: int = 2048, train_split: float = 0.9):
+    """Load and tokenize dataset."""
+    raw_dataset = load_dataset("json", data_files=data_path, split="train")
+    def tokenize_function(examples):
+        texts = []
+        for instr, out in zip(examples.get("instruction", [""]), examples.get("output", [""])):
+            if instr and out:
+                texts.append(f"### Instruction:\n{instr}\n\n### Response:\n{out}")
+            elif out:
+                texts.append(out)
+            elif instr:
+                texts.append(instr)
+            else:
+                texts.append("")
+        tokenized = tokenizer(texts, truncation=True, max_length=max_length, padding="max_length")
+        tokenized["labels"] = tokenized["input_ids"].copy()
+        return tokenized
+    tokenized_dataset = raw_dataset.map(tokenize_function, batched=True, remove_columns=raw_dataset.column_names)
+    split = tokenized_dataset.train_test_split(train_size=train_split)
+    return split["train"], split["test"]
+def train(config: dict):
+    """Main training function."""
+    model_config = config["model"]
+    data_config = config["data"]
+    lora_config = config["lora"]
+    training_config = config["training"]
+    output_config = config["output"]
+    # Load model and tokenizer
+    print(f"Loading model: {model_config['name']}")
+    model, tokenizer = load_model_and_tokenizer(
+        model_name=model_config["name"],
+        trust_remote_code=model_config.get("trust_remote_code", True)
+    )
+    # Load data
+    print(f"Loading dataset: {data_config['input_path']}")
+    train_dataset, eval_dataset = load_data(
+        data_path=data_config["input_path"],
+        tokenizer=tokenizer,
+        max_length=data_config.get("max_length", 2048),
+        train_split=data_config.get("train_split", 0.9)
+    )
+    print(f"   Train samples: {len(train_dataset)}")
+    print(f"   Eval samples: {len(eval_dataset)}")
+    # Apply LoRA
+    peft_config = LoraConfig(
+        r=lora_config["r"],
+        alpha=lora_config["alpha"],
+        dropout=lora_config["dropout"],
+        target_modules=lora_config["target_modules"],
+        bias=lora_config["bias"],
+        task_type=TaskType.CAUSAL_LM
+    )
+    model = get_peft_model(model, peft_config)
+    model.print_trainable_parameters()
+    # Training arguments
+    output_dir = output_config["lora_dir"]
+    os.makedirs(output_dir, exist_ok=True)
+    training_args = TrainingArguments(
+        output_dir=output_dir,
+        num_train_epochs=training_config["num_epochs"],
+        per_device_train_batch_size=training_config["batch_size"],
+        gradient_accumulation_steps=training_config["gradient_accumulation"],
+        learning_rate=training_config["learning_rate"],
+        warmup_steps=training_config.get("warmup_steps", 100),
+        weight_decay=training_config.get("weight_decay", 0.01),
+        max_grad_norm=training_config.get("max_grad_norm", 1.0),
+        logging_steps=training_config.get("logging_steps", 10),
+        save_steps=training_config.get("save_steps", 100),
+        save_total_limit=training_config.get("save_total_limit", 2),
+        fp16=training_config.get("fp16", True),
+        bf16=training_config.get("bf16", False),
+        gradient_checkpointing=training_config.get("gradient_checkpointing", True),
+        evaluation_strategy="steps" if eval_dataset else "no",
+        eval_steps=training_config.get("eval_steps", 100) if eval_dataset else None,
+        report_to="none",
+    )
+    data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
+    trainer = Trainer(
+        model=model,
+        args=training_args,
+        train_dataset=train_dataset,
+        eval_dataset=eval_dataset,
+        data_collator=data_collator,
+        tokenizer=tokenizer,
+    )
+    print("="*60)
+    print("Starting training...")
+    print("="*60)
+    trainer.train()
+    print("Training completed!")
+    # Save final adapter
+    trainer.save_model(output_dir)
+    print(f"✅ Adapter saved to {output_dir}")
+    return trainer
+def main():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--config", type=str, required=True, help="Path to YAML config")
+    args = parser.parse_args()
+    print("="*60)
+    print("Stack 2.9 Simple Training")
+    print("="*60)
+    config = load_config(args.config)
+    print(f"Config loaded: {args.config}")
+    print(f"Model: {config['model']['name']}")
+    print(f"Data: {config['data']['input_path']}")
+    try:
+        train(config)
+        print("\n" + "="*60)
+        print("✅ TRAINING SUCCESS")
+        print("="*60)
+    except Exception as e:
+        print("\n" + "="*60)
+        print(f"❌ TRAINING FAILED: {e}")
+        print("="*60)
+        import traceback
+        traceback.print_exc()
+        sys.exit(1)
+if __name__ == "__main__":
+    main()