kernrl-training / train_kernrl.py

Upload folder using huggingface_hub

367dc36 verified 13 days ago

14 kB

	# ---
	# jupyter:
	# jupytext:
	# text_representation:
	# extension: .py
	# format_name: percent
	# kernelspec:
	# display_name: Python 3
	# language: python
	# name: python3
	# ---

	# %% [markdown]
	# # Training LLMs to Write Fast GPU Kernels with GRPO
	#
	# This notebook demonstrates how to train a language model to write optimized CUDA/Triton
	# kernels using TRL's GRPOTrainer and the kernrl OpenEnv environment.
	#
	# What is kernrl?
	# - An RL environment for GPU kernel optimization
	# - Agents receive PyTorch reference implementations
	# - Must write faster CUDA/Triton kernels that produce correct outputs
	# - Rewards based on compilation success, correctness, and speedup
	#
	# What is GRPO?
	# - Group Relative Policy Optimization
	# - Efficient RL algorithm for training LLMs
	# - Uses multiple generations per prompt to estimate advantages
	# - Works well with environment-based reward signals

	# %% [markdown]
	# ## Installation
	#
	# First, install the required packages:

	# %%
	# !pip install torch triton trl transformers accelerate
	# !pip install git+https://github.com/meta-pytorch/OpenEnv.git

	# %% [markdown]
	# ## Setup
	#
	# Import necessary libraries and configure the environment.

	# %%
	import torch
	from datasets import Dataset
	from transformers import AutoTokenizer
	from trl import GRPOConfig, GRPOTrainer
	from trl.experimental.openenv import generate_rollout_completions

	# Import kernrl environment
	from kernrl import kernrl_env, KernelAction, KernelObservation

	# %%
	# Configuration
	MODEL_ID = "Qwen/Qwen2.5-Coder-1.5B-Instruct" # Good for code generation
	ENV_URL = "http://localhost:8000" # kernrl server URL

	# Initialize tokenizer
	tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	# %% [markdown]
	# ## Connect to kernrl Environment
	#
	# The kernrl environment evaluates submitted kernels for:
	# 1. Compilation: Does the code compile?
	# 2. Correctness: Does output match reference (within tolerance)?
	# 3. Performance: Is it faster than PyTorch baseline?

	# %%
	# Connect to the kernrl server
	# Option 1: Connect to running server
	env = kernrl_env(base_url=ENV_URL)

	# Option 2: Load from HuggingFace Hub (requires GPU)
	# env = kernrl_env.from_hub("Infatoshi/kernrl")

	# Option 3: Local Docker
	# env = kernrl_env.from_docker_image("kernrl:latest")

	# Test the connection
	obs = env.reset(problem_id="L1_23_Softmax")
	print(f"Problem: {obs.problem_id}")
	print(f"GPU: {obs.gpu_info}")
	print(f"Max turns: {obs.max_turns}")

	# %% [markdown]
	# ## Reward Functions
	#
	# We define multiple reward signals to guide the model:
	# - Compilation reward: +0.1 for successful compilation
	# - Correctness reward: +0.3 for matching reference output
	# - Speedup reward: Scaled reward for beating baseline performance

	# %%
	import math

	def reward_compilation(completions: list[str], **kwargs) -> list[float]:
	"""Reward for successful compilation."""
	compilation_success = kwargs.get("compilation_success", [])
	return [0.1 if success else 0.0 for success in compilation_success]

	def reward_correctness(completions: list[str], **kwargs) -> list[float]:
	"""Reward for correct output."""
	correctness_pass = kwargs.get("correctness_pass", [])
	return [0.3 if correct else 0.0 for correct in correctness_pass]

	def reward_speedup(completions: list[str], **kwargs) -> list[float]:
	"""Reward scaled by speedup achieved."""
	speedups = kwargs.get("speedup", [])
	rewards = []
	for speedup in speedups:
	if speedup is None or speedup <= 0:
	rewards.append(0.0)
	elif speedup <= 1.0:
	# Below baseline: small penalty
	rewards.append(-0.1)
	else:
	# Above baseline: reward scales with log2(speedup)
	# 2x speedup = 0.3, 4x = 0.6, 8x = 0.9
	bonus = min(0.3 * math.log2(speedup), 0.6)
	rewards.append(0.3 + bonus)
	return rewards

	def reward_combined(completions: list[str], **kwargs) -> list[float]:
	"""Combined reward from all signals."""
	comp_rewards = reward_compilation(completions, **kwargs)
	corr_rewards = reward_correctness(completions, **kwargs)
	speed_rewards = reward_speedup(completions, **kwargs)
	return [c + r + s for c, r, s in zip(comp_rewards, corr_rewards, speed_rewards)]

	# %% [markdown]
	# ## System Prompt
	#
	# The system prompt provides context about the task and expected output format.

	# %%
	SYSTEM_PROMPT = """You are an expert GPU kernel engineer specializing in CUDA and Triton.

	Your task is to optimize PyTorch operations by writing custom GPU kernels.

	Guidelines:
	1. Analyze the reference PyTorch implementation carefully
	2. Identify optimization opportunities (memory access patterns, parallelism, fusion)
	3. Write a Triton or CUDA kernel that computes the same result
	4. Ensure numerical correctness (outputs must match within tolerance)

	Output format:
	- Provide a complete Python file
	- Include a Model class with the same interface as the reference
	- The Model.forward() method should use your optimized kernel
	- Include all necessary imports (torch, triton, triton.language)

	Focus on:
	- Coalesced memory access
	- Efficient use of shared memory
	- Minimizing thread divergence
	- Optimal block/grid dimensions"""

	# %% [markdown]
	# ## Rollout Function
	#
	# The rollout function generates kernel code and evaluates it in the environment.

	# %%
	def make_prompt(problem_description: str, feedback: str = "") -> str:
	"""Create the user prompt for the model."""
	prompt = f"{problem_description}\n"
	if feedback:
	prompt += f"\n## Previous Attempt Feedback\n{feedback}\n"
	prompt += "\nProvide your optimized kernel implementation:"
	return prompt

	def extract_code(completion: str) -> str:
	"""Extract code from model completion."""
	# Handle markdown code blocks
	if "```python" in completion:
	start = completion.find("```python") + 9
	end = completion.find("```", start)
	if end > start:
	return completion[start:end].strip()
	if "```" in completion:
	start = completion.find("```") + 3
	end = completion.find("```", start)
	if end > start:
	return completion[start:end].strip()
	# Return as-is if no code blocks
	return completion.strip()

	def rollout_func(prompts: list[str], trainer: GRPOTrainer) -> dict[str, list]:
	"""
	Custom rollout function for kernrl environment.

	Generates kernel code and evaluates it to get rewards.
	"""
	# Generate completions
	outputs = generate_rollout_completions(trainer, prompts)

	completions_text = [
	tokenizer.decode(out["completion_ids"], skip_special_tokens=True)
	for out in outputs
	]

	# Evaluate each completion in the environment
	compilation_success = []
	correctness_pass = []
	speedups = []

	for completion in completions_text:
	# Reset environment for each evaluation
	obs = env.reset()

	# Extract code and submit
	code = extract_code(completion)
	action = KernelAction(code=code)

	try:
	result = env.step(action)
	obs = result.observation

	compilation_success.append(obs.compilation_success)
	correctness_pass.append(obs.correctness_pass or False)
	speedups.append(obs.speedup)
	except Exception as e:
	print(f"Evaluation error: {e}")
	compilation_success.append(False)
	correctness_pass.append(False)
	speedups.append(None)

	return {
	"prompt_ids": [out["prompt_ids"] for out in outputs],
	"completion_ids": [out["completion_ids"] for out in outputs],
	"logprobs": [out["logprobs"] for out in outputs],
	# Pass reward signals to reward functions
	"compilation_success": compilation_success,
	"correctness_pass": correctness_pass,
	"speedup": speedups,
	}

	# %% [markdown]
	# ## Create Training Dataset
	#
	# We create a dataset from kernrl problems. Each problem becomes a training prompt.

	# %%
	def create_dataset(env: kernrl_env, levels: list[int] = [1, 2]) -> Dataset:
	"""Create training dataset from kernrl problems."""
	prompts = []
	problem_ids = []

	# Get all problem IDs
	all_problems = env.list_problems()

	for problem_id in all_problems:
	# Filter by level
	level = int(problem_id.split("_")[0][1:]) # Extract level from "L1_..."
	if level not in levels:
	continue

	# Reset to get problem description
	obs = env.reset(problem_id=problem_id)

	# Create prompt
	messages = [
	{"role": "system", "content": SYSTEM_PROMPT},
	{"role": "user", "content": make_prompt(obs.problem_description)},
	]
	prompt = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=False,
	)

	prompts.append(prompt)
	problem_ids.append(problem_id)

	return Dataset.from_dict({
	"prompt": prompts,
	"problem_id": problem_ids,
	})

	# Create dataset from Level 1 and 2 problems
	dataset = create_dataset(env, levels=[1, 2])
	print(f"Created dataset with {len(dataset)} problems")

	# %% [markdown]
	# ## Configure Training
	#
	# Set up GRPOTrainer with our custom rollout function and reward signals.

	# %%
	# Training configuration
	config = GRPOConfig(
	output_dir="./kernrl_grpo_output",

	# vLLM settings
	use_vllm=True,
	vllm_mode="colocate", # Use "server" mode for multi-GPU

	# Generation settings
	num_generations=4, # Generations per prompt
	max_completion_length=2048, # Kernel code can be long
	temperature=0.7,

	# Training settings
	num_train_epochs=3,
	per_device_train_batch_size=2,
	gradient_accumulation_steps=4,
	learning_rate=1e-5,

	# Logging
	logging_steps=10,
	save_steps=100,
	report_to="wandb", # Optional: log to Weights & Biases
	)

	# %% [markdown]
	# ## Initialize Trainer

	# %%
	trainer = GRPOTrainer(
	model=MODEL_ID,
	processing_class=tokenizer,
	reward_funcs=[
	reward_compilation,
	reward_correctness,
	reward_speedup,
	],
	train_dataset=dataset,
	rollout_func=rollout_func,
	args=config,
	)

	# %% [markdown]
	# ## Train!
	#
	# Start the training loop. The model will learn to write faster kernels through
	# environment feedback.

	# %%
	# Start training
	trainer.train()

	# Save the final model
	trainer.save_model("./kernrl_trained_model")

	# %% [markdown]
	# ## Evaluate the Trained Model
	#
	# Test the trained model on some problems to see how well it learned.

	# %%
	def evaluate_model(model_path: str, problem_ids: list[str]) -> dict:
	"""Evaluate a trained model on kernel optimization problems."""
	from transformers import AutoModelForCausalLM

	model = AutoModelForCausalLM.from_pretrained(model_path)
	model.eval()

	results = []

	for problem_id in problem_ids:
	obs = env.reset(problem_id=problem_id)

	# Generate kernel code
	messages = [
	{"role": "system", "content": SYSTEM_PROMPT},
	{"role": "user", "content": make_prompt(obs.problem_description)},
	]
	prompt = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=False,
	)

	inputs = tokenizer(prompt, return_tensors="pt")
	with torch.no_grad():
	outputs = model.generate(
	**inputs,
	max_new_tokens=2048,
	temperature=0.3, # Lower temp for evaluation
	do_sample=True,
	)

	completion = tokenizer.decode(outputs[0], skip_special_tokens=True)
	code = extract_code(completion)

	# Evaluate
	result = env.step(KernelAction(code=code))
	obs = result.observation

	results.append({
	"problem_id": problem_id,
	"compilation": obs.compilation_success,
	"correctness": obs.correctness_pass,
	"speedup": obs.speedup,
	})

	print(f"{problem_id}: compile={obs.compilation_success}, "
	f"correct={obs.correctness_pass}, speedup={obs.speedup:.2f}x"
	if obs.speedup else f"{problem_id}: compile={obs.compilation_success}")

	return results

	# Evaluate on a few problems
	# eval_results = evaluate_model("./kernrl_trained_model", ["L1_23_Softmax", "L1_26_GELU_"])

	# %% [markdown]
	# ## Running with Server Mode (Multi-GPU)
	#
	# For larger models or faster training, use vLLM in server mode:
	#
	# ```bash
	# # Terminal 1: Start vLLM server
	# CUDA_VISIBLE_DEVICES=0 trl vllm-serve --model Qwen/Qwen2.5-Coder-7B-Instruct
	#
	# # Terminal 2: Start kernrl environment
	# CUDA_VISIBLE_DEVICES=1 uvicorn kernrl.server.app:app --host 0.0.0.0 --port 8000
	#
	# # Terminal 3: Run training
	# CUDA_VISIBLE_DEVICES=2 python train_kernrl.py --vllm-mode server --vllm-server-url http://localhost:8000
	# ```
	#
	# Update the config:
	# ```python
	# config = GRPOConfig(
	# use_vllm=True,
	# vllm_mode="server",
	# vllm_server_base_url="http://localhost:8000",
	# ...
	# )
	# ```

	# %% [markdown]
	# ## Tips for Better Results
	#
	# 1. Start with simpler problems: Level 1 problems (matmul, softmax) are easier
	# 2. Use code-focused models: Qwen2.5-Coder, DeepSeek-Coder work well
	# 3. Increase generations: More generations per prompt = better advantage estimates
	# 4. Multi-turn training: Let the model iterate based on feedback
	# 5. Curriculum learning: Start with L1, add harder problems gradually

	# %% [markdown]
	# ## Resources
	#
	# - [kernrl HuggingFace Space](https://huggingface.co/spaces/Infatoshi/kernrl)
	# - [OpenEnv Repository](https://github.com/meta-pytorch/OpenEnv)
	# - [TRL Documentation](https://huggingface.co/docs/trl)
	# - [Triton Tutorial](https://triton-lang.org/main/getting-started/tutorials/)