Upload train.py with huggingface_hub

17bc682 verified about 1 month ago

46 kB

	#!/usr/bin/env python3
	"""
	CSIRO Image2Biomass Prediction - Training Pipeline
	====================================================
	Multi-output regression: predicting 5 biomass targets from pasture images.

	Targets: Dry_Green_g, Dry_Dead_g, Dry_Clover_g, GDM_g, Dry_Total_g
	Metric: Weighted R² (weights: 0.1, 0.1, 0.1, 0.2, 0.5)

	Architecture:
	- Backbone: DINOv2 / ConvNeXt / EfficientNet (via timm)
	- Head: MLP with LayerNorm, GELU, Dropout
	- Loss: SmoothL1 + optional weighted R² + consistency regularizer
	- Training: Mixed precision, gradient checkpointing, differential LR

	Usage:
	python train.py --data_dir /path/to/competition/data --backbone dinov2_base --epochs 50
	"""

	import os
	import sys
	import json
	import time
	import random
	import argparse
	import logging
	from pathlib import Path
	from typing import Dict, List, Optional, Tuple

	import numpy as np
	import pandas as pd
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from torch.utils.data import Dataset, DataLoader, WeightedRandomSampler
	from torch.cuda.amp import GradScaler, autocast
	import timm

	try:
	import albumentations as A
	from albumentations.pytorch import ToTensorV2
	HAS_ALBUMENTATIONS = True
	except ImportError:
	HAS_ALBUMENTATIONS = False
	from torchvision import transforms

	from PIL import Image
	from sklearn.model_selection import KFold, StratifiedKFold

	logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
	logger = logging.getLogger(__name__)

	# ============================================================
	# Constants
	# ============================================================
	TARGET_COLS = ['Dry_Green_g', 'Dry_Dead_g', 'Dry_Clover_g', 'GDM_g', 'Dry_Total_g']
	TARGET_WEIGHTS = [0.1, 0.1, 0.1, 0.2, 0.5]
	IMAGENET_MEAN = (0.485, 0.456, 0.406)
	IMAGENET_STD = (0.229, 0.224, 0.225)

	# Backbone configurations
	BACKBONE_CONFIGS = {
	'dinov2_small': {
	'name': 'vit_small_patch14_dinov2.lvd142m',
	'feat_dim': 384, 'native_size': 518, 'default_size': 224,
	},
	'dinov2_base': {
	'name': 'vit_base_patch14_dinov2.lvd142m',
	'feat_dim': 768, 'native_size': 518, 'default_size': 224,
	},
	'dinov2_large': {
	'name': 'vit_large_patch14_dinov2.lvd142m',
	'feat_dim': 1024, 'native_size': 518, 'default_size': 224,
	},
	'dinov2_base_reg': {
	'name': 'vit_base_patch14_reg4_dinov2.lvd142m',
	'feat_dim': 768, 'native_size': 518, 'default_size': 224,
	},
	'convnext_large': {
	'name': 'convnext_large.fb_in22k_ft_in1k',
	'feat_dim': 1536, 'native_size': 224, 'default_size': 224,
	},
	'convnextv2_large': {
	'name': 'convnextv2_large.fcmae_ft_in22k_in1k',
	'feat_dim': 1536, 'native_size': 224, 'default_size': 224,
	},
	'efficientnet_b4': {
	'name': 'efficientnet_b4.ra2_in1k',
	'feat_dim': 1792, 'native_size': 380, 'default_size': 320,
	},
	'swin_large': {
	'name': 'swin_large_patch4_window7_224.ms_in22k_ft_in1k',
	'feat_dim': 1536, 'native_size': 224, 'default_size': 224,
	},
	'eva02_large': {
	'name': 'eva02_large_patch14_448.mim_m38m_ft_in22k_in1k',
	'feat_dim': 1024, 'native_size': 448, 'default_size': 448,
	},
	}


	# ============================================================
	# Dataset
	# ============================================================
	class BiomassDataset(Dataset):
	"""Dataset for pasture biomass regression from images."""

	def __init__(
	self,
	image_dir: str,
	df: pd.DataFrame,
	targets: Optional[pd.DataFrame] = None,
	transform=None,
	img_size: int = 224,
	use_ndvi: bool = False,
	log_transform: bool = True,
	is_test: bool = False,
	):
	self.image_dir = Path(image_dir)
	self.df = df.reset_index(drop=True)
	self.targets = targets
	self.transform = transform
	self.img_size = img_size
	self.use_ndvi = use_ndvi
	self.log_transform = log_transform
	self.is_test = is_test

	# Pre-compute image paths
	self.image_ids = self.df['image_id'].values if 'image_id' in self.df.columns else self.df.index.values

	def __len__(self):
	return len(self.df)

	def __getitem__(self, idx):
	row = self.df.iloc[idx]
	img_id = row['image_id'] if 'image_id' in row.index else row.name

	# Load image
	img_path = self.image_dir / f"{img_id}.jpg"
	if not img_path.exists():
	img_path = self.image_dir / f"{img_id}.png"
	if not img_path.exists():
	# Try without extension - search
	candidates = list(self.image_dir.glob(f"{img_id}.*"))
	if candidates:
	img_path = candidates[0]
	else:
	raise FileNotFoundError(f"Image not found: {img_id}")

	img = Image.open(img_path).convert('RGB')
	img = np.array(img)

	# Apply transforms
	if self.transform is not None:
	if HAS_ALBUMENTATIONS:
	augmented = self.transform(image=img)
	img_tensor = augmented['image']
	else:
	img = Image.fromarray(img)
	img_tensor = self.transform(img)
	else:
	img = Image.fromarray(img)
	img_tensor = transforms.ToTensor()(img)

	result = {'image': img_tensor, 'image_id': str(img_id)}

	# Add NDVI if available
	if self.use_ndvi and 'NDVI' in self.df.columns:
	ndvi = torch.tensor(row['NDVI'], dtype=torch.float32)
	result['ndvi'] = ndvi

	# Add targets if training
	if self.targets is not None:
	target_values = self.targets.iloc[idx][TARGET_COLS].values.astype(np.float32)
	if self.log_transform:
	target_values = np.log1p(target_values)
	result['targets'] = torch.tensor(target_values, dtype=torch.float32)

	return result


	# ============================================================
	# Augmentations
	# ============================================================
	def get_train_transforms(img_size: int = 224, aug_strength: str = 'medium'):
	"""Get training augmentations."""
	if HAS_ALBUMENTATIONS:
	if aug_strength == 'light':
	return A.Compose([
	A.RandomResizedCrop(size=(img_size, img_size), scale=(0.7, 1.0)),
	A.HorizontalFlip(p=0.5),
	A.VerticalFlip(p=0.5),
	A.Normalize(mean=IMAGENET_MEAN, std=IMAGENET_STD),
	ToTensorV2(),
	])
	elif aug_strength == 'medium':
	return A.Compose([
	A.RandomResizedCrop(size=(img_size, img_size), scale=(0.5, 1.0)),
	A.HorizontalFlip(p=0.5),
	A.VerticalFlip(p=0.5),
	A.RandomRotate90(p=0.5),
	A.Transpose(p=0.5),
	A.RandomBrightnessContrast(brightness_limit=0.2, contrast_limit=0.2, p=0.5),
	A.HueSaturationValue(hue_shift_limit=15, sat_shift_limit=25, val_shift_limit=15, p=0.4),
	A.OneOf([
	A.GaussianBlur(blur_limit=(3, 5)),
	A.MotionBlur(blur_limit=5),
	], p=0.15),
	A.CoarseDropout(
	num_holes_range=(1, 4),
	hole_height_range=(int(img_size0.05), int(img_size0.15)),
	hole_width_range=(int(img_size0.05), int(img_size0.15)),
	p=0.2,
	),
	A.Normalize(mean=IMAGENET_MEAN, std=IMAGENET_STD),
	ToTensorV2(),
	])
	else: # heavy
	return A.Compose([
	A.RandomResizedCrop(size=(img_size, img_size), scale=(0.4, 1.0)),
	A.HorizontalFlip(p=0.5),
	A.VerticalFlip(p=0.5),
	A.RandomRotate90(p=0.5),
	A.Transpose(p=0.5),
	A.RandomBrightnessContrast(brightness_limit=0.3, contrast_limit=0.3, p=0.7),
	A.HueSaturationValue(hue_shift_limit=20, sat_shift_limit=30, val_shift_limit=20, p=0.5),
	A.RandomGamma(gamma_limit=(80, 120), p=0.3),
	A.OneOf([
	A.GaussianBlur(blur_limit=(3, 7)),
	A.MotionBlur(blur_limit=7),
	], p=0.2),
	A.OneOf([
	A.GaussNoise(p=1.0),
	A.ISONoise(p=1.0),
	], p=0.2),
	A.CoarseDropout(
	num_holes_range=(1, 8),
	hole_height_range=(int(img_size0.05), int(img_size0.2)),
	hole_width_range=(int(img_size0.05), int(img_size0.2)),
	p=0.3,
	),
	A.Normalize(mean=IMAGENET_MEAN, std=IMAGENET_STD),
	ToTensorV2(),
	])
	else:
	return transforms.Compose([
	transforms.RandomResizedCrop(img_size, scale=(0.5, 1.0)),
	transforms.RandomHorizontalFlip(0.5),
	transforms.RandomVerticalFlip(0.5),
	transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2, hue=0.1),
	transforms.ToTensor(),
	transforms.Normalize(mean=IMAGENET_MEAN, std=IMAGENET_STD),
	])


	def get_val_transforms(img_size: int = 224):
	"""Get validation transforms."""
	if HAS_ALBUMENTATIONS:
	return A.Compose([
	A.Resize(height=int(img_size * 1.14), width=int(img_size * 1.14)),
	A.CenterCrop(height=img_size, width=img_size),
	A.Normalize(mean=IMAGENET_MEAN, std=IMAGENET_STD),
	ToTensorV2(),
	])
	else:
	return transforms.Compose([
	transforms.Resize(int(img_size * 1.14)),
	transforms.CenterCrop(img_size),
	transforms.ToTensor(),
	transforms.Normalize(mean=IMAGENET_MEAN, std=IMAGENET_STD),
	])


	def get_tta_transforms(img_size: int = 224, n_augments: int = 8):
	"""Get TTA (test-time augmentation) transforms. Returns list of transforms."""
	tta_list = [get_val_transforms(img_size)] # Original
	if HAS_ALBUMENTATIONS:
	# Add flipped/rotated versions
	tta_list.append(A.Compose([
	A.Resize(height=int(img_size * 1.14), width=int(img_size * 1.14)),
	A.CenterCrop(height=img_size, width=img_size),
	A.HorizontalFlip(p=1.0),
	A.Normalize(mean=IMAGENET_MEAN, std=IMAGENET_STD),
	ToTensorV2(),
	]))
	tta_list.append(A.Compose([
	A.Resize(height=int(img_size * 1.14), width=int(img_size * 1.14)),
	A.CenterCrop(height=img_size, width=img_size),
	A.VerticalFlip(p=1.0),
	A.Normalize(mean=IMAGENET_MEAN, std=IMAGENET_STD),
	ToTensorV2(),
	]))
	tta_list.append(A.Compose([
	A.Resize(height=int(img_size * 1.14), width=int(img_size * 1.14)),
	A.CenterCrop(height=img_size, width=img_size),
	A.HorizontalFlip(p=1.0),
	A.VerticalFlip(p=1.0),
	A.Normalize(mean=IMAGENET_MEAN, std=IMAGENET_STD),
	ToTensorV2(),
	]))
	# Slightly different crops
	for scale in [0.9, 1.0, 1.2]:
	tta_list.append(A.Compose([
	A.Resize(height=int(img_size * scale * 1.14), width=int(img_size * scale * 1.14)),
	A.CenterCrop(height=img_size, width=img_size),
	A.Normalize(mean=IMAGENET_MEAN, std=IMAGENET_STD),
	ToTensorV2(),
	]))
	return tta_list[:n_augments]


	# ============================================================
	# Model
	# ============================================================
	class BiomassModel(nn.Module):
	"""
	Multi-output regression model for biomass prediction.

	Architecture:
	- timm backbone (DINOv2, ConvNeXt, etc.)
	- Optional auxiliary features (NDVI)
	- MLP regression head with LayerNorm + GELU + Dropout
	- Optional: separate heads per target for better specialization
	"""

	def __init__(
	self,
	backbone_name: str = 'vit_base_patch14_dinov2.lvd142m',
	num_targets: int = 5,
	hidden_dim: int = 512,
	dropout: float = 0.3,
	pretrained: bool = True,
	img_size: int = 224,
	use_ndvi: bool = False,
	separate_heads: bool = False,
	grad_checkpointing: bool = False,
	):
	super().__init__()
	self.use_ndvi = use_ndvi
	self.separate_heads = separate_heads
	self.num_targets = num_targets

	# Create backbone
	kwargs = {'pretrained': pretrained, 'num_classes': 0}
	if 'vit' in backbone_name or 'dinov2' in backbone_name:
	kwargs['img_size'] = img_size

	self.backbone = timm.create_model(backbone_name, **kwargs)
	feat_dim = self.backbone.num_features

	# Enable gradient checkpointing for memory efficiency
	if grad_checkpointing:
	if hasattr(self.backbone, 'set_grad_checkpointing'):
	self.backbone.set_grad_checkpointing(True)
	logger.info("Gradient checkpointing enabled")

	# NDVI embedding
	if use_ndvi:
	self.ndvi_embed = nn.Sequential(
	nn.Linear(1, 32),
	nn.GELU(),
	nn.Linear(32, 64),
	)
	feat_dim += 64

	# Regression head(s)
	if separate_heads:
	# Separate MLP head per target - better specialization
	self.heads = nn.ModuleList([
	nn.Sequential(
	nn.LayerNorm(feat_dim),
	nn.Dropout(dropout),
	nn.Linear(feat_dim, hidden_dim),
	nn.GELU(),
	nn.Dropout(dropout * 0.5),
	nn.Linear(hidden_dim, 1),
	)
	for _ in range(num_targets)
	])
	else:
	# Shared head - better when data is limited
	self.head = nn.Sequential(
	nn.LayerNorm(feat_dim),
	nn.Dropout(dropout),
	nn.Linear(feat_dim, hidden_dim),
	nn.GELU(),
	nn.Dropout(dropout * 0.5),
	nn.Linear(hidden_dim, hidden_dim // 2),
	nn.GELU(),
	nn.Dropout(dropout * 0.3),
	nn.Linear(hidden_dim // 2, num_targets),
	)

	def forward(self, x, ndvi=None):
	features = self.backbone(x)

	if self.use_ndvi and ndvi is not None:
	ndvi_feats = self.ndvi_embed(ndvi.unsqueeze(-1))
	features = torch.cat([features, ndvi_feats], dim=-1)

	if self.separate_heads:
	outputs = [head(features) for head in self.heads]
	return torch.cat(outputs, dim=-1)
	else:
	return self.head(features)

	def get_param_groups(self, backbone_lr: float = 5e-5, head_lr: float = 1e-3):
	"""Get parameter groups with differential learning rates."""
	backbone_params = list(self.backbone.parameters())
	head_params = [p for n, p in self.named_parameters() if 'backbone' not in n]

	return [
	{'params': backbone_params, 'lr': backbone_lr},
	{'params': head_params, 'lr': head_lr},
	]


	# ============================================================
	# Loss Functions
	# ============================================================
	class WeightedSmoothL1Loss(nn.Module):
	"""SmoothL1 loss weighted by target importance."""

	def __init__(self, target_weights=None, beta=1.0):
	super().__init__()
	self.beta = beta
	if target_weights is None:
	target_weights = TARGET_WEIGHTS
	self.register_buffer('weights', torch.tensor(target_weights, dtype=torch.float32))

	def forward(self, pred, target):
	loss = F.smooth_l1_loss(pred, target, beta=self.beta, reduction='none') # [B, 5]
	weighted = loss * self.weights.unsqueeze(0)
	return weighted.mean()


	class WeightedMSELoss(nn.Module):
	"""MSE loss weighted by target importance."""

	def __init__(self, target_weights=None):
	super().__init__()
	if target_weights is None:
	target_weights = TARGET_WEIGHTS
	self.register_buffer('weights', torch.tensor(target_weights, dtype=torch.float32))

	def forward(self, pred, target):
	loss = (pred - target) ** 2 # [B, 5]
	weighted = loss * self.weights.unsqueeze(0)
	return weighted.mean()


	class ConsistencyLoss(nn.Module):
	"""
	Enforce structural constraint: Dry_Total_g ≈ Dry_Green_g + Dry_Dead_g + Dry_Clover_g
	Only approximate because GDM includes all dry matter components.
	"""

	def __init__(self, weight=0.1):
	super().__init__()
	self.weight = weight

	def forward(self, pred):
	# pred columns: [Green, Dead, Clover, GDM, Total]
	component_sum = pred[:, 0] + pred[:, 1] + pred[:, 2]
	total = pred[:, 4]
	return self.weight * F.mse_loss(component_sum, total)


	class CombinedLoss(nn.Module):
	"""Combined loss with SmoothL1 + consistency regularization."""

	def __init__(self, smoothl1_weight=1.0, mse_weight=0.0, consistency_weight=0.1,
	target_weights=None):
	super().__init__()
	self.smoothl1 = WeightedSmoothL1Loss(target_weights)
	self.mse = WeightedMSELoss(target_weights) if mse_weight > 0 else None
	self.consistency = ConsistencyLoss(consistency_weight) if consistency_weight > 0 else None
	self.smoothl1_weight = smoothl1_weight
	self.mse_weight = mse_weight

	def forward(self, pred, target):
	loss = self.smoothl1_weight * self.smoothl1(pred, target)
	if self.mse is not None:
	loss += self.mse_weight * self.mse(pred, target)
	if self.consistency is not None:
	loss += self.consistency(pred)
	return loss


	# ============================================================
	# Label Distribution Smoothing (LDS)
	# ============================================================
	def get_lds_weights(labels: np.ndarray, bins: int = 100, kernel_size: int = 5, sigma: float = 2.0):
	"""
	Compute Label Distribution Smoothing (LDS) weights.
	From "Delving into Deep Imbalanced Regression" (ICML 2021).
	"""
	from scipy.ndimage import convolve1d

	# Use the most important target (Dry_Total_g) for weighting
	if labels.ndim > 1:
	labels = labels[:, -1] # Last column = Dry_Total_g

	hist, bin_edges = np.histogram(labels, bins=bins)
	kernel = np.exp(-np.linspace(-3, 3, kernel_size)*2 / (2 sigma**2))
	kernel /= kernel.sum()
	smoothed = convolve1d(hist.astype(float), kernel, mode='reflect')

	bin_centers = (bin_edges[:-1] + bin_edges[1:]) / 2
	weights = 1.0 / (np.interp(labels, bin_centers, smoothed) + 1e-8)
	weights = weights / weights.mean() # Normalize to mean=1

	return weights


	# ============================================================
	# Metrics
	# ============================================================
	def compute_weighted_r2(preds: np.ndarray, targets: np.ndarray,
	target_weights: List[float] = None) -> float:
	"""
	Compute the globally weighted R² (competition metric).

	Args:
	preds: [N, 5] predictions
	targets: [N, 5] ground truth
	target_weights: per-target weights (default: competition weights)

	Returns:
	Weighted R² score
	"""
	if target_weights is None:
	target_weights = TARGET_WEIGHTS

	n_samples = preds.shape[0]
	n_targets = preds.shape[1]

	# Expand to long format with per-row weights
	all_preds = []
	all_targets = []
	all_weights = []

	for j in range(n_targets):
	all_preds.extend(preds[:, j])
	all_targets.extend(targets[:, j])
	all_weights.extend([target_weights[j]] * n_samples)

	all_preds = np.array(all_preds)
	all_targets = np.array(all_targets)
	all_weights = np.array(all_weights)

	# Weighted mean
	weighted_mean = np.sum(all_weights * all_targets) / np.sum(all_weights)

	# SS_res and SS_tot
	ss_res = np.sum(all_weights * (all_targets - all_preds) ** 2)
	ss_tot = np.sum(all_weights * (all_targets - weighted_mean) ** 2)

	r2 = 1.0 - ss_res / (ss_tot + 1e-8)
	return r2


	def compute_per_target_r2(preds: np.ndarray, targets: np.ndarray) -> Dict[str, float]:
	"""Compute R² per target column."""
	results = {}
	for i, name in enumerate(TARGET_COLS):
	ss_res = np.sum((targets[:, i] - preds[:, i]) ** 2)
	ss_tot = np.sum((targets[:, i] - targets[:, i].mean()) ** 2)
	r2 = 1.0 - ss_res / (ss_tot + 1e-8)
	results[name] = r2
	return results


	# ============================================================
	# Training Engine
	# ============================================================
	class Trainer:
	"""Training engine with mixed precision, gradient accumulation, and k-fold."""

	def __init__(self, args):
	self.args = args
	self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
	self.scaler = GradScaler() if self.device.type == 'cuda' else None

	logger.info(f"Device: {self.device}")
	if self.device.type == 'cuda':
	logger.info(f"GPU: {torch.cuda.get_device_name(0)}")
	logger.info(f"GPU Memory: {torch.cuda.get_device_properties(0).total_mem / 1e9:.1f} GB")

	def build_model(self):
	"""Build model from args."""
	backbone_cfg = BACKBONE_CONFIGS[self.args.backbone]
	img_size = self.args.img_size or backbone_cfg['default_size']

	model = BiomassModel(
	backbone_name=backbone_cfg['name'],
	num_targets=5,
	hidden_dim=self.args.hidden_dim,
	dropout=self.args.dropout,
	pretrained=True,
	img_size=img_size,
	use_ndvi=self.args.use_ndvi,
	separate_heads=self.args.separate_heads,
	grad_checkpointing=self.args.grad_checkpointing,
	)
	return model.to(self.device)

	def build_optimizer(self, model):
	"""Build optimizer with differential learning rates."""
	param_groups = model.get_param_groups(
	backbone_lr=self.args.backbone_lr,
	head_lr=self.args.head_lr,
	)

	if self.args.optimizer == 'adamw':
	optimizer = torch.optim.AdamW(param_groups, weight_decay=self.args.weight_decay)
	elif self.args.optimizer == 'sgd':
	optimizer = torch.optim.SGD(param_groups, momentum=0.9, weight_decay=self.args.weight_decay)
	else:
	raise ValueError(f"Unknown optimizer: {self.args.optimizer}")

	return optimizer

	def build_scheduler(self, optimizer, num_training_steps):
	"""Build learning rate scheduler."""
	warmup_steps = int(num_training_steps * self.args.warmup_ratio)

	if self.args.scheduler == 'cosine':
	from torch.optim.lr_scheduler import CosineAnnealingLR, LinearLR, SequentialLR
	warmup = LinearLR(optimizer, start_factor=0.01, total_iters=warmup_steps)
	cosine = CosineAnnealingLR(optimizer, T_max=num_training_steps - warmup_steps,
	eta_min=self.args.min_lr)
	scheduler = SequentialLR(optimizer, [warmup, cosine], milestones=[warmup_steps])
	elif self.args.scheduler == 'plateau':
	scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(
	optimizer, mode='max', factor=0.5, patience=5, verbose=True)
	else:
	scheduler = None

	return scheduler

	def train_one_epoch(self, model, loader, optimizer, scheduler, loss_fn, epoch):
	"""Train for one epoch."""
	model.train()
	running_loss = 0.0
	num_samples = 0

	for batch_idx, batch in enumerate(loader):
	images = batch['image'].to(self.device)
	targets = batch['targets'].to(self.device)
	ndvi = batch.get('ndvi', None)
	if ndvi is not None:
	ndvi = ndvi.to(self.device)

	# Forward pass with mixed precision
	if self.scaler is not None:
	with autocast(dtype=torch.float16):
	preds = model(images, ndvi)
	loss = loss_fn(preds, targets)

	# Gradient accumulation
	loss = loss / self.args.grad_accum_steps
	self.scaler.scale(loss).backward()

	if (batch_idx + 1) % self.args.grad_accum_steps == 0:
	self.scaler.unscale_(optimizer)
	torch.nn.utils.clip_grad_norm_(model.parameters(), self.args.max_grad_norm)
	self.scaler.step(optimizer)
	self.scaler.update()
	optimizer.zero_grad()

	if scheduler is not None and not isinstance(scheduler, torch.optim.lr_scheduler.ReduceLROnPlateau):
	scheduler.step()
	else:
	preds = model(images, ndvi)
	loss = loss_fn(preds, targets)
	loss = loss / self.args.grad_accum_steps
	loss.backward()

	if (batch_idx + 1) % self.args.grad_accum_steps == 0:
	torch.nn.utils.clip_grad_norm_(model.parameters(), self.args.max_grad_norm)
	optimizer.step()
	optimizer.zero_grad()

	if scheduler is not None and not isinstance(scheduler, torch.optim.lr_scheduler.ReduceLROnPlateau):
	scheduler.step()

	running_loss += loss.item() * self.args.grad_accum_steps * images.size(0)
	num_samples += images.size(0)

	if (batch_idx + 1) % self.args.log_interval == 0:
	avg_loss = running_loss / num_samples
	lr = optimizer.param_groups[0]['lr']
	logger.info(f"Epoch {epoch} [{batch_idx+1}/{len(loader)}] loss={avg_loss:.4f} lr={lr:.2e}")

	return running_loss / num_samples

	@torch.no_grad()
	def validate(self, model, loader, loss_fn, log_transform=True):
	"""Validate and compute metrics."""
	model.eval()
	all_preds = []
	all_targets = []
	running_loss = 0.0
	num_samples = 0

	for batch in loader:
	images = batch['image'].to(self.device)
	targets = batch['targets'].to(self.device)
	ndvi = batch.get('ndvi', None)
	if ndvi is not None:
	ndvi = ndvi.to(self.device)

	if self.scaler is not None:
	with autocast(dtype=torch.float16):
	preds = model(images, ndvi)
	loss = loss_fn(preds, targets)
	else:
	preds = model(images, ndvi)
	loss = loss_fn(preds, targets)

	running_loss += loss.item() * images.size(0)
	num_samples += images.size(0)

	all_preds.append(preds.cpu().numpy())
	all_targets.append(targets.cpu().numpy())

	all_preds = np.concatenate(all_preds, axis=0)
	all_targets = np.concatenate(all_targets, axis=0)

	# Inverse log transform for metric computation
	if log_transform:
	all_preds_orig = np.expm1(all_preds)
	all_targets_orig = np.expm1(all_targets)
	else:
	all_preds_orig = all_preds
	all_targets_orig = all_targets

	# Clip negative predictions
	all_preds_orig = np.clip(all_preds_orig, 0, None)

	# Compute metrics
	weighted_r2 = compute_weighted_r2(all_preds_orig, all_targets_orig)
	per_target_r2 = compute_per_target_r2(all_preds_orig, all_targets_orig)

	avg_loss = running_loss / num_samples

	return {
	'loss': avg_loss,
	'weighted_r2': weighted_r2,
	'per_target_r2': per_target_r2,
	'preds': all_preds_orig,
	'targets': all_targets_orig,
	}

	@torch.no_grad()
	def predict(self, model, loader, log_transform=True, tta_transforms=None):
	"""Generate predictions (inference)."""
	model.eval()
	all_preds = []
	all_ids = []

	for batch in loader:
	images = batch['image'].to(self.device)
	ndvi = batch.get('ndvi', None)
	if ndvi is not None:
	ndvi = ndvi.to(self.device)

	if self.scaler is not None:
	with autocast(dtype=torch.float16):
	preds = model(images, ndvi)
	else:
	preds = model(images, ndvi)

	all_preds.append(preds.cpu().numpy())
	all_ids.extend(batch['image_id'])

	all_preds = np.concatenate(all_preds, axis=0)

	if log_transform:
	all_preds = np.expm1(all_preds)

	all_preds = np.clip(all_preds, 0, None)

	return all_preds, all_ids

	def train_fold(self, fold: int, train_df: pd.DataFrame, val_df: pd.DataFrame,
	train_targets: pd.DataFrame, val_targets: pd.DataFrame,
	image_dir: str):
	"""Train a single fold."""
	backbone_cfg = BACKBONE_CONFIGS[self.args.backbone]
	img_size = self.args.img_size or backbone_cfg['default_size']

	# Datasets
	train_dataset = BiomassDataset(
	image_dir=image_dir,
	df=train_df,
	targets=train_targets,
	transform=get_train_transforms(img_size, self.args.aug_strength),
	img_size=img_size,
	use_ndvi=self.args.use_ndvi,
	log_transform=self.args.log_transform,
	)
	val_dataset = BiomassDataset(
	image_dir=image_dir,
	df=val_df,
	targets=val_targets,
	transform=get_val_transforms(img_size),
	img_size=img_size,
	use_ndvi=self.args.use_ndvi,
	log_transform=self.args.log_transform,
	)

	# Optional: LDS sample weights
	if self.args.use_lds:
	sample_weights = get_lds_weights(
	train_targets[TARGET_COLS].values,
	bins=self.args.lds_bins,
	kernel_size=self.args.lds_kernel_size,
	sigma=self.args.lds_sigma,
	)
	sampler = WeightedRandomSampler(
	weights=sample_weights,
	num_samples=len(train_dataset),
	replacement=True,
	)
	train_loader = DataLoader(
	train_dataset, batch_size=self.args.batch_size,
	sampler=sampler, num_workers=self.args.num_workers,
	pin_memory=True, drop_last=True,
	)
	else:
	train_loader = DataLoader(
	train_dataset, batch_size=self.args.batch_size,
	shuffle=True, num_workers=self.args.num_workers,
	pin_memory=True, drop_last=True,
	)

	val_loader = DataLoader(
	val_dataset, batch_size=self.args.batch_size * 2,
	shuffle=False, num_workers=self.args.num_workers,
	pin_memory=True,
	)

	# Model, optimizer, scheduler
	model = self.build_model()
	optimizer = self.build_optimizer(model)

	num_training_steps = len(train_loader) * self.args.epochs // self.args.grad_accum_steps
	scheduler = self.build_scheduler(optimizer, num_training_steps)

	# Loss
	loss_fn = CombinedLoss(
	smoothl1_weight=1.0,
	mse_weight=self.args.mse_weight,
	consistency_weight=self.args.consistency_weight,
	target_weights=TARGET_WEIGHTS,
	).to(self.device)

	# Training loop
	best_r2 = -float('inf')
	best_epoch = 0
	patience_counter = 0
	save_dir = Path(self.args.output_dir) / f"fold_{fold}"
	save_dir.mkdir(parents=True, exist_ok=True)

	logger.info(f"\n{'='*60}")
	logger.info(f"FOLD {fold}")
	logger.info(f"Train: {len(train_dataset)}, Val: {len(val_dataset)}")
	logger.info(f"Backbone: {backbone_cfg['name']}, img_size: {img_size}")
	logger.info(f"{'='*60}")

	for epoch in range(1, self.args.epochs + 1):
	t0 = time.time()

	# Train
	train_loss = self.train_one_epoch(model, train_loader, optimizer, scheduler, loss_fn, epoch)

	# Validate
	val_metrics = self.validate(model, val_loader, loss_fn, self.args.log_transform)

	# LR scheduler step (for ReduceLROnPlateau)
	if isinstance(scheduler, torch.optim.lr_scheduler.ReduceLROnPlateau):
	scheduler.step(val_metrics['weighted_r2'])

	elapsed = time.time() - t0

	# Logging
	logger.info(
	f"Epoch {epoch}/{self.args.epochs} \| "
	f"train_loss={train_loss:.4f} \| "
	f"val_loss={val_metrics['loss']:.4f} \| "
	f"val_R²={val_metrics['weighted_r2']:.4f} \| "
	f"time={elapsed:.1f}s"
	)
	for name, r2 in val_metrics['per_target_r2'].items():
	logger.info(f" {name}: R²={r2:.4f}")

	# Save best model
	if val_metrics['weighted_r2'] > best_r2:
	best_r2 = val_metrics['weighted_r2']
	best_epoch = epoch
	patience_counter = 0

	torch.save({
	'epoch': epoch,
	'model_state_dict': model.state_dict(),
	'optimizer_state_dict': optimizer.state_dict(),
	'weighted_r2': best_r2,
	'per_target_r2': val_metrics['per_target_r2'],
	'args': vars(self.args),
	}, save_dir / 'best_model.pth')

	logger.info(f" * New best R²={best_r2:.4f} (epoch {epoch}) *")
	else:
	patience_counter += 1

	# Early stopping
	if patience_counter >= self.args.patience:
	logger.info(f"Early stopping at epoch {epoch}. Best R²={best_r2:.4f} (epoch {best_epoch})")
	break

	# Load best model for final predictions
	checkpoint = torch.load(save_dir / 'best_model.pth', map_location=self.device, weights_only=False)
	model.load_state_dict(checkpoint['model_state_dict'])

	# OOF predictions
	val_metrics = self.validate(model, val_loader, loss_fn, self.args.log_transform)

	logger.info(f"\nFold {fold} Final: R²={val_metrics['weighted_r2']:.4f}")

	return model, val_metrics

	def train_kfold(self, df: pd.DataFrame, targets: pd.DataFrame, image_dir: str):
	"""Train with K-Fold cross-validation."""
	n_folds = self.args.n_folds

	# Stratified bins based on Dry_Total_g
	bins = pd.qcut(targets['Dry_Total_g'], q=min(10, n_folds), labels=False, duplicates='drop')

	kf = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=self.args.seed)

	oof_preds = np.zeros((len(df), 5))
	fold_scores = []

	for fold, (train_idx, val_idx) in enumerate(kf.split(df, bins)):
	train_df = df.iloc[train_idx]
	val_df = df.iloc[val_idx]
	train_targets = targets.iloc[train_idx]
	val_targets = targets.iloc[val_idx]

	model, val_metrics = self.train_fold(
	fold, train_df, val_df, train_targets, val_targets, image_dir
	)

	oof_preds[val_idx] = val_metrics['preds']
	fold_scores.append(val_metrics['weighted_r2'])

	logger.info(f"Fold {fold} R²: {val_metrics['weighted_r2']:.4f}")

	# Overall OOF score
	targets_arr = targets[TARGET_COLS].values
	overall_r2 = compute_weighted_r2(oof_preds, targets_arr)

	logger.info(f"\n{'='*60}")
	logger.info(f"Overall OOF R²: {overall_r2:.4f}")
	logger.info(f"Per-fold R²: {[f'{s:.4f}' for s in fold_scores]}")
	logger.info(f"Mean fold R²: {np.mean(fold_scores):.4f} ± {np.std(fold_scores):.4f}")
	logger.info(f"{'='*60}")

	# Save OOF predictions
	oof_df = df[['image_id']].copy()
	for i, col in enumerate(TARGET_COLS):
	oof_df[col] = oof_preds[:, i]
	oof_df.to_csv(Path(self.args.output_dir) / 'oof_predictions.csv', index=False)

	return overall_r2, fold_scores


	# ============================================================
	# Data Loading Utilities
	# ============================================================
	def load_competition_data(data_dir: str):
	"""
	Load competition data. Expected structure:
	data_dir/
	train.csv
	test.csv
	train_images/
	test_images/
	sample_submission.csv
	"""
	data_dir = Path(data_dir)

	# Load CSVs
	train_df = pd.read_csv(data_dir / 'train.csv')
	test_df = pd.read_csv(data_dir / 'test.csv')

	if (data_dir / 'sample_submission.csv').exists():
	sample_sub = pd.read_csv(data_dir / 'sample_submission.csv')
	else:
	sample_sub = None

	# Determine image directories
	train_img_dir = data_dir / 'train_images'
	test_img_dir = data_dir / 'test_images'

	if not train_img_dir.exists():
	train_img_dir = data_dir / 'train'
	if not test_img_dir.exists():
	test_img_dir = data_dir / 'test'

	logger.info(f"Train samples: {len(train_df)}")
	logger.info(f"Test samples: {len(test_df)}")
	logger.info(f"Train columns: {list(train_df.columns)}")
	logger.info(f"Test columns: {list(test_df.columns)}")

	# Check for target columns
	available_targets = [c for c in TARGET_COLS if c in train_df.columns]
	logger.info(f"Available targets: {available_targets}")

	# Print target statistics
	if available_targets:
	logger.info("\nTarget statistics:")
	for col in available_targets:
	logger.info(f" {col}: mean={train_df[col].mean():.2f}, "
	f"median={train_df[col].median():.2f}, "
	f"std={train_df[col].std():.2f}, "
	f"min={train_df[col].min():.2f}, "
	f"max={train_df[col].max():.2f}")

	return train_df, test_df, sample_sub, str(train_img_dir), str(test_img_dir)


	def create_submission(preds: np.ndarray, image_ids: List[str], output_path: str):
	"""
	Create submission CSV in required format.

	Args:
	preds: [N, 5] predictions
	image_ids: list of image IDs
	output_path: path to save CSV
	"""
	rows = []
	for i, img_id in enumerate(image_ids):
	for j, target_name in enumerate(TARGET_COLS):
	rows.append({
	'sample_id': f"{img_id}__{target_name}",
	'target': max(0, preds[i, j]), # Ensure non-negative
	})

	sub_df = pd.DataFrame(rows)
	sub_df.to_csv(output_path, index=False)
	logger.info(f"Submission saved to {output_path} ({len(sub_df)} rows)")
	return sub_df


	# ============================================================
	# Seed and Reproducibility
	# ============================================================
	def set_seed(seed: int):
	"""Set random seed for reproducibility."""
	random.seed(seed)
	np.random.seed(seed)
	torch.manual_seed(seed)
	if torch.cuda.is_available():
	torch.cuda.manual_seed_all(seed)
	torch.backends.cudnn.deterministic = True
	torch.backends.cudnn.benchmark = False


	# ============================================================
	# Main
	# ============================================================
	def get_args():
	parser = argparse.ArgumentParser(description='CSIRO Image2Biomass Training')

	# Data
	parser.add_argument('--data_dir', type=str, required=True, help='Competition data directory')
	parser.add_argument('--output_dir', type=str, default='./output', help='Output directory')

	# Model
	parser.add_argument('--backbone', type=str, default='dinov2_base',
	choices=list(BACKBONE_CONFIGS.keys()), help='Backbone architecture')
	parser.add_argument('--img_size', type=int, default=None, help='Image size (default: backbone native)')
	parser.add_argument('--hidden_dim', type=int, default=512, help='Hidden dim in MLP head')
	parser.add_argument('--dropout', type=float, default=0.3, help='Dropout rate')
	parser.add_argument('--separate_heads', action='store_true', help='Use separate heads per target')
	parser.add_argument('--grad_checkpointing', action='store_true', help='Enable gradient checkpointing')
	parser.add_argument('--use_ndvi', action='store_true', help='Use NDVI features')

	# Training
	parser.add_argument('--epochs', type=int, default=50, help='Max epochs')
	parser.add_argument('--batch_size', type=int, default=32, help='Batch size')
	parser.add_argument('--backbone_lr', type=float, default=5e-5, help='Backbone learning rate')
	parser.add_argument('--head_lr', type=float, default=1e-3, help='Head learning rate')
	parser.add_argument('--min_lr', type=float, default=1e-7, help='Min learning rate')
	parser.add_argument('--weight_decay', type=float, default=1e-2, help='Weight decay')
	parser.add_argument('--optimizer', type=str, default='adamw', choices=['adamw', 'sgd'])
	parser.add_argument('--scheduler', type=str, default='cosine', choices=['cosine', 'plateau', 'none'])
	parser.add_argument('--warmup_ratio', type=float, default=0.05, help='Warmup ratio')
	parser.add_argument('--max_grad_norm', type=float, default=1.0, help='Max gradient norm')
	parser.add_argument('--grad_accum_steps', type=int, default=1, help='Gradient accumulation steps')
	parser.add_argument('--patience', type=int, default=10, help='Early stopping patience')
	parser.add_argument('--log_interval', type=int, default=10, help='Log every N batches')

	# Augmentation
	parser.add_argument('--aug_strength', type=str, default='medium', choices=['light', 'medium', 'heavy'])
	parser.add_argument('--log_transform', action='store_true', default=True, help='Log-transform targets')
	parser.add_argument('--no_log_transform', action='store_true', help='Disable log-transform')

	# LDS
	parser.add_argument('--use_lds', action='store_true', help='Use Label Distribution Smoothing')
	parser.add_argument('--lds_bins', type=int, default=100)
	parser.add_argument('--lds_kernel_size', type=int, default=5)
	parser.add_argument('--lds_sigma', type=float, default=2.0)

	# Loss
	parser.add_argument('--mse_weight', type=float, default=0.0, help='MSE loss weight')
	parser.add_argument('--consistency_weight', type=float, default=0.1, help='Consistency loss weight')

	# CV
	parser.add_argument('--n_folds', type=int, default=5, help='Number of CV folds')
	parser.add_argument('--fold', type=int, default=None, help='Train single fold (None=all)')

	# Misc
	parser.add_argument('--seed', type=int, default=42)
	parser.add_argument('--num_workers', type=int, default=4)
	parser.add_argument('--mixed_precision', action='store_true', default=True)

	args = parser.parse_args()

	if args.no_log_transform:
	args.log_transform = False

	return args


	def main():
	args = get_args()
	set_seed(args.seed)

	# Load data
	train_df, test_df, sample_sub, train_img_dir, test_img_dir = load_competition_data(args.data_dir)

	# Separate features and targets
	targets = train_df[TARGET_COLS].copy()

	# Create output directory
	Path(args.output_dir).mkdir(parents=True, exist_ok=True)

	# Save args
	with open(Path(args.output_dir) / 'args.json', 'w') as f:
	json.dump(vars(args), f, indent=2)

	# Train
	trainer = Trainer(args)

	if args.fold is not None:
	# Single fold training
	from sklearn.model_selection import StratifiedKFold
	bins = pd.qcut(targets['Dry_Total_g'], q=min(10, args.n_folds), labels=False, duplicates='drop')
	kf = StratifiedKFold(n_splits=args.n_folds, shuffle=True, random_state=args.seed)

	for fold_idx, (train_idx, val_idx) in enumerate(kf.split(train_df, bins)):
	if fold_idx == args.fold:
	train_fold_df = train_df.iloc[train_idx]
	val_fold_df = train_df.iloc[val_idx]
	train_targets = targets.iloc[train_idx]
	val_targets = targets.iloc[val_idx]

	model, val_metrics = trainer.train_fold(
	args.fold, train_fold_df, val_fold_df,
	train_targets, val_targets, train_img_dir
	)
	break
	else:
	# Full K-fold training
	overall_r2, fold_scores = trainer.train_kfold(train_df, targets, train_img_dir)

	logger.info("Training complete!")


	if __name__ == '__main__':
	main()