Spaces:

gyubin02
/

maple-data

Sleeping

maple-data / train.py

fed41a9 21 days ago

12.3 kB

	#!/usr/bin/env python3
	from __future__ import annotations

	import argparse
	import json
	import random
	from contextlib import nullcontext
	from pathlib import Path
	from typing import Any

	import torch
	import torch.nn.functional as F
	from PIL import Image
	from peft import LoraConfig, TaskType, get_peft_model
	from sklearn.model_selection import train_test_split
	from torch.utils.data import DataLoader, Dataset
	from transformers import SiglipModel, SiglipProcessor


	class CustomDataset(Dataset):
	def __init__(self, records: list[dict[str, Any]], processor: SiglipProcessor, max_length: int) -> None:
	self.records = records
	self.image_processor = processor.image_processor
	self.tokenizer = processor.tokenizer
	self.max_length = max_length

	def __len__(self) -> int:
	return len(self.records)

	def __getitem__(self, idx: int) -> dict[str, torch.Tensor]:
	record = self.records[idx]
	image_path = record["image_path"]
	label = record["label_ko"]
	with Image.open(image_path) as img:
	image = img.convert("RGB")

	image_inputs = self.image_processor(images=image, return_tensors="pt")
	text_inputs = self.tokenizer(
	label,
	return_tensors="pt",
	padding="max_length",
	truncation=True,
	max_length=self.max_length,
	return_attention_mask=True,
	)

	input_ids = text_inputs["input_ids"][0]
	if "attention_mask" in text_inputs:
	attention_mask = text_inputs["attention_mask"][0]
	else:
	pad_id = self.tokenizer.pad_token_id if self.tokenizer.pad_token_id is not None else 0
	attention_mask = (input_ids != pad_id).long()

	return {
	"pixel_values": image_inputs["pixel_values"][0],
	"input_ids": input_ids,
	"attention_mask": attention_mask,
	}


	def load_records(data_file: Path, data_root: Path) -> list[dict[str, Any]]:
	text = data_file.read_text(encoding="utf-8").strip()
	if not text:
	raise ValueError(f"Empty data file: {data_file}")

	if text.lstrip().startswith("["):
	raw_records = json.loads(text)
	else:
	raw_records = []
	for line in text.splitlines():
	line = line.strip()
	if not line:
	continue
	raw_records.append(json.loads(line))

	records: list[dict[str, Any]] = []
	missing = 0
	for rec in raw_records:
	image_path = rec.get("image_path")
	label = rec.get("label_ko")
	if not image_path or not label:
	continue
	path = Path(image_path)
	if not path.is_absolute():
	path = (data_root / path).resolve()
	if not path.exists():
	missing += 1
	continue
	label_text = str(label).strip()
	if not label_text:
	continue
	records.append({"image_path": path, "label_ko": label_text})

	if missing:
	print(f"Skipped {missing} records with missing images.")
	if not records:
	raise ValueError("No valid records found after filtering.")
	return records


	def prepare_model_and_processor(
	model_id: str,
	lora_r: int,
	lora_alpha: int,
	lora_dropout: float,
	) -> tuple[SiglipModel, SiglipProcessor]:
	processor = SiglipProcessor.from_pretrained(model_id)
	base_model = SiglipModel.from_pretrained(model_id)
	for param in base_model.parameters():
	param.requires_grad = False

	lora_config = LoraConfig(
	r=lora_r,
	lora_alpha=lora_alpha,
	lora_dropout=lora_dropout,
	bias="none",
	task_type=TaskType.FEATURE_EXTRACTION,
	target_modules=["q_proj", "k_proj", "v_proj", "out_proj"],
	)
	model = get_peft_model(base_model, lora_config)
	model.print_trainable_parameters()
	return model, processor


	def clip_contrastive_loss(
	model: SiglipModel,
	image_embeds: torch.Tensor,
	text_embeds: torch.Tensor,
	) -> torch.Tensor:
	image_embeds = image_embeds / image_embeds.norm(p=2, dim=-1, keepdim=True)
	text_embeds = text_embeds / text_embeds.norm(p=2, dim=-1, keepdim=True)
	logit_scale = model.logit_scale.exp().clamp(max=100)
	logits_per_text = logit_scale * text_embeds @ image_embeds.t()
	logits_per_image = logits_per_text.t()
	labels = torch.arange(logits_per_text.size(0), device=logits_per_text.device)
	loss_t = F.cross_entropy(logits_per_text, labels)
	loss_i = F.cross_entropy(logits_per_image, labels)
	return (loss_t + loss_i) / 2


	@torch.no_grad()
	def evaluate(
	model: SiglipModel,
	data_loader: DataLoader,
	device: torch.device,
	autocast_context,
	) -> float:
	model.eval()
	total_loss = 0.0
	steps = 0
	for batch in data_loader:
	batch = {k: v.to(device, non_blocking=True) for k, v in batch.items()}
	with autocast_context:
	image_embeds = model.get_image_features(pixel_values=batch["pixel_values"])
	text_embeds = model.get_text_features(
	input_ids=batch["input_ids"],
	attention_mask=batch["attention_mask"],
	)
	loss = clip_contrastive_loss(model, image_embeds, text_embeds)
	total_loss += loss.item()
	steps += 1
	return total_loss / max(steps, 1)


	@torch.no_grad()
	def run_similarity_test(
	model: SiglipModel,
	processor: SiglipProcessor,
	sample: dict[str, Any],
	device: torch.device,
	autocast_context,
	) -> None:
	model.eval()
	image_path = sample["image_path"]
	label = sample["label_ko"]
	queries = [label, "unrelated item icon"]

	with Image.open(image_path) as img:
	image = img.convert("RGB")

	image_inputs = processor.image_processor(images=image, return_tensors="pt")
	text_inputs = processor.tokenizer(
	queries,
	return_tensors="pt",
	padding=True,
	truncation=True,
	max_length=processor.tokenizer.model_max_length,
	)

	image_inputs = {k: v.to(device) for k, v in image_inputs.items()}
	text_inputs = {k: v.to(device) for k, v in text_inputs.items()}

	with autocast_context:
	image_features = model.get_image_features(**image_inputs)
	text_features = model.get_text_features(**text_inputs)

	image_features = image_features / image_features.norm(dim=-1, keepdim=True)
	text_features = text_features / text_features.norm(dim=-1, keepdim=True)
	scores = (text_features @ image_features.T).squeeze(-1).cpu().tolist()

	print("Similarity test (higher is better):")
	for query, score in zip(queries, scores):
	print(f"- {query}: {score:.4f}")


	def collate_fn(batch: list[dict[str, torch.Tensor]]) -> dict[str, torch.Tensor]:
	return {
	"pixel_values": torch.stack([item["pixel_values"] for item in batch]),
	"input_ids": torch.stack([item["input_ids"] for item in batch]),
	"attention_mask": torch.stack([item["attention_mask"] for item in batch]),
	}


	def parse_args() -> argparse.Namespace:
	parser = argparse.ArgumentParser(description="LoRA fine-tuning for KoCLIP image-text retrieval.")
	parser.add_argument("--data-file", type=Path, required=True, help="Path to JSONL or JSON data file.")
	parser.add_argument(
	"--data-root",
	type=Path,
	default=Path.cwd(),
	help="Root directory for relative image paths.",
	)
	parser.add_argument("--output-dir", type=Path, default=Path("outputs/ko-clip-lora"))
	parser.add_argument(
	"--model-id",
	type=str,
	default="google/siglip-base-patch16-256-multilingual",
	)
	parser.add_argument("--epochs", type=int, default=10)
	parser.add_argument(
	"--batch-size",
	type=int,
	default=64,
	help="Per-device batch size (64-128 typical on 24GB; reduce if OOM).",
	)
	parser.add_argument("--grad-accum-steps", type=int, default=1)
	parser.add_argument("--learning-rate", type=float, default=1e-4)
	parser.add_argument("--weight-decay", type=float, default=0.01)
	parser.add_argument("--val-ratio", type=float, default=0.1)
	parser.add_argument("--num-workers", type=int, default=4)
	parser.add_argument("--seed", type=int, default=42)
	parser.add_argument("--lora-r", type=int, default=8)
	parser.add_argument("--lora-alpha", type=int, default=16)
	parser.add_argument("--lora-dropout", type=float, default=0.1)
	return parser.parse_args()


	def main() -> None:
	args = parse_args()

	if not 0.1 <= args.val_ratio <= 0.15:
	raise ValueError("--val-ratio must be between 0.10 and 0.15")

	random.seed(args.seed)
	torch.manual_seed(args.seed)
	torch.cuda.manual_seed_all(args.seed)

	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	if device.type != "cuda":
	print("WARNING: CUDA not available; using fp32. bf16 requires GPU.")

	torch.backends.cuda.matmul.allow_tf32 = True

	records = load_records(args.data_file, args.data_root)
	train_records, val_records = train_test_split(
	records,
	test_size=args.val_ratio,
	random_state=args.seed,
	shuffle=True,
	)
	print(f"Loaded {len(records)} samples (train={len(train_records)}, val={len(val_records)}).")

	model, processor = prepare_model_and_processor(
	args.model_id,
	lora_r=args.lora_r,
	lora_alpha=args.lora_alpha,
	lora_dropout=args.lora_dropout,
	)
	model.to(device)

	max_length = processor.tokenizer.model_max_length
	train_dataset = CustomDataset(train_records, processor, max_length)
	val_dataset = CustomDataset(val_records, processor, max_length)

	pin_memory = device.type == "cuda"
	train_loader = DataLoader(
	train_dataset,
	batch_size=args.batch_size,
	shuffle=True,
	num_workers=args.num_workers,
	pin_memory=pin_memory,
	collate_fn=collate_fn,
	)
	val_loader = DataLoader(
	val_dataset,
	batch_size=args.batch_size,
	shuffle=False,
	num_workers=args.num_workers,
	pin_memory=pin_memory,
	collate_fn=collate_fn,
	)

	trainable_params = [p for p in model.parameters() if p.requires_grad]
	if not trainable_params:
	raise RuntimeError("No trainable parameters found. Check LoRA target_modules.")
	optimizer = torch.optim.AdamW(trainable_params, lr=args.learning_rate, weight_decay=args.weight_decay)

	if device.type == "cuda":
	autocast_context = torch.cuda.amp.autocast(dtype=torch.bfloat16)
	else:
	autocast_context = nullcontext()

	best_val = float("inf")
	output_dir = args.output_dir
	output_dir.mkdir(parents=True, exist_ok=True)

	for epoch in range(1, args.epochs + 1):
	model.train()
	total_loss = 0.0
	steps = 0

	for step, batch in enumerate(train_loader, start=1):
	batch = {k: v.to(device, non_blocking=True) for k, v in batch.items()}
	with autocast_context:
	image_embeds = model.get_image_features(pixel_values=batch["pixel_values"])
	text_embeds = model.get_text_features(
	input_ids=batch["input_ids"],
	attention_mask=batch["attention_mask"],
	)
	loss = clip_contrastive_loss(model, image_embeds, text_embeds)
	total_loss += loss.item()
	loss = loss / args.grad_accum_steps
	loss.backward()

	if step % args.grad_accum_steps == 0 or step == len(train_loader):
	torch.nn.utils.clip_grad_norm_(trainable_params, 1.0)
	optimizer.step()
	optimizer.zero_grad(set_to_none=True)

	steps += 1

	train_loss = total_loss / max(steps, 1)
	val_loss = evaluate(model, val_loader, device, autocast_context)
	print(f"Epoch {epoch:02d} \| train loss: {train_loss:.4f} \| val loss: {val_loss:.4f}")

	if val_loss < best_val:
	best_val = val_loss
	best_dir = output_dir / "best_model"
	best_dir.mkdir(parents=True, exist_ok=True)
	model.save_pretrained(best_dir)

	if val_records:
	run_similarity_test(model, processor, val_records[0], device, autocast_context)


	if __name__ == "__main__":
	main()