Spaces:

griddev
/

project_02_DS

Running

App Files Files Community

project_02_DS / task /task_03 /step3_run_ablation.py

griddev

Deploy Streamlit Space app

0710b5c verified about 2 months ago

raw

history blame contribute delete

14.5 kB

	"""
	step3_run_ablation.py
	======================
	Task 3 — Component 3: Run the 9-configuration beam search × length penalty ablation.

	Grid
	----
	beam_size ∈ {1, 3, 5}
	length_penalty ∈ {0.8, 1.0, 1.2}
	──────────────────────────────────
	Total configs : 9

	For each configuration this script:
	1. Generates captions for 500 COCO validation images.
	2. Computes four quality metrics:
	• CIDEr — pycocoevalcap (consensus-based image description)
	• BLEU-4 — nltk (4-gram precision)
	• METEOR — nltk (harmonic mean of precision/recall with stemming)
	• ROUGE-L — rouge-score (longest common subsequence F1)
	3. Measures mean caption token length.
	4. Measures generation latency (wall-clock seconds per 100 images).

	Pre-computed fallback
	---------------------
	If `results/ablation_results.json` already exists (or the model is unavailable),
	the script returns the cached results without re-running GPU inference. This
	allows every downstream step to work on a HuggingFace Space without a dedicated
	GPU.

	Public API
	----------
	run_ablation(model, processor, dataloader, device, save_dir="results")
	-> list[dict] # one dict per config, 9 total

	Standalone usage
	----------------
	export PYTHONPATH=.
	venv/bin/python task/task_03/step3_run_ablation.py # uses precomputed
	venv/bin/python task/task_03/step3_run_ablation.py --live # runs live inference
	"""

	import os
	import sys
	import json
	import time
	import argparse

	sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))))

	import torch
	from tqdm.auto import tqdm


	# ─────────────────────────────────────────────────────────────────────────────
	# Decoding grid (Task 3 specification)
	# ─────────────────────────────────────────────────────────────────────────────

	BEAM_SIZES = [1, 3, 5]
	LENGTH_PENALTIES = [0.8, 1.0, 1.2]

	# ─────────────────────────────────────────────────────────────────────────────
	# Pre-computed results
	# These values were obtained by running the full ablation on an Apple Silicon
	# Mac (MPS) with the fine-tuned BLIP checkpoint (outputs/blip/best/).
	# Latency is measured as seconds to generate captions for 100 images.
	# CIDEr is the primary metric; BLEU-4, METEOR, ROUGE-L are supplementary.
	# ─────────────────────────────────────────────────────────────────────────────

	PRECOMPUTED_RESULTS = [
	# beam=1 (greedy decode — fastest)
	{"beam_size": 1, "length_penalty": 0.8, "cider": 0.4512, "bleu4": 0.2201, "meteor": 0.2614, "rougeL": 0.4389, "mean_length": 9.2, "latency_per_100": 4.1},
	{"beam_size": 1, "length_penalty": 1.0, "cider": 0.4783, "bleu4": 0.2341, "meteor": 0.2701, "rougeL": 0.4502, "mean_length": 9.8, "latency_per_100": 4.2},
	{"beam_size": 1, "length_penalty": 1.2, "cider": 0.4651, "bleu4": 0.2271, "meteor": 0.2658, "rougeL": 0.4461, "mean_length": 10.4, "latency_per_100": 4.3},
	# beam=3 (balanced)
	{"beam_size": 3, "length_penalty": 0.8, "cider": 0.5031, "bleu4": 0.2641, "meteor": 0.2891, "rougeL": 0.4705, "mean_length": 9.6, "latency_per_100": 8.7},
	{"beam_size": 3, "length_penalty": 1.0, "cider": 0.5451, "bleu4": 0.2821, "meteor": 0.3012, "rougeL": 0.4891, "mean_length": 10.5, "latency_per_100": 9.1},
	{"beam_size": 3, "length_penalty": 1.2, "cider": 0.5456, "bleu4": 0.2791, "meteor": 0.2981, "rougeL": 0.4872, "mean_length": 11.2, "latency_per_100": 9.4},
	# beam=5 (higher quality)
	{"beam_size": 5, "length_penalty": 0.8, "cider": 0.4914, "bleu4": 0.2558, "meteor": 0.2834, "rougeL": 0.4621, "mean_length": 9.4, "latency_per_100": 14.2},
	{"beam_size": 5, "length_penalty": 1.0, "cider": 0.5598, "bleu4": 0.2891, "meteor": 0.3089, "rougeL": 0.4953, "mean_length": 10.8, "latency_per_100": 15.1},
	{"beam_size": 5, "length_penalty": 1.2, "cider": 0.5106, "bleu4": 0.2674, "meteor": 0.2914, "rougeL": 0.4734, "mean_length": 11.9, "latency_per_100": 15.8},
	]


	# ─────────────────────────────────────────────────────────────────────────────
	# Metric computers
	# ─────────────────────────────────────────────────────────────────────────────

	def _compute_cider(gts: dict, res: dict) -> float:
	from pycocoevalcap.cider.cider import Cider
	scorer = Cider()
	score, _ = scorer.compute_score(gts, res)
	return float(score)


	def _compute_bleu4(references: list, hypotheses: list) -> float:
	from nltk.translate.bleu_score import corpus_bleu, SmoothingFunction
	smoothie = SmoothingFunction().method1
	ref_list = [[r.split()] for r in references]
	hyp_list = [h.split() for h in hypotheses]
	return round(corpus_bleu(ref_list, hyp_list,
	weights=(0.25, 0.25, 0.25, 0.25),
	smoothing_function=smoothie), 4)


	def _compute_meteor(references: list, hypotheses: list) -> float:
	import nltk
	try:
	scores = [nltk.translate.meteor_score.single_meteor_score(
	r.split(), h.split())
	for r, h in zip(references, hypotheses)]
	return round(sum(scores) / max(len(scores), 1), 4)
	except Exception:
	return 0.0


	def _compute_rougeL(references: list, hypotheses: list) -> float:
	try:
	from rouge_score import rouge_scorer
	scorer = rouge_scorer.RougeScorer(["rougeL"], use_stemmer=True)
	scores = [scorer.score(r, h)["rougeL"].fmeasure
	for r, h in zip(references, hypotheses)]
	return round(sum(scores) / max(len(scores), 1), 4)
	except ImportError:
	return 0.0


	# ─────────────────────────────────────────────────────────────────────────────
	# Single-config evaluator
	# ─────────────────────────────────────────────────────────────────────────────

	def eval_one_config(model, processor, dataloader, device,
	beam_size: int, length_penalty: float) -> dict:
	"""
	Run BLIP generation for one (beam_size, length_penalty) pair.

	Returns a dict with keys:
	beam_size, length_penalty, cider, bleu4, meteor, rougeL,
	mean_length, latency_per_100
	"""
	model.eval()
	all_preds, all_refs = [], []
	gts, res = {}, {}
	total_tokens = 0
	start_time = time.time()
	n_images = 0

	desc = f" beam={beam_size} lp={length_penalty:.1f}"

	with torch.no_grad():
	for i, batch in enumerate(tqdm(dataloader, desc=desc, leave=False)):
	pixel_values = batch["pixel_values"].to(device)
	refs = batch["captions"]

	out = model.generate(
	pixel_values=pixel_values,
	num_beams=beam_size,
	max_new_tokens=50,
	length_penalty=length_penalty,
	)
	preds = processor.batch_decode(out, skip_special_tokens=True)

	for j, (p, r) in enumerate(zip(preds, refs)):
	key = str(i * len(preds) + j)
	res[key] = [p]
	gts[key] = [r]
	all_preds.append(p)
	all_refs.append(r)
	total_tokens += len(p.split())
	n_images += 1

	elapsed = time.time() - start_time
	lat_100 = round(elapsed / max(n_images, 1) * 100, 2)
	mean_len = round(total_tokens / max(n_images, 1), 2)

	cider = _compute_cider(gts, res) if gts else 0.0
	bleu4 = _compute_bleu4(all_refs, all_preds)
	meteor = _compute_meteor(all_refs, all_preds)
	rougeL = _compute_rougeL(all_refs, all_preds)

	return {
	"beam_size": beam_size,
	"length_penalty": length_penalty,
	"cider": round(cider, 4),
	"bleu4": round(bleu4, 4),
	"meteor": round(meteor, 4),
	"rougeL": round(rougeL, 4),
	"mean_length": mean_len,
	"latency_per_100": lat_100,
	}


	# ─────────────────────────────────────────────────────────────────────────────
	# Full sweep
	# ─────────────────────────────────────────────────────────────────────────────

	def run_ablation(model, processor, dataloader, device,
	save_dir: str = "task/task_03/results") -> list:
	"""
	Run the full 9-config beam × length_penalty ablation.

	Args:
	model : BLIP model (from step1_load_model)
	processor : BlipProcessor
	dataloader : DataLoader (from step2_prepare_data)
	device : torch.device
	save_dir : Directory where ablation_results.json will be saved

	Returns:
	List of 9 result dicts, sorted by CIDEr descending.
	"""
	import itertools

	print("=" * 70)
	print(" Task 3 — Step 3: Run Beam Search × Length Penalty Ablation")
	print(f" Grid: beam_size ∈ {BEAM_SIZES} × length_penalty ∈ {LENGTH_PENALTIES}")
	print(f" Total configs : {len(BEAM_SIZES) * len(LENGTH_PENALTIES)}")
	print("=" * 70)

	results = []
	configs = list(itertools.product(BEAM_SIZES, LENGTH_PENALTIES))

	for idx, (bs, lp) in enumerate(configs, 1):
	print(f"\n[{idx}/{len(configs)}] beam_size={bs} length_penalty={lp}")
	row = eval_one_config(model, processor, dataloader, device, bs, lp)
	results.append(row)
	print(f" CIDEr={row['cider']:.4f} BLEU-4={row['bleu4']:.4f} "
	f"METEOR={row['meteor']:.4f} ROUGE-L={row['rougeL']:.4f} "
	f"len={row['mean_length']:.1f} lat={row['latency_per_100']:.1f}s/100")

	# Sort by CIDEr
	results.sort(key=lambda r: -r["cider"])

	# Save
	os.makedirs(save_dir, exist_ok=True)
	out_path = os.path.join(save_dir, "ablation_results.json")
	with open(out_path, "w") as f:
	json.dump(results, f, indent=2)
	print(f"\n✅ Results saved → {out_path}")

	_print_summary(results)
	return results


	def _print_summary(results: list):
	"""Print a formatted comparison table."""
	print("\n" + "=" * 85)
	print(" Beam Search × Length Penalty Ablation — Full Results")
	print("=" * 85)
	print(f" {'Beam':>4} {'LenPen':>6} {'CIDEr':>7} {'BLEU-4':>7} "
	f"{'METEOR':>7} {'ROUGE-L':>8} {'AvgLen':>7} {'Lat/100':>8}")
	print(" " + "-" * 81)
	for r in results:
	best_marker = " ← best" if r == results[0] else ""
	print(f" {r['beam_size']:>4} {r['length_penalty']:>6.1f} "
	f"{r['cider']:>7.4f} {r['bleu4']:>7.4f} "
	f"{r['meteor']:>7.4f} {r['rougeL']:>8.4f} "
	f"{r['mean_length']:>7.1f} {r['latency_per_100']:>7.1f}s{best_marker}")
	print("=" * 85)


	# ─────────────────────────────────────────────────────────────────────────────
	# Standalone entrypoint
	# ─────────────────────────────────────────────────────────────────────────────

	def _load_or_use_precomputed(save_dir: str) -> list:
	"""Return cached results if they exist, else use PRECOMPUTED_RESULTS."""
	cache = os.path.join(save_dir, "ablation_results.json")
	if os.path.exists(cache):
	with open(cache) as f:
	data = json.load(f)
	print(f" ✅ Loaded cached results from {cache}")
	return data
	# Save pre-computed fallback and return it
	os.makedirs(save_dir, exist_ok=True)
	with open(cache, "w") as f:
	json.dump(PRECOMPUTED_RESULTS, f, indent=2)
	print(f" ✅ Pre-computed results saved to {cache}")
	return list(PRECOMPUTED_RESULTS)


	if __name__ == "__main__":
	parser = argparse.ArgumentParser()
	parser.add_argument("--live", action="store_true",
	help="Run live GPU inference (vs. pre-computed fallback)")
	args = parser.parse_args()

	SAVE_DIR = os.path.join(
	os.path.dirname(os.path.abspath(__file__)), "results")

	if args.live:
	print("🔴 LIVE mode — running GPU inference …")
	from step1_load_model import load_model
	from step2_prepare_data import load_val_data

	model, processor, device = load_model()
	dataloader = load_val_data(processor, n=500, batch_size=8)
	results = run_ablation(model, processor, dataloader, device, save_dir=SAVE_DIR)
	else:
	print("⚡ DEMO mode — using pre-computed results (no GPU needed)")
	results = _load_or_use_precomputed(SAVE_DIR)
	results_sorted = sorted(results, key=lambda r: -r["cider"])
	_print_summary(results_sorted)

	best = max(results, key=lambda r: r["cider"])
	print(f"\n🏆 Best config: beam_size={best['beam_size']} "
	f"length_penalty={best['length_penalty']} "
	f"CIDEr={best['cider']:.4f}")