SimToken / tools /ec_simtoken_eval.py

Upload folder using huggingface_hub

9af2926 verified 9 days ago

22.2 kB

	#!/usr/bin/env python
	"""EC-SimToken standalone evaluation: score distribution + threshold sweep.

	Loads a saved checkpoint and reports:
	1. p_exist distribution per split (mean/median/p10/p25/p75/p90)
	2. AUC-ROC (test_n as null class vs test_s+test_u as positive class)
	3. Threshold sweep 0.05→0.95: J&F, Null_S, null_tp_rate, positive_fnr

	Usage:
	cd /workspace/SimToken
	python tools/ec_simtoken_eval.py \
	--checkpoint checkpoints/ec_simtoken/ec_simtoken_v1_ep2.pth \
	--out_dir runs/ec_simtoken/eval_ep2
	"""

	from __future__ import annotations
	import argparse, os, sys
	from functools import partial

	import numpy as np
	import torch
	import transformers
	from peft import LoraConfig, get_peft_model
	from torch.utils.data import DataLoader
	from transformers import AutoConfig
	from tqdm import tqdm

	ROOT = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
	sys.path.insert(0, ROOT)
	os.environ["CUDA_VISIBLE_DEVICES"] = "0"

	from datasets.dataset_refavs import REFAVS
	from models.ec_simtoken_model import ECSimtoken_ForCausalLM
	from utils import utility

	# ── Defaults (match training command) ────────────────────────────────────────
	MLLM = "/workspace/hf_models/Chat-UniVi-7B-v1.5"
	SAM_CKPT = "/workspace/SimToken/models/segment_anything/sam_vit_h_4b8939.pth"
	VISION_TOWER = "/workspace/hf_models/clip-vit-large-patch14"
	DATA_DIR = "data"

	IGNORE_INDEX = -100
	IMAGE_TOKEN_INDEX = -200
	AUDIO_TOKEN_INDEX = -300

	import re

	def tokenizer_image_audio_token(prompt, tokenizer,
	image_token_index=IMAGE_TOKEN_INDEX,
	audio_token_index=AUDIO_TOKEN_INDEX,
	num_frames=10, return_tensors=None):
	prompt_chunks = re.split(r'(<image>\|<audio>\|<video>)', prompt)
	prompt_chunks = [c for c in prompt_chunks if c]
	text_chunks, token_types = [], []
	for chunk in prompt_chunks:
	if chunk == "<image>": token_types.append("image")
	elif chunk == "<audio>": token_types.append("audio")
	elif chunk == "<video>": token_types.append("video")
	else: text_chunks.append(chunk)
	tokenized_chunks = [tokenizer(c).input_ids for c in text_chunks]
	input_ids, offset = [], 0
	if tokenized_chunks and tokenized_chunks[0] and tokenized_chunks[0][0] == tokenizer.bos_token_id:
	offset = 1
	input_ids.append(tokenized_chunks[0][0])
	min_len = min(len(text_chunks), len(token_types))
	for i in range(min_len):
	input_ids.extend(tokenized_chunks[i][offset:])
	if token_types[i] == "image": input_ids.append(image_token_index)
	elif token_types[i] == "audio": input_ids.append(audio_token_index)
	elif token_types[i] == "video": input_ids.extend([image_token_index] * num_frames)
	if len(text_chunks) > min_len:
	input_ids.extend(tokenized_chunks[min_len][offset:])
	if return_tensors == "pt":
	return torch.tensor(input_ids, dtype=torch.long)
	return input_ids


	def collate_fn(batch, tokenizer=None):
	vids, images, image_clips, masks, conversations = [], [], [], [], []
	audio_feats, image_feats, resizes, orgsizes = [], [], [], []
	refs, refs_num, fids = [], [], []
	for data in batch:
	vids.append(data["vid"]); images.append(data["image"])
	image_clips.append(data["img_clip"]); masks.append(data["mask"])
	conversations.append(data["conversation"])
	audio_feats.append(data["feat_aud"]); resizes.append(data["resize"])
	orgsizes.append(data["orgsize"]); image_feats.append(data["feat_sam"])
	refs_num.append(len(data["ref"])); fids.append(data["fids"])
	refs.append(data["ref"][0])
	input_ids = [tokenizer_image_audio_token(c, tokenizer, return_tensors="pt")
	for c in conversations]
	input_ids = torch.nn.utils.rnn.pad_sequence(
	input_ids, batch_first=True, padding_value=tokenizer.pad_token_id)
	attention_masks = input_ids.ne(tokenizer.pad_token_id)
	ref_ids = [tokenizer_image_audio_token(r, tokenizer, return_tensors="pt")
	for r in refs]
	labels = input_ids.clone()
	sep = "Sure, it is [SEG]"
	for conversation, target in zip(conversations, labels):
	parts = conversation.split(sep)
	cur_len = 1; target[:cur_len] = IGNORE_INDEX
	sep_len = len(tokenizer_image_audio_token(sep, tokenizer)) - 1
	for i in range(len(parts) - 1):
	part_len = len(tokenizer_image_audio_token(parts[i], tokenizer)) - 2
	target[cur_len: cur_len + part_len] = IGNORE_INDEX
	cur_len += part_len + sep_len
	target[cur_len:] = IGNORE_INDEX
	return {"vids": vids, "images": images, "images_clip": image_clips,
	"masks": masks, "convs": conversations, "input_ids": input_ids,
	"attention_masks": attention_masks, "labels": labels,
	"audio_feats": audio_feats, "resizes": resizes, "orgsizes": orgsizes,
	"image_feats": image_feats, "ref_ids": ref_ids,
	"refs_num": refs_num, "fids": fids}


	def dict_to_cuda(d):
	for k, v in d.items():
	if isinstance(v, torch.Tensor):
	d[k] = v.cuda(non_blocking=True)
	elif isinstance(v, list) and v and isinstance(v[0], torch.Tensor):
	d[k] = [x.cuda(non_blocking=True) for x in v]
	return d


	def build_model(args, tokenizer, seg_token_idx):
	model_args = {
	"train_mask_decoder": True, "out_dim": 256,
	"ce_loss_weight": 1.0, "dice_loss_weight": 0.5, "bce_loss_weight": 2.0,
	"seg_token_idx": seg_token_idx,
	"vision_pretrained": args.vision_pretrained,
	"vision_tower": args.vision_tower,
	"use_im_start_end": False, "compress": True, "start": 0,
	"exist_loss_weight": 1.0,
	}
	model = ECSimtoken_ForCausalLM.from_pretrained(
	args.mllm, torch_dtype=torch.bfloat16, low_cpu_mem_usage=True, **model_args)
	model.config.eos_token_id = tokenizer.eos_token_id
	model.config.bos_token_id = tokenizer.bos_token_id
	model.config.pad_token_id = tokenizer.pad_token_id

	model.get_model().initialize_vision_modules(model.get_model().config)
	vision_tower = model.get_model().get_vision_tower()
	vision_tower.to(dtype=torch.bfloat16, device="cuda")

	cfg_pt = AutoConfig.from_pretrained(args.mllm)
	cfg_pt.use_cluster = True; cfg_pt.freeze = False; cfg_pt.mm_tune = True
	cfg_pt.spatial_cluster_rate0 = 64; cfg_pt.spatial_cluster_rate1 = 32
	cfg_pt.spatial_cluster_rate2 = 16; cfg_pt.temporal_cluster_rate = 0.0625
	cfg_pt.vision_tune = False
	model.get_model().initialize_cluster_modules(cfg_pt)
	model.get_model().initialize_lisa_modules(model.get_model().config)

	def find_linear_layers(m, targets):
	names = set()
	skip = {"visual_model", "vision_tower", "mm_projector",
	"text_hidden_fcs", "audio_feature_layer", "existence_head"}
	for name, mod in m.named_modules():
	if (isinstance(mod, torch.nn.Linear)
	and not any(s in name for s in skip)
	and any(t in name for t in targets)):
	names.add(name)
	return sorted(names)

	lora_config = LoraConfig(
	r=8, lora_alpha=16,
	target_modules=find_linear_layers(model, ["q_proj", "v_proj"]),
	lora_dropout=0.05, bias="none", task_type="CAUSAL_LM",
	)
	model = get_peft_model(model, lora_config)
	model = model.to("cuda").to(torch.bfloat16)
	model.resize_token_embeddings(len(tokenizer))
	return model


	# ── Collect p_exist + metrics + per-sample masks (single inference pass) ──────

	@torch.no_grad()
	def collect(model, dataloader, split_name: str):
	"""Single inference pass: returns p_exist array, aggregate metrics, and
	per-sample (pred_mask, gt_mask) lists for the threshold sweep."""
	model.eval()
	all_p_exist = []
	all_pred_masks = [] # list of CPU tensors [num_seg, T, H, W]
	all_gt_masks = []
	total_iou = total_f = count = 0.0
	total_null_s = null_count = 0.0

	for batch in tqdm(dataloader, desc=split_name, leave=False):
	batch = dict_to_cuda(batch)
	with torch.autocast("cuda", dtype=torch.bfloat16):
	out = model.forward(
	images=batch["images"], images_clip=batch["images_clip"],
	audio_features=batch["audio_feats"], image_features=batch["image_feats"],
	input_ids=batch["input_ids"], labels=batch["labels"],
	attention_masks=batch["attention_masks"], masks_list=batch["masks"],
	resize_list=batch["resizes"], orgsize_list=batch["orgsizes"],
	conversation_list=batch["convs"], refs_num=batch["refs_num"],
	fids=batch["fids"], vids=batch["vids"], ref_ids=batch["ref_ids"],
	inference=True,
	)
	p_exist = torch.sigmoid(out["exist_logit"]).squeeze(-1).cpu().float()
	all_p_exist.extend(p_exist.tolist())

	pred_masks = out["pred_masks"]
	gt_masks = out["gt_masks"]
	for i in range(len(pred_masks)):
	pred_i = pred_masks[i].cpu()
	gt_i = gt_masks[i].cpu()
	all_pred_masks.append(pred_i)
	all_gt_masks.append(gt_i)
	n = pred_i.shape[0] * pred_i.shape[1]
	if split_name == "test_n":
	s = utility.metric_s_for_null(pred_i)
	total_null_s += s * n; null_count += n
	else:
	iou = utility.mask_iou(pred_i, gt_i)
	f = utility.Eval_Fmeasure(pred_i, gt_i, None)
	total_iou += iou * n; total_f += f * n; count += n

	result = {
	"p_exist": np.array(all_p_exist, dtype=np.float32),
	"pred_masks": all_pred_masks,
	"gt_masks": all_gt_masks,
	"split": split_name,
	}
	if split_name == "test_n":
	result["null_s_default"] = total_null_s / (null_count + 1e-8)
	else:
	result["miou"] = total_iou / (count + 1e-8)
	result["fscore"] = total_f / (count + 1e-8)
	return result


	# ── Statistics ────────────────────────────────────────────────────────────────

	def dist_stats(arr: np.ndarray) -> dict:
	return {
	"n": len(arr), "mean": arr.mean(), "median": np.median(arr),
	"p10": np.percentile(arr, 10), "p25": np.percentile(arr, 25),
	"p75": np.percentile(arr, 75), "p90": np.percentile(arr, 90),
	"min": arr.min(), "max": arr.max(),
	}


	def auc_roc(null_scores: np.ndarray, pos_scores: np.ndarray) -> float:
	"""AUC: P(null_score < pos_score). Lower p_exist = more null-like."""
	try:
	from sklearn.metrics import roc_auc_score
	y = np.concatenate([np.zeros(len(null_scores)), np.ones(len(pos_scores))])
	s = np.concatenate([null_scores, pos_scores])
	return float(roc_auc_score(y, s))
	except ImportError:
	# O(n log n) manual AUC via sorting
	null_sorted = np.sort(null_scores)
	auc = 0.0
	for ps in pos_scores:
	auc += np.searchsorted(null_sorted, ps, side="right")
	return float(auc) / (len(null_scores) * len(pos_scores))


	# ── Threshold sweep ───────────────────────────────────────────────────────────

	def threshold_sweep(null_p: np.ndarray, pos_p: np.ndarray,
	pos_pred_masks, pos_gt_masks,
	null_pred_masks):
	"""
	At each threshold t:
	- null_tp_rate = # nulls with p_exist < t / len(null)
	- positive_fnr = # pos with p_exist < t / len(pos)
	- null_s(t) = metric_s over null samples (zero mask if detected null)
	- pos_j_and_f = J&F over pos samples (zero mask if falsely detected null)
	"""
	thresholds = np.round(np.arange(0.05, 1.00, 0.05), 2)
	rows = []
	for t in thresholds:
	null_tp = int((null_p < t).sum())
	null_tp_rate = null_tp / len(null_p)
	pos_fn = int((pos_p < t).sum())
	pos_fnr = pos_fn / len(pos_p)

	# Null_S at this threshold
	total_ns = 0.0; ns_count = 0
	for i, pm in enumerate(null_pred_masks):
	if null_p[i] < t:
	mask = torch.zeros_like(pm)
	else:
	mask = pm
	n = pm.shape[0] * pm.shape[1]
	total_ns += utility.metric_s_for_null(mask) * n
	ns_count += n
	null_s_t = total_ns / (ns_count + 1e-8)

	# J&F at this threshold (pos samples)
	total_iou = total_f = count = 0.0
	for i, (pm, gm) in enumerate(zip(pos_pred_masks, pos_gt_masks)):
	if pos_p[i] < t:
	pm = torch.zeros_like(pm)
	n = pm.shape[0] * pm.shape[1]
	total_iou += utility.mask_iou(pm, gm) * n
	total_f += utility.Eval_Fmeasure(pm, gm, None) * n
	count += n
	miou_t = total_iou / (count + 1e-8)
	f_t = total_f / (count + 1e-8)
	jf_t = (miou_t + f_t) / 2

	rows.append({
	"threshold": t,
	"null_tp_rate": null_tp_rate,
	"positive_fnr": pos_fnr,
	"Null_S": null_s_t,
	"pos_mIoU": miou_t,
	"pos_F": f_t,
	"pos_J&F": jf_t,
	})
	return rows


	# ── Main ──────────────────────────────────────────────────────────────────────

	def main():
	parser = argparse.ArgumentParser()
	parser.add_argument("--checkpoint", required=True)
	parser.add_argument("--mllm", default=MLLM)
	parser.add_argument("--vision_pretrained", default=SAM_CKPT)
	parser.add_argument("--vision_tower", default=VISION_TOWER)
	parser.add_argument("--data_dir", default=DATA_DIR)
	parser.add_argument("--out_dir", default="runs/ec_simtoken/eval")
	parser.add_argument("--batch_size", type=int, default=4)
	parser.add_argument("--num_workers", type=int, default=4)
	args = parser.parse_args()

	os.makedirs(args.out_dir, exist_ok=True)
	ep_tag = os.path.basename(args.checkpoint).replace(".pth", "")
	out_path = os.path.join(args.out_dir, f"{ep_tag}_report.txt")

	# ── Tokenizer ─────────────────────────────────────────────────────────────
	print("Loading tokenizer …")
	tokenizer = transformers.AutoTokenizer.from_pretrained(
	args.mllm, model_max_length=2048, padding_side="right", use_fast=False)
	tokenizer.pad_token = tokenizer.unk_token
	tokenizer.add_tokens("[SEG]")
	seg_token_idx = tokenizer("[SEG]", add_special_tokens=False).input_ids[0]

	# ── Datasets ──────────────────────────────────────────────────────────────
	from argparse import Namespace
	cfg = Namespace(data_dir=args.data_dir, frame_n=10, text_max_len=25,
	conv_template=1, vision_tower=args.vision_tower)
	cfn = partial(collate_fn, tokenizer=tokenizer)
	dl_kw = dict(batch_size=args.batch_size, shuffle=False,
	num_workers=args.num_workers, collate_fn=cfn,
	pin_memory=True, persistent_workers=False)

	ds_s = REFAVS("test_s", cfg, tokenizer, input_type="refer")
	ds_u = REFAVS("test_u", cfg, tokenizer, input_type="refer")
	ds_n = REFAVS("test_n", cfg, tokenizer, input_type="refer")
	loader_s = DataLoader(ds_s, **dl_kw)
	loader_u = DataLoader(ds_u, **dl_kw)
	loader_n = DataLoader(ds_n, **dl_kw)

	# ── Model ─────────────────────────────────────────────────────────────────
	print("Building model …")
	model = build_model(args, tokenizer, seg_token_idx)
	ckpt = torch.load(args.checkpoint, map_location="cuda")
	state = ckpt.get("model", ckpt)
	missing, unexpected = model.load_state_dict(state, strict=False)
	print(f"Loaded {args.checkpoint} missing={len(missing)} unexpected={len(unexpected)}")
	model.eval()

	# ── Collect ───────────────────────────────────────────────────────────────
	print("Collecting test_s …")
	res_s = collect(model, loader_s, "test_s")
	print("Collecting test_u …")
	res_u = collect(model, loader_u, "test_u")
	print("Collecting test_n …")
	res_n = collect(model, loader_n, "test_n")

	lines = []
	def log(s=""):
	print(s); lines.append(s)

	# ── Distribution ──────────────────────────────────────────────────────────
	log(f"\n{'='*64}")
	log(f"EC-SimToken Eval \| {ep_tag}")
	log(f"{'='*64}")

	log("\n── p_exist distribution ─────────────────────────────────────")
	hdr = f"{'split':<10} {'n':>6} {'mean':>6} {'med':>6} {'p10':>6} {'p25':>6} {'p75':>6} {'p90':>6} {'min':>6} {'max':>6}"
	log(hdr)
	for res, label in [(res_s, "test_s(+)"), (res_u, "test_u(+)"), (res_n, "test_n(null)")]:
	st = dist_stats(res["p_exist"])
	log(f"{label:<10} {st['n']:>6} {st['mean']:>6.3f} {st['median']:>6.3f} "
	f"{st['p10']:>6.3f} {st['p25']:>6.3f} {st['p75']:>6.3f} {st['p90']:>6.3f} "
	f"{st['min']:>6.3f} {st['max']:>6.3f}")

	# ── AUC ───────────────────────────────────────────────────────────────────
	pos_p = np.concatenate([res_s["p_exist"], res_u["p_exist"]])
	null_p = res_n["p_exist"]
	auc = auc_roc(null_p, pos_p)
	log(f"\nAUC-ROC (null vs positive): {auc:.4f}")
	log(" (0.5 = random, 1.0 = perfect separation)")

	# ── Default-threshold metrics ─────────────────────────────────────────────
	log(f"\n── Default threshold = 0.50 ──────────────────────────────────")
	jf_s = (res_s["miou"] + res_s["fscore"]) / 2
	jf_u = (res_u["miou"] + res_u["fscore"]) / 2
	log(f" test_s mIoU={res_s['miou']:.4f} F={res_s['fscore']:.4f} J&F={jf_s:.4f}")
	log(f" test_u mIoU={res_u['miou']:.4f} F={res_u['fscore']:.4f} J&F={jf_u:.4f}")
	null_tp_50 = int((null_p < 0.5).sum())
	log(f" test_n Null_S={res_n['null_s_default']:.4f} "
	f"null_tp={null_tp_50}/{len(null_p)} ({100*null_tp_50/len(null_p):.1f}%)")

	# ── Threshold sweep ───────────────────────────────────────────────────────
	log(f"\n── Threshold sweep ───────────────────────────────────────────")

	# Per-sample masks already cached from collect() — no second inference pass needed
	pos_preds = res_s["pred_masks"] + res_u["pred_masks"]
	pos_gts = res_s["gt_masks"] + res_u["gt_masks"]
	pos_p2 = np.concatenate([res_s["p_exist"], res_u["p_exist"]])
	null_preds_n = res_n["pred_masks"]
	p_n = res_n["p_exist"]

	sweep_rows = threshold_sweep(p_n, pos_p2, pos_preds, pos_gts, null_preds_n)

	hdr2 = (f"{'thresh':>7} {'null_tp%':>9} {'pos_fnr%':>9} "
	f"{'Null_S':>8} {'pos_J&F':>8} {'pos_mIoU':>9} {'pos_F':>7}")
	log(hdr2)
	log("-" * 65)
	for r in sweep_rows:
	flag = ""
	# highlight: null_tp >= 30% AND positive_fnr <= 10%
	if r["null_tp_rate"] >= 0.30 and r["positive_fnr"] <= 0.10:
	flag = " ← candidate"
	log(f"{r['threshold']:>7.2f} {100r['null_tp_rate']:>8.1f}% {100r['positive_fnr']:>8.1f}%"
	f" {r['Null_S']:>8.4f} {r['pos_J&F']:>8.4f}"
	f" {r['pos_mIoU']:>9.4f} {r['pos_F']:>7.4f}{flag}")

	# ── Selection rule ────────────────────────────────────────────────────────
	log(f"\n── Auto-selection (pos J&F drop ≤ 0.5 pt from default) ──────")
	default_jf = (jf_s * len(res_s["p_exist"]) + jf_u * len(res_u["p_exist"])) / (
	len(res_s["p_exist"]) + len(res_u["p_exist"]))
	candidates = [r for r in sweep_rows
	if default_jf - r["pos_J&F"] <= 0.005] # ≤ 0.5 pt
	if candidates:
	best = min(candidates, key=lambda r: r["Null_S"])
	log(f" Best threshold = {best['threshold']:.2f}"
	f" Null_S={best['Null_S']:.4f}"
	f" null_tp={100*best['null_tp_rate']:.1f}%"
	f" pos_fnr={100*best['positive_fnr']:.1f}%"
	f" pos_J&F={best['pos_J&F']:.4f}")
	else:
	log(" No threshold meets J&F constraint — sweep shows extreme trade-off.")

	# ── Save report ───────────────────────────────────────────────────────────
	with open(out_path, "w") as f:
	f.write("\n".join(lines))
	print(f"\nReport saved: {out_path}")


	if __name__ == "__main__":
	try:
	import torch.multiprocessing as mp
	mp.set_start_method("spawn")
	except RuntimeError:
	pass
	main()