Add source code

33569f9 verified 30 days ago

10.8 kB

	import argparse
	import json
	import os
	import re
	import time

	import torch
	import torch.nn.functional as F
	from tqdm import tqdm
	from transformers import AutoProcessor, Qwen2_5_VLForConditionalGeneration
	from src.vllm_inference.data import build_dataloader
	from src.vllm_inference.vllm_infer import vllmWrapper


	def get_args():
	parser = argparse.ArgumentParser(
	description="Evaluation for training-free video temporal grounding (Single GPU Version)"
	)
	parser.add_argument(
	"--datatype",
	default="tg",
	type=str,
	help="Specify the dataset.",
	choices=["tg", "mcq"],
	)
	parser.add_argument(
	"--model_base", type=str, default="../pretrained_models/Qwen2.5-VL-7B-Instruct"
	)
	parser.add_argument("--batch_size", type=int, default=1, help="Batch size")
	parser.add_argument(
	"--output_dir",
	type=str,
	default="checkpoints",
	help="Directory to save checkpoints",
	)
	parser.add_argument(
	"--device", type=str, default="cuda:0", help="GPU device to use"
	)
	parser.add_argument(
	"--pipeline_parallel_size", type=int, default=1, help="GPU nodes"
	)
	parser.add_argument("--split", type=str, default="train", help="dataset type")
	parser.add_argument("--max_new_tokens", type=int, default=128)
	parser.add_argument("--curr_idx", type=int, default=0, help="数据分片")
	parser.add_argument("--total_idx", type=int, default=1, help="数据分片")
	parser.add_argument(
	"--total_pixels", type=int, default=3584 * 28 * 28, help="total_pixels"
	)
	parser.add_argument(
	"--datasets",
	nargs="+",
	type=str,
	help="dataset names",
	choices=[
	"charades",
	"activitynet",
	"videomme",
	"mvbench",
	"tvgbench_filter",
	"tvgbench",
	"egoschema",
	"tempcompass",
	],
	)
	parser.add_argument(
	"--use_r1_thinking_prompt", action="store_true", help="On R1 SHOUD BE TRUE!"
	)
	parser.add_argument(
	"--use_vllm_inference", action="store_true"
	)
	parser.add_argument("--prompt_type", type=str, default="r1", help="Prompt type")
	parser.add_argument(
	"--use_nothink", action="store_true", help="Use no think prompt"
	)
	parser.add_argument(
	"--use_prepared_video",
	action="store_true",
	help="Use video cache in ./video_cache",
	)
	return parser.parse_args()


	def build_model(args):
	processor = AutoProcessor.from_pretrained(args.model_base, use_fast=True)
	if args.datatype in ["tg"]:
	processor.tokenizer.padding_side = "left"

	if (args.datatype == "tg" or (args.datatype == "mcq" and args.split != "train")) and args.use_vllm_inference:
	# vllm inference
	model = vllmWrapper(args)
	else:
	# transformers inference
	model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
	args.model_base,
	torch_dtype="auto",
	device_map=args.device,
	attn_implementation="flash_attention_2",
	)
	model.eval()

	return model, processor


	@torch.no_grad()
	def inference(model, inputs):
	for key in inputs.keys():
	if not isinstance(inputs[key], torch.Tensor):
	continue
	inputs[key] = inputs[key].to(model.device)

	logits = model(**inputs).logits
	bsz, seq_len, _ = logits.shape
	if "attention_mask" in inputs:
	pred_token_indices = torch.sum(inputs["attention_mask"], dim=-1) - 1
	else:
	pred_token_indices = torch.full((bsz,), seq_len - 1, device=logits.device)

	pred_token_logits = logits[
	torch.arange(bsz, device=logits.device), pred_token_indices, :
	]

	return pred_token_logits


	def extract_answer(output_string, datatype):
	if datatype == "tg":
	matches = re.findall(r"(\d+\.?\d) (to\|and) (\d+\.?\d)", output_string)
	if not matches:
	answer_match = re.search(r"<answer>(.*?)</answer>", output_string)
	if answer_match:
	answer_content = answer_match.group(1).strip()
	answer_matches = re.findall(
	r"(\d+\.?\d) (to\|and) (\d+\.?\d)", answer_content
	)
	if answer_matches:
	last_match = answer_matches[-1]
	return [float(last_match[0]), float(last_match[2])]
	return [None, None]

	last_match = matches[-1]
	start_time_str = last_match[0]
	end_time_str = last_match[2]

	try:
	start_time = float(start_time_str)
	end_time = float(end_time_str)
	return [start_time, end_time]
	except ValueError:
	return [None, None]

	if datatype == "mcq":
	matches = re.findall(r"\(([A-Z])\)", output_string)
	if matches:
	return ord(matches[-1]) - ord("A")
	return None


	@torch.no_grad()
	def calc_prob(logits, options_token_ids):
	bsz = logits.shape[0]
	probs = []
	for i in range(bsz):
	logit = logits[i, options_token_ids]
	probs.append(F.softmax(logit, dim=1))
	return probs


	@torch.no_grad()
	def main(args):
	os.makedirs(args.output_dir, exist_ok=True)
	output_file = os.path.join(
	args.output_dir, f"{args.datatype}_{args.curr_idx}_{args.total_idx}.jsonl"
	)

	already_finished = set([])
	f = open(output_file, "a+")
	try:
	with open(output_file, "r") as g:
	for line in g:
	old_data = json.loads(line)
	already_finished.add(old_data["qid"])
	except Exception as e:
	print(e)

	model, processor = build_model(args)

	dataloader_args = {
	"batch_size": args.batch_size,
	"already_finished": already_finished,
	"curr_idx": args.curr_idx,
	"total_idx": args.total_idx,
	"split": args.split,
	"num_workers": min(8, args.batch_size),
	"dataset_names": args.datasets,
	"use_prepared_video": args.use_prepared_video,
	"total_pixels": args.total_pixels,
	"use_r1_thinking_prompt": args.use_r1_thinking_prompt,
	"prompt_type": args.prompt_type,
	"use_nothink": args.use_nothink,
	}

	dataloader = build_dataloader(processor, args.datatype, **dataloader_args)

	program_start_time = time.perf_counter()

	for batch_itm in tqdm(dataloader):
	if args.datatype == "tg":
	output_texts = model.generate(
	batch_itm["inputs"],
	max_new_tokens=args.max_new_tokens,
	)
	targets = batch_itm["timestamps"]

	for i in range(len(targets)):
	pred = extract_answer(output_texts[i], args.datatype)
	f.write(
	json.dumps(
	{
	"qid": batch_itm["qid"][i],
	"pred": pred,
	"target": list(targets[i]),
	"duration": (
	None
	if "duration" not in batch_itm
	else batch_itm["duration"][i]
	),
	"output_text": output_texts[i],
	}
	)
	+ "\n"
	)
	f.flush()
	elif args.datatype == "mcq" and args.split != "train":
	output_texts = model.generate(
	batch_itm["inputs"],
	max_new_tokens=args.max_new_tokens,
	answer_prompt=dataloader.dataset.answer_prompt,
	)
	targets = batch_itm["answer"]

	for i in range(len(targets)):
	pred = extract_answer(output_texts[i], args.datatype)
	f.write(
	json.dumps(
	{
	"qid": batch_itm["qid"][i],
	"pred": None,
	"target": targets[i],
	"duration": (
	None
	if "duration" not in batch_itm
	else batch_itm["duration"][i]
	),
	"output_text": output_texts[i],
	}
	)
	+ "\n"
	)
	f.flush()
	else:
	logits = inference(model, batch_itm["inputs"])
	options_token_ids = [
	[processor.tokenizer.vocab[word] for word in word_list]
	for word_list in batch_itm["options"]
	]
	probs = calc_prob(logits, options_token_ids)

	for i in range(len(logits)):
	f.write(
	json.dumps(
	{
	"qid": batch_itm["qid"][i],
	"pred": probs[i].argmax().item(),
	"target": batch_itm["answer"][i],
	"duration": (
	None
	if "duration" not in batch_itm
	else batch_itm["duration"][i]
	),
	"probs": probs[i].cpu().tolist(),
	}
	)
	+ "\n"
	)
	f.flush()

	# --- END TOTAL TIME & CALCULATIONS ---
	program_end_time = time.perf_counter()
	total_program_duration = program_end_time - program_start_time

	print("\n--- Timing Summary ---")
	print(f"Total program execution time: {total_program_duration:.2f} seconds")

	output_filename = f"{args.output_dir}/timing_summary_vllm.txt"

	with open(output_filename, "w", encoding="utf-8") as f:
	f.write("\n--- Timing Summary ---\n")
	f.write(f"Total program execution time: {total_program_duration:.2f} seconds\n")
	f.write("Another line of summary using write.\n")


	if __name__ == "__main__":
	from src.vllm_inference.utils import monkey_patch

	monkey_patch()
	args = get_args()
	if "mvbench" in args.datasets \
	or "videomme" in args.datasets \
	or "tempcompass" in args.datasets:
	args.datatype = "mcq"
	elif (
	"tvgbench" in args.datasets \
	or "tvgbench_filter" in args.datasets \
	or "charades" in args.datasets \
	or "activitynet" in args.datasets \
	):
	args.datatype = "tg"
	else:
	raise ValueError("Unsupported dataset type. Please check your datasets.")
	main(args)