readCtrl_lambda / code /finetune /qwen3-14B_infer.py

mshahidul

Initial commit of readCtrl code without large models

030876e 24 days ago

3.89 kB

	import json
	import os
	import re

	import torch
	from datasets import Dataset
	from unsloth import FastLanguageModel

	os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
	os.environ["CUDA_VISIBLE_DEVICES"] = "0"

	DATA_PATH = "/home/mshahidul/readctrl/data/finetuning_data/finetune_dataset_subclaim_support_v2_sft_prompt.json"
	MODEL_PATH = "/home/mshahidul/readctrl_model/qwen3-8B_subclaims-verifier_lora_nonreasoning"
	OUTPUT_PATH = "/home/mshahidul/readctrl/results/qwen3-8B_subclaims_verifier_test_predictions.jsonl"
	SUMMARY_PATH = "/home/mshahidul/readctrl/results/qwen3-8B_subclaims_verifier_test_summary.json"


	def normalize_label(text: str) -> str:
	if text is None:
	return "unknown"
	cleaned = text.strip().lower()
	cleaned = cleaned.replace("\n", " ").strip()
	if "not_supported" in cleaned:
	return "not_supported"
	if "not supported" in cleaned:
	return "not_supported"
	first = re.split(r"\s+", cleaned)[0].strip(".,:;")
	if first in {"supported", "not_supported"}:
	return first
	if "supported" in cleaned:
	return "supported"
	return "unknown"


	def get_turn(conversations, role: str) -> str:
	for turn in conversations:
	if turn.get("from") == role:
	return turn.get("content", "")
	return ""


	def main() -> None:
	if not torch.cuda.is_available():
	raise RuntimeError("CUDA is not available. Please run on a GPU.")

	with open(DATA_PATH, "r") as f:
	data = json.load(f)

	dataset = Dataset.from_list(data)
	split_dataset = dataset.train_test_split(test_size=0.2, seed=3407, shuffle=True)
	test_data = split_dataset["test"]

	model, tokenizer = FastLanguageModel.from_pretrained(
	model_name=MODEL_PATH,
	max_seq_length=8192,
	load_in_4bit=False,
	)
	FastLanguageModel.for_inference(model)

	total = len(test_data)
	correct = 0

	with open(OUTPUT_PATH, "w") as out_f:
	for idx, item in enumerate(test_data):
	user_text = get_turn(item["conversations"], "user")
	gold_text = get_turn(item["conversations"], "assistant")
	gold_label = normalize_label(gold_text)

	messages = [{"role": "user", "content": user_text}]
	input_text = tokenizer.apply_chat_template(
	messages,
	tokenize=False,
	add_generation_prompt=True,
	)
	inputs = tokenizer([input_text], return_tensors="pt").to("cuda")

	with torch.no_grad():
	generated = model.generate(
	**inputs,
	max_new_tokens=20,
	do_sample=False,
	use_cache=True,
	pad_token_id=tokenizer.eos_token_id,
	)

	gen_text = tokenizer.decode(
	generated[0][inputs["input_ids"].shape[-1]:],
	skip_special_tokens=True,
	)
	pred_label = normalize_label(gen_text)
	is_correct = pred_label == gold_label
	correct += int(is_correct)

	record = {
	"index": idx,
	"label": gold_label,
	"prediction": pred_label,
	"correct": is_correct,
	"raw_output": gen_text.strip(),
	}
	out_f.write(json.dumps(record, ensure_ascii=False) + "\n")

	if (idx + 1) % 100 == 0:
	print(f"Processed {idx + 1}/{total}")

	accuracy = correct / total if total else 0.0
	summary = {
	"total": total,
	"correct": correct,
	"accuracy": accuracy,
	}
	with open(SUMMARY_PATH, "w") as f:
	json.dump(summary, f, ensure_ascii=False, indent=2)

	print(f"Accuracy: {accuracy:.4f}")
	print(f"Saved predictions: {OUTPUT_PATH}")
	print(f"Saved summary: {SUMMARY_PATH}")


	if __name__ == "__main__":
	main()