Upload folder using huggingface_hub

c754148 verified 1 day ago

6.65 kB

	from __future__ import annotations

	import argparse
	import os
	import re
	import sys

	import pandas as pd


	def validate_submission(submission_path: str) -> bool:
	"""
	Run all format validation checks on submission.csv.

	Returns True if all checks pass, False if any fail.
	Prints detailed output for each check.
	"""
	errors = []
	warnings = []

	print("=" * 60)
	print("SUBMISSION VALIDATOR")
	print(f"File: {submission_path}")
	print("=" * 60)

	# file existence
	if not os.path.isfile(submission_path):
	print(f"\n[FAIL] File not found: {submission_path}")
	return False

	try:
	df = pd.read_csv(submission_path, dtype={"candidate_id": str, "reasoning": str})
	except Exception as e:
	print(f"\n[FAIL] Cannot parse CSV: {e}")
	return False

	print(f"\nParsed: {len(df)} rows × {len(df.columns)} columns")


	required_cols = ["candidate_id", "rank", "score", "reasoning"]
	if list(df.columns) != required_cols:
	missing = set(required_cols) - set(df.columns)
	extra = set(df.columns) - set(required_cols)
	wrong_order = set(df.columns) == set(required_cols) and list(df.columns) != required_cols

	if missing:
	errors.append(f"Missing columns: {sorted(missing)}")
	if extra:
	errors.append(f"Extra columns (not allowed): {sorted(extra)}")
	if wrong_order:
	errors.append(
	f"Column order wrong. Expected: {required_cols}, "
	f"Got: {list(df.columns)}"
	)

	if errors:
	for e in errors:
	print(f"[FAIL] {e}")
	return False


	if len(df) != 100:
	errors.append(f"Expected exactly 100 rows, got {len(df)}")

	try:
	ranks = df["rank"].tolist()
	rank_set = set(int(r) for r in ranks)
	if rank_set != set(range(1, 101)):
	missing_ranks = set(range(1, 101)) - rank_set
	extra_ranks = rank_set - set(range(1, 101))
	if missing_ranks:
	errors.append(f"Missing ranks: {sorted(missing_ranks)[:10]}")
	if extra_ranks:
	errors.append(f"Invalid ranks (out of 1–100): {sorted(extra_ranks)[:10]}")
	if len(ranks) != len(set(ranks)):
	errors.append("Duplicate ranks found")
	except (TypeError, ValueError) as e:
	errors.append(f"Rank column contains non-integer values: {e}")

	try:
	scores = pd.to_numeric(df["score"], errors="raise")
	if scores.isna().any():
	errors.append("Score column contains NaN values")
	else:
	if scores.min() < 0:
	errors.append(f"Score below 0: min={scores.min():.6f}")
	if scores.max() > 1.0001:
	errors.append(f"Score above 1: max={scores.max():.6f}")
	except ValueError as e:
	errors.append(f"Score column contains non-numeric values: {e}")

	try:
	df_sorted = df.copy()
	df_sorted["rank_int"] = pd.to_numeric(df_sorted["rank"], errors="coerce")
	df_sorted = df_sorted.sort_values("rank_int")
	score_vals = pd.to_numeric(df_sorted["score"], errors="coerce").values

	violations = []
	for i in range(1, len(score_vals)):
	if score_vals[i] > score_vals[i - 1] + 1e-9:
	violations.append(
	f"rank {i} → {i+1}: {score_vals[i-1]:.6f} → {score_vals[i]:.6f}"
	)

	if violations:
	errors.append(
	f"Monotonicity violated at {len(violations)} positions: "
	f"{violations[:3]}"
	)
	except Exception as e:
	errors.append(f"Could not check monotonicity: {e}")

	if df["candidate_id"].isna().any():
	errors.append("candidate_id column contains NaN values")
	else:
	if df["candidate_id"].duplicated().any():
	dups = df[df["candidate_id"].duplicated()]["candidate_id"].tolist()
	errors.append(f"Duplicate candidate_ids: {dups[:5]}")


	bad_format = [
	cid for cid in df["candidate_id"]
	if not re.match(r'^(CAND_\d{7}\|SYNTH_[A-Z_]+)$', str(cid))
	]
	if bad_format:
	warnings.append(
	f"{len(bad_format)} candidate_ids don't match CAND_XXXXXXX format: "
	f"{bad_format[:3]}"
	)

	if df["reasoning"].isna().any():
	errors.append(f"{df['reasoning'].isna().sum()} reasoning fields are null")

	empty_reasoning = df["reasoning"].fillna("").str.strip() == ""
	if empty_reasoning.any():
	errors.append(f"{empty_reasoning.sum()} reasoning fields are empty")

	# check reasonable length (warn if very short)
	short_reasoning = df["reasoning"].fillna("").str.len() < 20
	if short_reasoning.any():
	warnings.append(
	f"{short_reasoning.sum()} reasoning fields are very short (<20 chars)"
	)

	stripped = df["candidate_id"].str.strip()
	if (stripped != df["candidate_id"]).any():
	errors.append("Some candidate_ids have leading/trailing whitespace")


	print()
	if errors:
	print(f"RESULT: FAIL ({len(errors)} error(s), {len(warnings)} warning(s))\n")
	for e in errors:
	print(f" [FAIL] {e}")
	for w in warnings:
	print(f" [WARN] {w}")
	return False
	else:
	print(f"RESULT: PASS (0 errors, {len(warnings)} warning(s))\n")

	df_sorted = df.sort_values("rank")
	scores = pd.to_numeric(df_sorted["score"])
	print(f" Rows: {len(df)}")
	print(f" Ranks: 1–{int(df['rank'].max())}")
	print(f" Score range: [{scores.min():.6f}, {scores.max():.6f}]")
	print(f" Avg reasoning length: {df['reasoning'].str.len().mean():.0f} chars")
	print(f" Distinct candidate_ids: {df['candidate_id'].nunique()}")

	for w in warnings:
	print(f"\n [WARN] {w}")

	print("\nSAFE TO SUBMIT [PASS]")
	return True


	def main():
	parser = argparse.ArgumentParser(
	description="Validate submission.csv against the Redrob spec checklist"
	)
	parser.add_argument(
	"--submission",
	default="./CTRL_COFFEE_REPEAT.csv",
	help="Path to CTRL_COFFEE_REPEAT.csv to validate",
	)
	args = parser.parse_args()

	passed = validate_submission(os.path.abspath(args.submission))
	sys.exit(0 if passed else 1)


	if __name__ == "__main__":
	main()