Spaces:

visheshrathi
/

dataops-env

Sleeping

App Files Files Community

dataops-env / tests /test_grading.py

visheshrathi

Upload folder using huggingface_hub

a1b343c verified about 1 month ago

raw

history blame contribute delete

18.3 kB

	"""High-signal regression tests for seeded grading and public API shape."""

	from __future__ import annotations

	import json
	import shutil
	import sqlite3
	import sys
	from pathlib import Path

	from fastapi.testclient import TestClient

	_ROOT = Path(__file__).resolve().parents[1]
	if str(_ROOT) not in sys.path:
	sys.path.insert(0, str(_ROOT))

	from models import DataOpsAction # noqa: E402
	from server.app import app # noqa: E402
	from server.dataops_env_environment import DataOpsEnvironment # noqa: E402
	from server.grading import evaluate_task # noqa: E402
	from server.task_specs import build_task_3_report # noqa: E402


	def _fixed_pipeline_script(visible_batch: list[dict[str, object]]) -> str:
	return f'''\
	import json


	def process_data_stream(payloads):
	processed_records = []
	for payload in payloads:
	if payload["status"] != "ready" or int(payload["amount_cents"]) <= 0:
	continue
	amount_usd = round(int(payload["amount_cents"]) / 100.0, 2)
	priority_band = (
	"high"
	if int(payload["priority"]) >= 8 or amount_usd >= 500.0
	else "normal"
	)
	processed_records.append(
	{{
	"order_id": payload["order_id"],
	"region": payload["region"],
	"amount_usd": amount_usd,
	"priority_band": priority_band,
	}}
	)
	processed_records.sort(key=lambda item: (-item["amount_usd"], item["order_id"]))
	return processed_records


	if __name__ == "__main__":
	mock_batch = {visible_batch!r}
	print(json.dumps(process_data_stream(mock_batch), indent=2, sort_keys=True))
	'''


	def _visible_only_pipeline_stub(
	visible_batch: list[dict[str, object]],
	visible_expected: list[dict[str, object]],
	) -> str:
	return f'''\
	import json


	def process_data_stream(payloads):
	visible = {visible_batch!r}
	if payloads == visible:
	return {visible_expected!r}
	return []


	if __name__ == "__main__":
	print(json.dumps({visible_expected!r}, indent=2, sort_keys=True))
	'''


	def _fixed_format_script(target_date: str) -> str:
	return f'''\
	import json
	import sys


	def format_report(input_path):
	with open(input_path, encoding="utf-8") as f:
	records = json.load(f)
	lines = ["=== Daily Revenue Report ({target_date}) ===", ""]
	total_revenue = 0.0
	for rec in records:
	dept = rec["department"]
	rev = float(rec["revenue"])
	exp = float(rec["expenses"])
	net = rev - exp
	lines.append(f"Department: {{dept}}")
	lines.append(f" Revenue: ${{rev:.2f}}")
	lines.append(f" Expenses: ${{exp:.2f}}")
	lines.append(f" Net: ${{net:.2f}}")
	lines.append("")
	total_revenue += rev
	lines.append(f"Total Revenue: ${{total_revenue:.2f}}")
	lines.append("=== End of Report ===")
	out = "\\n".join(lines)
	print(out)
	return out


	if __name__ == "__main__":
	if len(sys.argv) < 2:
	print("Usage: python format_report.py <input.json>", file=sys.stderr)
	sys.exit(1)
	format_report(sys.argv[1])
	'''


	def test_seeded_task_3_scenario_is_deterministic() -> None:
	env_a = DataOpsEnvironment()
	env_b = DataOpsEnvironment()
	try:
	env_a.reset(task_id="task_3_hard_e2e", seed=17)
	env_b.reset(task_id="task_3_hard_e2e", seed=17)
	assert env_a.scenario.task_3 == env_b.scenario.task_3
	finally:
	env_a.close()
	env_b.close()


	def test_task_1_perfect_score_seeded() -> None:
	env = DataOpsEnvironment()
	env.reset(task_id="task_1_easy_anomaly", seed=7)
	try:
	obs = env.step(
	DataOpsAction(
	action_type="ExecuteSQL",
	payload={"query": "DELETE FROM transactions WHERE amount IS NULL"},
	)
	)
	assert obs.status == "success"
	out = evaluate_task("task_1_easy_anomaly", env)
	assert out["score"] == 1.0
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_task_1_seeded_valid_rows_include_non_null_edge_amounts() -> None:
	env = DataOpsEnvironment()
	env.reset(task_id="task_1_easy_anomaly", seed=7)
	try:
	scenario = env.scenario.task_1
	assert scenario is not None
	amounts = [float(row["amount"]) for row in scenario.expected_rows]
	assert any(amount == 0.0 for amount in amounts)
	assert any(amount < 0.0 for amount in amounts)
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_task_1_rewriting_corrupted_rows_scores_zero() -> None:
	env = DataOpsEnvironment()
	env.reset(task_id="task_1_easy_anomaly", seed=7)
	try:
	with sqlite3.connect(env.db_path) as conn:
	conn.execute("UPDATE transactions SET amount = 0 WHERE amount IS NULL")
	conn.commit()
	out = evaluate_task("task_1_easy_anomaly", env)
	assert out["score"] == 0.0
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_task_1_deleting_non_null_adjustments_is_penalized() -> None:
	env = DataOpsEnvironment()
	env.reset(task_id="task_1_easy_anomaly", seed=7)
	try:
	obs = env.step(
	DataOpsAction(
	action_type="ExecuteSQL",
	payload={
	"query": "DELETE FROM transactions WHERE amount IS NULL OR amount <= 0"
	},
	)
	)
	assert obs.status == "success"
	assert obs.reward is not None and obs.reward < 0
	out = evaluate_task("task_1_easy_anomaly", env)
	assert out["score"] == 0.0
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_reset_only_scores_zero_across_tasks() -> None:
	for task_id in (
	"task_1_easy_anomaly",
	"task_2_medium_syntax",
	"task_3_hard_e2e",
	):
	env = DataOpsEnvironment()
	try:
	env.reset(task_id=task_id, seed=7)
	out = evaluate_task(task_id, env)
	assert out["score"] == 0.0
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_task_1_broad_delete_with_where_is_penalized() -> None:
	env = DataOpsEnvironment()
	env.reset(task_id="task_1_easy_anomaly", seed=7)
	try:
	obs = env.step(
	DataOpsAction(
	action_type="ExecuteSQL",
	payload={
	"query": "DELETE FROM transactions WHERE amount IS NULL OR 1 = 1"
	},
	)
	)
	assert obs.status == "success"
	assert obs.reward is not None and obs.reward < 0
	assert env.evidence["task_1"]["destructive_sql_attempted"] is True
	out = evaluate_task("task_1_easy_anomaly", env)
	assert out["score"] == 0.0
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_task_2_script_run_does_not_inherit_server_secrets(monkeypatch) -> None:
	monkeypatch.setenv("API_KEY", "super-secret-value")
	env = DataOpsEnvironment()
	env.reset(task_id="task_2_medium_syntax", seed=11)
	script = """\
	import json
	import os


	def process_data_stream(payloads):
	return []


	if __name__ == "__main__":
	print(json.dumps({"api_key": os.getenv("API_KEY"), "home": os.getenv("HOME")}))
	"""
	try:
	env.step(
	DataOpsAction(
	action_type="WriteFile",
	payload={"filepath": "broken_pipeline.py", "content": script},
	)
	)
	run_obs = env.step(
	DataOpsAction(
	action_type="RunScript",
	payload={"filepath": "broken_pipeline.py", "args": []},
	)
	)
	assert run_obs.status == "success"
	payload = json.loads((run_obs.stdout or "").strip())
	assert payload["api_key"] is None
	assert payload["home"] == env.workspace_dir
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_task_2_perfect_score_seeded() -> None:
	env = DataOpsEnvironment()
	env.reset(task_id="task_2_medium_syntax", seed=11)
	scenario = env.scenario.task_2
	assert scenario is not None
	try:
	read_obs = env.step(
	DataOpsAction(
	action_type="ReadFile",
	payload={"filepath": "broken_pipeline.py"},
	)
	)
	assert read_obs.status == "success"
	write_obs = env.step(
	DataOpsAction(
	action_type="WriteFile",
	payload={
	"filepath": "broken_pipeline.py",
	"content": _fixed_pipeline_script(list(scenario.visible_batch)),
	},
	)
	)
	assert write_obs.status == "success"
	pre_run = evaluate_task("task_2_medium_syntax", env)
	assert 0.0 < pre_run["score"] < 1.0
	run_obs = env.step(
	DataOpsAction(
	action_type="RunScript",
	payload={"filepath": "broken_pipeline.py", "args": []},
	)
	)
	assert run_obs.status == "success"
	out = evaluate_task("task_2_medium_syntax", env)
	assert out["score"] == 1.0
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_task_2_print_only_stub_does_not_get_full_credit() -> None:
	env = DataOpsEnvironment()
	env.reset(task_id="task_2_medium_syntax", seed=11)
	scenario = env.scenario.task_2
	assert scenario is not None
	stub = _visible_only_pipeline_stub(
	list(scenario.visible_batch),
	list(scenario.visible_expected),
	)
	try:
	env.step(
	DataOpsAction(
	action_type="WriteFile",
	payload={"filepath": "broken_pipeline.py", "content": stub},
	)
	)
	out = evaluate_task("task_2_medium_syntax", env)
	assert out["score"] < 0.5
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_task_3_sql_policy_rejects_literal_table_name_bypass() -> None:
	env = DataOpsEnvironment()
	env.reset(task_id="task_3_hard_e2e", seed=19)
	try:
	obs = env.step(
	DataOpsAction(
	action_type="ExecuteSQL",
	payload={
	"query": (
	"SELECT name FROM sqlite_master "
	"WHERE 'daily_reports' = 'daily_reports'"
	)
	},
	)
	)
	assert obs.status == "error"
	assert "disallowed" in obs.message.lower()
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_task_3_sql_policy_allows_cte_queries_over_daily_reports() -> None:
	env = DataOpsEnvironment()
	env.reset(task_id="task_3_hard_e2e", seed=19)
	scenario = env.scenario.task_3
	assert scenario is not None
	try:
	obs = env.step(
	DataOpsAction(
	action_type="ExecuteSQL",
	payload={
	"query": (
	"WITH scoped AS ("
	"SELECT department, revenue, expenses, headcount "
	"FROM daily_reports "
	f"WHERE report_date = '{scenario.target_date}'"
	") "
	"SELECT department, revenue, expenses, headcount "
	"FROM scoped ORDER BY department"
	)
	},
	)
	)
	assert obs.status == "success"
	assert obs.sql_results
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_task_3_perfect_score_requires_proven_workflow() -> None:
	env = DataOpsEnvironment()
	env.reset(task_id="task_3_hard_e2e", seed=19)
	scenario = env.scenario.task_3
	assert scenario is not None
	try:
	query = (
	"SELECT department, revenue, expenses, headcount "
	"FROM daily_reports "
	f"WHERE report_date = '{scenario.target_date}' "
	"ORDER BY department"
	)
	sql_obs = env.step(
	DataOpsAction(
	action_type="ExecuteSQL",
	payload={"query": query},
	)
	)
	assert sql_obs.status == "success"
	rows = sql_obs.sql_results
	assert rows is not None

	write_json = env.step(
	DataOpsAction(
	action_type="WriteFile",
	payload={"filepath": "report_data.json", "content": json.dumps(rows)},
	)
	)
	assert write_json.status == "success"

	write_script = env.step(
	DataOpsAction(
	action_type="WriteFile",
	payload={
	"filepath": "format_report.py",
	"content": _fixed_format_script(scenario.target_date),
	},
	)
	)
	assert write_script.status == "success"

	run_obs = env.step(
	DataOpsAction(
	action_type="RunScript",
	payload={"filepath": "format_report.py", "args": ["report_data.json"]},
	)
	)
	assert run_obs.status == "success"
	body = (run_obs.stdout or "").strip()

	email_obs = env.step(
	DataOpsAction(
	action_type="SendEmail",
	payload={
	"to_email": scenario.recipient,
	"subject": scenario.subject,
	"body": body,
	},
	)
	)
	assert email_obs.status == "success"

	out = evaluate_task("task_3_hard_e2e", env)
	assert out["score"] == 1.0
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_task_3_equivalent_relative_input_path_still_scores_perfect() -> None:
	env = DataOpsEnvironment()
	env.reset(task_id="task_3_hard_e2e", seed=29)
	scenario = env.scenario.task_3
	assert scenario is not None
	try:
	query = (
	"SELECT department, revenue, expenses, headcount "
	"FROM daily_reports "
	f"WHERE report_date = '{scenario.target_date}' "
	"ORDER BY department"
	)
	sql_obs = env.step(
	DataOpsAction(
	action_type="ExecuteSQL",
	payload={"query": query},
	)
	)
	assert sql_obs.status == "success"
	rows = sql_obs.sql_results
	assert rows is not None

	env.step(
	DataOpsAction(
	action_type="WriteFile",
	payload={"filepath": "report_data.json", "content": json.dumps(rows)},
	)
	)
	env.step(
	DataOpsAction(
	action_type="WriteFile",
	payload={
	"filepath": "format_report.py",
	"content": _fixed_format_script(scenario.target_date),
	},
	)
	)
	run_obs = env.step(
	DataOpsAction(
	action_type="RunScript",
	payload={"filepath": "format_report.py", "args": ["./report_data.json"]},
	)
	)
	assert run_obs.status == "success"

	env.step(
	DataOpsAction(
	action_type="SendEmail",
	payload={
	"to_email": scenario.recipient,
	"subject": scenario.subject,
	"body": (run_obs.stdout or "").strip(),
	},
	)
	)

	out = evaluate_task("task_3_hard_e2e", env)
	assert out["score"] == 1.0
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_task_3_fabricated_email_only_scores_low() -> None:
	env = DataOpsEnvironment()
	env.reset(task_id="task_3_hard_e2e", seed=23)
	scenario = env.scenario.task_3
	assert scenario is not None
	try:
	fake_body = build_task_3_report(list(scenario.expected_rows), scenario.target_date)
	email_obs = env.step(
	DataOpsAction(
	action_type="SendEmail",
	payload={
	"to_email": scenario.recipient,
	"subject": scenario.subject,
	"body": fake_body,
	},
	)
	)
	assert email_obs.status == "success"
	out = evaluate_task("task_3_hard_e2e", env)
	assert out["score"] <= 0.10
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_task_3_reading_formatter_source_awards_progress_signal() -> None:
	env = DataOpsEnvironment()
	env.reset(task_id="task_3_hard_e2e", seed=31)
	try:
	obs = env.step(
	DataOpsAction(
	action_type="ReadFile",
	payload={"filepath": "format_report.py"},
	)
	)
	assert obs.status == "success"
	assert obs.reward is not None and obs.reward > 0
	finally:
	env.close()
	shutil.rmtree(env.workspace_dir, ignore_errors=True)


	def test_tasks_endpoint_exposes_manifest_metadata() -> None:
	with TestClient(app) as client:
	response = client.get("/tasks")
	payload = response.json()
	assert response.status_code == 200
	assert len(payload["tasks"]) == 3
	assert payload["tasks"][0]["difficulty"] == "easy"
	assert "action_schema" in payload


	def test_public_grader_hides_details_by_default(monkeypatch) -> None:
	# Do not leak grader details when PUBLIC_GRADER_DETAILS is unset/false (ignore dev .env).
	monkeypatch.setenv("PUBLIC_GRADER_DETAILS", "false")
	with TestClient(app) as client:
	reset = client.post("/reset?task_id=task_1_easy_anomaly", json={"seed": 5})
	assert reset.status_code == 200
	grade = client.get("/grader")
	assert grade.status_code == 200
	payload = grade.json()
	assert "score" in payload
	assert 0.0 < float(payload["score"]) < 1.0
	assert "details" not in payload