Spaces:

AMA-bench
/

AMA-bench-Leaderboard

Running

App Files Files Community

uuuhjb commited on Mar 5

Commit

2581d07

1 Parent(s): 93f9e60

update push_to_hf

Browse files

Files changed (1) hide show

submission.py +110 -0

submission.py CHANGED Viewed

@@ -333,6 +333,100 @@ def update_leaderboard_data(
         return False
 # ---------------------------------------------------------------------------
 # Main entry point
 # ---------------------------------------------------------------------------
@@ -397,6 +491,22 @@ def add_new_submission(
         with open(f"{submission_dir}/metadata_{timestamp}.json", "w", encoding="utf-8") as f_meta:
             json.dump(metadata, f_meta, indent=2, ensure_ascii=False)
         # Update leaderboard
         updated = update_leaderboard_data(
             model_or_agent_name=model,

         return False
+# ---------------------------------------------------------------------------
+# HuggingFace submission push
+# ---------------------------------------------------------------------------
+HF_SUBMISSIONS_DATASET = "AMA-bench/AMA_submissions_internal"
+def push_submission_to_hf(
+    submissions: List[dict],
+    metadata: dict,
+    score_dict: Dict,
+    token: str,
+    timestamp: str,
+) -> Tuple[bool, str]:
+    """
+    Push raw submission + metadata + scores to the private HuggingFace dataset
+    ``AMA-bench/AMA_submissions_internal``.
+    The dataset is expected (or will be created) with a single ``data`` config.
+    Each call appends one row per episode, using a Parquet shard named by
+    ``{organisation}_{model}_{timestamp}``.
+    Row schema
+    ----------
+    submission_id   : str   – "{organisation}_{model}_{timestamp}"
+    organisation    : str
+    model_name      : str
+    submission_type : str   – "agent" | "model"
+    timestamp       : str   – "YYYYMMDD_HHMMSS"
+    date            : str   – "YYYY-MM-DD"
+    episode_id      : str
+    question_uuid_list  : str  – JSON-encoded list
+    answer_list         : str  – JSON-encoded list
+    llm_as_judge_score_list : str  – JSON-encoded list
+    reasoning_trace     : str  – optional, empty string if absent
+    score_json          : str  – JSON-encoded per-domain score dict
+    metadata_json       : str  – JSON-encoded full metadata dict
+    """
+    try:
+        from huggingface_hub import HfApi
+        import pandas as pd
+        import io
+        api = HfApi(token=token)
+        organisation = metadata.get("organisation", "unknown")
+        model_name = metadata.get("model", metadata.get("agent_name", "unknown"))
+        submission_id = f"{organisation}_{model_name}_{timestamp}"
+        # Build one row per episode submission
+        rows = []
+        for sub in submissions:
+            rows.append({
+                "submission_id": submission_id,
+                "organisation": organisation,
+                "model_name": model_name,
+                "submission_type": metadata.get("submission_type", ""),
+                "timestamp": timestamp,
+                "date": metadata.get("Date", ""),
+                "episode_id": str(sub.get("episode_id", "")),
+                "question_uuid_list": json.dumps(sub.get("question_uuid_list", []), ensure_ascii=False),
+                "answer_list": json.dumps(sub.get("answer_list", []), ensure_ascii=False),
+                "llm_as_judge_score_list": json.dumps(sub.get("llm_as_judge_score_list", []), ensure_ascii=False),
+                "reasoning_trace": str(sub.get("reasoning_trace", "")),
+                "score_json": json.dumps(score_dict, ensure_ascii=False),
+                "metadata_json": json.dumps(metadata, ensure_ascii=False),
+            })
+        df = pd.DataFrame(rows)
+        # Serialise to Parquet in memory
+        buf = io.BytesIO()
+        df.to_parquet(buf, index=False)
+        buf.seek(0)
+        # Upload as a new shard under data/
+        path_in_repo = f"data/{submission_id}.parquet"
+        api.upload_file(
+            path_or_fileobj=buf,
+            path_in_repo=path_in_repo,
+            repo_id=HF_SUBMISSIONS_DATASET,
+            repo_type="dataset",
+            commit_message=f"Add submission: {submission_id}",
+        )
+        print(f"[hf_push] Pushed {len(rows)} row(s) to {HF_SUBMISSIONS_DATASET}/{path_in_repo}")
+        return True, submission_id
+    except Exception as e:
+        import traceback
+        traceback.print_exc()
+        print(f"[hf_push] ERROR: {e}")
+        return False, str(e)
 # ---------------------------------------------------------------------------
 # Main entry point
 # ---------------------------------------------------------------------------
         with open(f"{submission_dir}/metadata_{timestamp}.json", "w", encoding="utf-8") as f_meta:
             json.dump(metadata, f_meta, indent=2, ensure_ascii=False)
+        # Push to HuggingFace private submissions dataset
+        hf_token = os.environ.get("HF_TOKEN") or os.environ.get("TOKEN")
+        if hf_token:
+            hf_ok, hf_result = push_submission_to_hf(
+                submissions=submissions,
+                metadata=metadata,
+                score_dict=score_dict,
+                token=hf_token,
+                timestamp=timestamp,
+            )
+            if not hf_ok:
+                print(f"[hf_push] WARNING: Push to HuggingFace failed: {hf_result}")
+            # Non-fatal — we continue even if HF push fails
+        else:
+            print("[hf_push] WARNING: No HF_TOKEN found, skipping HuggingFace push.")
         # Update leaderboard
         updated = update_leaderboard_data(
             model_or_agent_name=model,