xsponenta
/

s23-model

Model card Files Files and versions

xet

Community

IhorIvanyshyn01 commited on 20 days ago

Commit

6899728

1 Parent(s): 648e32c

Fix dataset script loading and add parquet fallback

Browse files

Files changed (1) hide show

script.py +24 -6

script.py CHANGED Viewed

@@ -315,13 +315,19 @@ if __name__ == "__main__":
         )
     from datasets import load_dataset
-    data_files = {
-        "validation": [str(p) for p in data_path.rglob("*public*/**/*.tar")],
-        "test": [str(p) for p in data_path.rglob("*private*/**/*.tar")],
-    }
     print(f"Data files: {data_files}")
     dataset = load_dataset(
-        str(data_path / "hoho22k_2026_test_x_anon.py"),
         data_files=data_files,
         trust_remote_code=True,
         writer_batch_size=100,
@@ -366,6 +372,8 @@ if __name__ == "__main__":
             else:
                 try:
                     pred_v, pred_e = predict_sample(fused, model, device)
                     # Apply handcrafted triangulation tracking to catch missing corners/edges
                     try:
@@ -378,8 +386,11 @@ if __name__ == "__main__":
                         print(f"  Track ensemble failed for {order_id}: {track_e_err}")
                 except Exception as e:
-                    print(f"  Predict failed for {order_id}: {e}")
                     pred_v, pred_e = empty_solution()
             solution.append({
                 "order_id": order_id,
@@ -399,6 +410,13 @@ if __name__ == "__main__":
     output_path = Path(params.get('output_path', '.'))
     with open(output_path / "submission.json", "w") as f:
         json.dump(solution, f)
     elapsed = time.time() - t_start
     print(f"\nDone. {processed} samples in {elapsed:.0f}s ({elapsed/max(processed,1):.1f}s/sample)")

         )
     from datasets import load_dataset
+    data_files = {}
+    public_tars = sorted([str(p) for p in data_path.rglob('*public*/**/*.tar')])
+    private_tars = sorted([str(p) for p in data_path.rglob('*private*/**/*.tar')])
+    if public_tars:
+        data_files["validation"] = public_tars
+    if private_tars:
+        data_files["test"] = private_tars
     print(f"Data files: {data_files}")
+    loading_scripts = sorted(data_path.rglob('*.py'))
+    loading_script = str(loading_scripts[0]) if loading_scripts else str(data_path)
     dataset = load_dataset(
+        loading_script,
         data_files=data_files,
         trust_remote_code=True,
         writer_batch_size=100,
             else:
                 try:
                     pred_v, pred_e = predict_sample(fused, model, device)
+                    if torch.cuda.is_available():
+                        torch.cuda.empty_cache()
                     # Apply handcrafted triangulation tracking to catch missing corners/edges
                     try:
                         print(f"  Track ensemble failed for {order_id}: {track_e_err}")
                 except Exception as e:
+                    import traceback
+                    print(f"  Predict failed for {order_id}:\n{traceback.format_exc()}")
                     pred_v, pred_e = empty_solution()
+                    if torch.cuda.is_available():
+                        torch.cuda.empty_cache()
             solution.append({
                 "order_id": order_id,
     output_path = Path(params.get('output_path', '.'))
     with open(output_path / "submission.json", "w") as f:
         json.dump(solution, f)
+    try:
+        import pandas as pd
+        sub = pd.DataFrame(solution, columns=["order_id", "wf_vertices", "wf_edges"])
+        sub.to_parquet(output_path / "submission.parquet")
+    except Exception as e:
+        print(f"Failed to write parquet: {e}")
     elapsed = time.time() - t_start
     print(f"\nDone. {processed} samples in {elapsed:.0f}s ({elapsed/max(processed,1):.1f}s/sample)")