xsponenta
/

s23-model

Model card Files Files and versions

xet

Community

IhorIvanyshyn01 commited on about 1 month ago

Commit

ffa2c1d

1 Parent(s): 677e5b4

Fix competition config and script crash

Browse files

Files changed (2) hide show

params.json +3 -3
script.py +84 -69

params.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-    "competition_id": "usm3d/S23DR2025",
     "competition_type": "script",
     "metric": "custom",
     "token": "hf_******",
@@ -16,8 +16,8 @@
     "output_path": "/tmp/model",
     "submission_repo": "IhorIvanyshyn01/my-s23dr-submission",
     "time_limit": 7200,
-    "dataset": "usm3d/hoho22k_2026_test_x_anon",
     "submission_filenames": [
-        "submission.parquet"
     ]
 }

 {
+    "competition_id": "usm3d/S23DR2026",
     "competition_type": "script",
     "metric": "custom",
     "token": "hf_******",
     "output_path": "/tmp/model",
     "submission_repo": "IhorIvanyshyn01/my-s23dr-submission",
     "time_limit": 7200,
+    "dataset": "parquet",
     "submission_filenames": [
+        "submission.json"
     ]
 }

script.py CHANGED Viewed

@@ -16,7 +16,7 @@ from joblib import Parallel, delayed
 def empty_solution(sample):
     '''Return a minimal valid solution, i.e. 2 vertices and 1 edge.'''
-    return np.zeros((2,3)), [(0, 1)], sample['order_id']
 def predict_wireframe_safely(sample):
     try:
@@ -41,7 +41,82 @@ class Sample(Dict):
         # return str({k: v.shape if hasattr(v, 'shape') else [type(v[0])] if isinstance(v, list) else type(v) for k,v in self.items()})
         return str({k: self.pick_repr_data(v) for k,v in self.items()})
 import json
 if __name__ == "__main__":
     print ("------------ Loading dataset------------ ")
@@ -49,76 +124,16 @@ if __name__ == "__main__":
     print(param_path)
     with param_path.open() as f:
         params = json.load(f)
-    print(params)
-    import os
-    print('pwd:')
-    os.system('pwd')
-    print(os.system('ls -lahtr'))
-    print('/tmp/data/')
-    print(os.system('ls -lahtr /tmp/data/'))
-    print('/tmp/data/data')
-    print(os.system('ls -lahtrR /tmp/data/data'))
-    data_path_test_server = Path('/tmp/data')
-    data_path_local = Path().home() / '.cache/huggingface/datasets/usm3d___hoho22k_2026_test_x_anon/'
-    if data_path_test_server.exists():
-        # data_path = data_path_test_server
-        TEST_ENV = True
-    else:
-        # data_path = data_path_local
-        TEST_ENV = False
-        from huggingface_hub import snapshot_download
-        _ = snapshot_download(
-            repo_id=params['dataset'],
-            local_dir="/tmp/data",
-            repo_type="dataset",
-        )
-    data_path = data_path_test_server
-    print(data_path)
-    # dataset = load_dataset(params['dataset'], trust_remote_code=True, use_auth_token=params['token'])
-    # data_files = {
-    #     "validation": [str(p) for p in [*data_path.rglob('*validation*.arrow')]+[*data_path.rglob('*public*/**/*.tar')]],
-    #     "test": [str(p) for p in [*data_path.rglob('*test*.arrow')]+[*data_path.rglob('*private*/**/*.tar')]],
-    # }
-    data_files = {
-        "validation": [str(p) for p in data_path.rglob('*public*/**/*.tar')],
-        "test": [str(p) for p in data_path.rglob('*private*/**/*.tar')],
-    }
-    print(data_files)
-    dataset = load_dataset(
-        str(data_path / 'hoho22k_2026_test_x_anon.py'),
-        data_files=data_files,
-        trust_remote_code=True,
-        writer_batch_size=100
-    )
-    # if TEST_ENV:
-    # dataset = load_dataset(
-    #     "webdataset",
-    #     data_files=data_files,
-    #     trust_remote_code=True,
-    #     # streaming=True
-    # )
-    print('load with webdataset')
-    # else:
-    #     dataset = load_dataset(
-    #         "arrow",
-    #         data_files=data_files,
-    #         trust_remote_code=True,
-    #         # streaming=True
-    #     )
-    #     print('load with arrow')
     print(dataset, flush=True)
-    # dataset = load_dataset('webdataset', data_files={)
     print('------------ Now you can do your solution ---------------')
     solution = []

 def empty_solution(sample):
     '''Return a minimal valid solution, i.e. 2 vertices and 1 edge.'''
+    return np.zeros((2,3)), [(0, 1)]
 def predict_wireframe_safely(sample):
     try:
         # return str({k: v.shape if hasattr(v, 'shape') else [type(v[0])] if isinstance(v, list) else type(v) for k,v in self.items()})
         return str({k: self.pick_repr_data(v) for k,v in self.items()})
+def load_competition_dataset(params):
+    """
+    Loads dataset both:
+    1. Locally from public parquet files.
+    2. In official competition environment from /tmp/data.
+    """
+    import os
+    data_path = Path("/tmp/data")
+    print("------------ Dataset path check ------------")
+    print("pwd:")
+    os.system("pwd")
+    print("/tmp/data:")
+    os.system("ls -lahtr /tmp/data || true")
+    print("/tmp/data/data:")
+    os.system("ls -lahtr /tmp/data/data || true")
+    # Case 1: local debugging with public parquet dataset
+    parquet_dir = data_path / "data"
+    train_parquet = list(parquet_dir.glob("train-*.parquet"))
+    val_parquet = list(parquet_dir.glob("validation-*.parquet"))
+    if len(train_parquet) > 0 or len(val_parquet) > 0:
+        print("Loading local/public parquet dataset")
+        data_files = {}
+        if len(train_parquet) > 0:
+            data_files["train"] = str(parquet_dir / "train-*.parquet")
+        if len(val_parquet) > 0:
+            data_files["validation"] = str(parquet_dir / "validation-*.parquet")
+        dataset = load_dataset("parquet", data_files=data_files)
+        return dataset
+    # Case 2: official test environment with custom dataset script
+    dataset_script_candidates = list(data_path.glob("*.py"))
+    if len(dataset_script_candidates) > 0:
+        dataset_script = dataset_script_candidates[0]
+        print(f"Loading official dataset script: {dataset_script}")
+        data_files = {
+            "validation": [str(p) for p in data_path.rglob("*public*/**/*.tar")],
+            "test": [str(p) for p in data_path.rglob("*private*/**/*.tar")],
+        }
+        print("data_files:", data_files)
+        dataset = load_dataset(
+            str(dataset_script),
+            data_files=data_files,
+            trust_remote_code=True,
+            writer_batch_size=100,
+        )
+        return dataset
+    # Case 3: fallback download for local run
+    print("No local /tmp/data files found. Trying Hugging Face download.")
+    from huggingface_hub import snapshot_download
+    snapshot_download(
+        repo_id=params["dataset"],
+        local_dir="/tmp/data",
+        repo_type="dataset",
+        token=params.get("token", None),
+    )
+    return load_competition_dataset(params)
 import json
 if __name__ == "__main__":
     print ("------------ Loading dataset------------ ")
     print(param_path)
     with param_path.open() as f:
         params = json.load(f)
+    safe_params = dict(params)
+    if "token" in safe_params:
+        safe_params["token"] = "hf_******"
+    print(safe_params)
+    print("------------ Loading dataset ------------")
+    dataset = load_competition_dataset(params)
     print(dataset, flush=True)
     print('------------ Now you can do your solution ---------------')
     solution = []