Reality123b
/

FSD-Level5-CoT

Model card Files Files and versions

xet

Community

Reality123b commited on Apr 27

Commit

dd926e6

verified ·

1 Parent(s): 85d3c87

Add SADC subset download script

Browse files

Files changed (1) hide show

download_sadc_subset.py +82 -0

download_sadc_subset.py ADDED Viewed

	@@ -0,0 +1,82 @@

+#!/usr/bin/env python3
+"""
+Download a subset of the SADC dataset for FSD-Level5-CoT training.
+Dataset: jHaselberger/SADC-Situation-Awareness-for-Driver-Centric-Driving-Style-Adaptation
+Usage:
+    python download_sadc_subset.py --train_samples 5000 --val_samples 1000 --output_dir ./sadc_subset
+"""
+import argparse
+import os
+def download_subset(
+    train_samples: int = 5000,
+    val_samples: int = 1000,
+    output_dir: str = "./sadc_subset",
+    train_split: str = "pretrain_train",
+    val_split: str = "pretrain_val",
+):
+    from datasets import load_dataset
+    dataset_name = "jHaselberger/SADC-Situation-Awareness-for-Driver-Centric-Driving-Style-Adaptation"
+    os.makedirs(output_dir, exist_ok=True)
+    # --- Train split ---
+    print(f"Loading train split '{train_split}' (streaming to select {train_samples} samples)...")
+    ds_train = load_dataset(dataset_name, split=train_split, streaming=True)
+    train_rows = []
+    for i, row in enumerate(ds_train):
+        if i >= train_samples:
+            break
+        train_rows.append(row)
+        if (i + 1) % 500 == 0:
+            print(f"  ... collected {i + 1}/{train_samples} train samples")
+    from datasets import Dataset
+    train_dataset = Dataset.from_list(train_rows)
+    train_path = os.path.join(output_dir, "train")
+    train_dataset.save_to_disk(train_path)
+    print(f"Saved {len(train_dataset)} train samples to {train_path}")
+    # --- Val split ---
+    print(f"\nLoading val split '{val_split}' (streaming to select {val_samples} samples)...")
+    ds_val = load_dataset(dataset_name, split=val_split, streaming=True)
+    val_rows = []
+    for i, row in enumerate(ds_val):
+        if i >= val_samples:
+            break
+        val_rows.append(row)
+        if (i + 1) % 500 == 0:
+            print(f"  ... collected {i + 1}/{val_samples} val samples")
+    val_dataset = Dataset.from_list(val_rows)
+    val_path = os.path.join(output_dir, "val")
+    val_dataset.save_to_disk(val_path)
+    print(f"Saved {len(val_dataset)} val samples to {val_path}")
+    print(f"\nDone! Subset saved to {output_dir}/")
+    print(f"  Train: {len(train_dataset)} samples")
+    print(f"  Val:   {len(val_dataset)} samples")
+    return train_path, val_path
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Download SADC dataset subset")
+    parser.add_argument("--train_samples", type=int, default=5000, help="Number of training samples")
+    parser.add_argument("--val_samples", type=int, default=1000, help="Number of validation samples")
+    parser.add_argument("--output_dir", type=str, default="./sadc_subset", help="Output directory")
+    parser.add_argument("--train_split", type=str, default="pretrain_train", help="Train split name")
+    parser.add_argument("--val_split", type=str, default="pretrain_val", help="Val split name")
+    args = parser.parse_args()
+    download_subset(
+        train_samples=args.train_samples,
+        val_samples=args.val_samples,
+        output_dir=args.output_dir,
+        train_split=args.train_split,
+        val_split=args.val_split,
+    )