Spaces:

PeacebinfLow
/

mindseye-lab-space

Sleeping

App Files Files Community

PeacebinfLow commited on Jan 10

Commit

c17899d

verified ·

1 Parent(s): 02290e3

Create dataset_client.py

Browse files

Files changed (1) hide show

src/dataset_client.py +50 -0

src/dataset_client.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import requests
+from typing import Dict, List, Optional
+class DatasetAPIClient:
+    """
+    Lightweight wrapper around HuggingFace Datasets Server API.
+    Docs-ish endpoints:
+      /splits, /first-rows, /rows, /search, /filter
+    """
+    BASE_URL = "https://datasets-server.huggingface.co"
+    def __init__(self, dataset: str):
+        self.dataset = dataset
+    def list_splits(self) -> List[str]:
+        url = f"{self.BASE_URL}/splits"
+        params = {"dataset": self.dataset}
+        r = requests.get(url, params=params, timeout=30)
+        r.raise_for_status()
+        data = r.json()
+        splits = data.get("splits", [])
+        return [s.get("split") for s in splits if "split" in s]
+    def get_first_rows(self, split: str = "train", limit: int = 100, config: str = "default") -> Dict:
+        url = f"{self.BASE_URL}/first-rows"
+        params = {"dataset": self.dataset, "config": config, "split": split}
+        r = requests.get(url, params=params, timeout=30)
+        r.raise_for_status()
+        return r.json()
+    def get_rows(self, split: str = "train", offset: int = 0, length: int = 25, config: str = "default") -> Dict:
+        url = f"{self.BASE_URL}/rows"
+        params = {"dataset": self.dataset, "config": config, "split": split, "offset": offset, "length": length}
+        r = requests.get(url, params=params, timeout=30)
+        r.raise_for_status()
+        return r.json()
+    def search_dataset(self, query: str, split: str = "train", config: str = "default") -> Dict:
+        url = f"{self.BASE_URL}/search"
+        params = {"dataset": self.dataset, "config": config, "split": split, "query": query}
+        r = requests.get(url, params=params, timeout=30)
+        r.raise_for_status()
+        return r.json()
+    def filter_dataset(self, where: str, split: str = "train", config: str = "default") -> Dict:
+        url = f"{self.BASE_URL}/filter"
+        params = {"dataset": self.dataset, "config": config, "split": split, "where": where}
+        r = requests.get(url, params=params, timeout=30)
+        r.raise_for_status()
+        return r.json()