Spaces:

BrightData
/

brightdata-dataset-tool

Sleeping

meirk-brd commited on about 1 month ago

Commit

258dbf2

1 Parent(s): 49cd6f4

fix url parsing

Files changed (1) hide show

tool.py CHANGED Viewed

@@ -222,14 +222,7 @@ class BrightDataDatasetTool(Tool):
                 return self._extract_url_from_text(raw)
         if isinstance(raw, dict):
-            # Prefer original text name fields if present.
-            for key in ("orig_name", "name"):
-                candidate = raw.get(key)
-                if isinstance(candidate, str) and candidate:
-                    extracted = self._extract_url_from_text(candidate)
-                    if extracted:
-                        return extracted
             url_value = raw.get("url")
             if isinstance(url_value, str):
                 if url_value.startswith(("http://", "https://")):
@@ -240,6 +233,15 @@ class BrightDataDatasetTool(Tool):
                 extracted = self._extract_url_from_text(url_value)
                 if extracted:
                     return extracted
             return None
         return None

                 return self._extract_url_from_text(raw)
         if isinstance(raw, dict):
+            # Check for direct url field first (common in Gradio FileData from smolagents)
             url_value = raw.get("url")
             if isinstance(url_value, str):
                 if url_value.startswith(("http://", "https://")):
                 extracted = self._extract_url_from_text(url_value)
                 if extracted:
                     return extracted
+            # Fallback: check original text name fields if present
+            for key in ("orig_name", "name"):
+                candidate = raw.get(key)
+                if isinstance(candidate, str) and candidate:
+                    extracted = self._extract_url_from_text(candidate)
+                    if extracted:
+                        return extracted
             return None
         return None