Spaces:

factorstudios
/

trans

Sleeping

App Files Files Community

factorstudios commited on Jun 3

Commit

e5e57a4

verified ·

1 Parent(s): 938c00b

Update transcription_server.py

Browse files

Files changed (1) hide show

transcription_server.py +51 -15

transcription_server.py CHANGED Viewed

@@ -78,38 +78,69 @@ def extract_dataset_info(dataset_link: str) -> tuple:
     link = dataset_link.strip()
     if "huggingface.co" in link:
         # Parse HF URL
         parts = link.split("/")
         if "datasets" in parts:
-            idx = parts.index("datasets")
-            owner = parts[idx + 1]
-            repo = parts[idx + 2]
-            # Find filename (after /blob/main/ or /blob/[branch]/)
-            if "blob" in parts:
-                blob_idx = parts.index("blob")
-                filename = "/".join(parts[blob_idx + 2:])
-            else:
-                filename = parts[-1]
-            repo_id = f"{owner}/{repo}"
-            return repo_id, filename
     else:
         # Assume it's in format: owner/repo/filename
         parts = link.split("/")
         if len(parts) >= 3:
             repo_id = f"{parts[0]}/{parts[1]}"
             filename = "/".join(parts[2:])
             return repo_id, filename
-    raise ValueError(f"Cannot parse dataset link: {link}")
 async def process_transcription(job_id: str, dataset_link: str, model_size: str):
     """Background task to process transcription and upload."""
     try:
         jobs[job_id]["status"] = "extracting_info"
-        # Parse dataset link
-        repo_id, filename = extract_dataset_info(dataset_link)
         jobs[job_id]["repo_id"] = repo_id
         jobs[job_id]["filename"] = filename
@@ -350,9 +381,14 @@ async def serve_ui():
                     <input
                         type="text"
                         id="datasetLink"
-                        placeholder="e.g., https://huggingface.co/datasets/factorstudios/movs/blob/main/movie.mkv"
                         required
                     >
                 </div>
                 <div class="form-group">

     link = dataset_link.strip()
+    # Validate input
+    if not link:
+        raise ValueError("Dataset link cannot be empty")
+    if any(char in link for char in ["=", "\n", "\r", "DASHSCOPE", "API", "TOKEN"]):
+        raise ValueError(
+            "Invalid dataset link format. Please provide a valid Hugging Face dataset URL or path.\n"
+            "Examples:\n"
+            "  https://huggingface.co/datasets/factorstudios/movs/blob/main/movie.mkv\n"
+            "  factorstudios/movs/movie.mkv"
+        )
     if "huggingface.co" in link:
         # Parse HF URL
         parts = link.split("/")
         if "datasets" in parts:
+            try:
+                idx = parts.index("datasets")
+                owner = parts[idx + 1]
+                repo = parts[idx + 2]
+                # Find filename (after /blob/main/ or /blob/[branch]/)
+                if "blob" in parts:
+                    blob_idx = parts.index("blob")
+                    filename = "/".join(parts[blob_idx + 2:])
+                else:
+                    filename = parts[-1]
+                repo_id = f"{owner}/{repo}"
+                if not filename:
+                    raise ValueError("No filename found in URL")
+                return repo_id, filename
+            except (IndexError, ValueError) as e:
+                raise ValueError(f"Invalid Hugging Face dataset URL format: {e}")
     else:
         # Assume it's in format: owner/repo/filename
         parts = link.split("/")
         if len(parts) >= 3:
             repo_id = f"{parts[0]}/{parts[1]}"
             filename = "/".join(parts[2:])
+            if not filename:
+                raise ValueError("No filename found in path")
             return repo_id, filename
+    raise ValueError(
+        f"Cannot parse dataset link. Please use:\n"
+        f"  https://huggingface.co/datasets/owner/repo/blob/main/file.mkv\n"
+        f"  or: owner/repo/file.mkv"
+    )
 async def process_transcription(job_id: str, dataset_link: str, model_size: str):
     """Background task to process transcription and upload."""
     try:
         jobs[job_id]["status"] = "extracting_info"
+        # Parse and validate dataset link
+        try:
+            repo_id, filename = extract_dataset_info(dataset_link)
+        except ValueError as e:
+            raise ValueError(f"Invalid dataset link: {str(e)}")
         jobs[job_id]["repo_id"] = repo_id
         jobs[job_id]["filename"] = filename
                     <input
                         type="text"
                         id="datasetLink"
+                        placeholder="https://huggingface.co/datasets/factorstudios/movs/blob/main/movie.mkv"
+                        title="Enter a Hugging Face dataset URL or path (owner/repo/filename.mkv)"
                         required
                     >
+                    <small style="display: block; margin-top: 6px; color: #999; font-size: 12px;">
+                        Format: https://huggingface.co/datasets/owner/repo/blob/main/filename.mkv<br>
+                        or: owner/repo/filename.mkv
+                    </small>
                 </div>
                 <div class="form-group">