Spaces:

stellar413
/

masterllm

Sleeping

App Files Files Community

redhairedshanks1 commited on Dec 15, 2025

Commit

39d1de3

1 Parent(s): 310e8f9

Update utilities/extract_text.py

Browse files

Files changed (1) hide show

utilities/extract_text.py +59 -23

utilities/extract_text.py CHANGED Viewed

@@ -1,24 +1,60 @@
-import os
-import requests
-EXTRACT_TEXT_API = "https://point9-extract-text-and-table.hf.space/api/text"  # Replace with your space URL
-def extract_text_remote(state):
-    filename = state["filename"]
-    path = state["temp_files"][filename]
-    with open(path, "rb") as f:
-        files = {"file": (filename, f, "application/pdf")}
-        data = {
-            "filename": filename,
-            "start_page": state.get("start_page", 1),
-            "end_page": state.get("end_page", 1)
-        }
-        headers = {"Authorization": f"Bearer {os.getenv('HUGGINGFACE_API_TOKEN')}"}
-        resp = requests.post(EXTRACT_TEXT_API, files=files, data=data, headers=headers)
-    if resp.status_code != 200:
-        raise RuntimeError(f"Extract text API failed: {resp.text}")
-    state["text"] = resp.json().get("text", "")
     return state

+# import os
+# import requests
+# EXTRACT_TEXT_API = "https://point9-extract-text-and-table.hf.space/api/text"  # Replace with your space URL
+# def extract_text_remote(state):
+#     filename = state["filename"]
+#     path = state["temp_files"][filename]
+#     with open(path, "rb") as f:
+#         files = {"file": (filename, f, "application/pdf")}
+#         data = {
+#             "filename": filename,
+#             "start_page": state.get("start_page", 1),
+#             "end_page": state.get("end_page", 1)
+#         }
+#         headers = {"Authorization": f"Bearer {os.getenv('HUGGINGFACE_API_TOKEN')}"}
+#         resp = requests.post(EXTRACT_TEXT_API, files=files, data=data, headers=headers)
+#     if resp.status_code != 200:
+#         raise RuntimeError(f"Extract text API failed: {resp.text}")
+#     state["text"] = resp.json().get("text", "")
+#     return state
+import os
+import requests
+EXTRACT_TEXT_API = "https://point9-extract-text-and-table.hf.space/api/text"  # Replace with your space URL
+def extract_text_remote(state):
+    filename = state["filename"]
+    path = state["temp_files"][filename]
+    # Get the file extension
+    _, file_extension = os.path.splitext(filename)
+    # If the filename in state doesn't have extension, check if it's in the temp_files path
+    if not file_extension:
+        # Try to get extension from the actual file path
+        _, file_extension = os.path.splitext(path)
+        if file_extension:
+            # Add extension to filename
+            filename = f"{filename}{file_extension}"
+    with open(path, "rb") as f:
+        files = {"file": (filename, f, "application/pdf")}
+        data = {
+            "filename": filename,  # Now includes extension
+            "start_page": state.get("start_page", 1),
+            "end_page": state.get("end_page", 1)
+        }
+        headers = {"Authorization": f"Bearer {os.getenv('HUGGINGFACE_API_TOKEN')}"}
+        resp = requests.post(EXTRACT_TEXT_API, files=files, data=data, headers=headers)
+    if resp.status_code != 200:
+        raise RuntimeError(f"Extract text API failed: {resp.text}")
+    state["text"] = resp.json().get("text", "")
     return state