Spaces:

Corin1998
/

PR_IRminiSaaS

Sleeping

Corin1998 commited on Aug 30, 2025

Commit

c16bedc

verified ·

1 Parent(s): f67c66f

Update app/ingest.py

Files changed (1) hide show

app/ingest.py CHANGED Viewed

@@ -5,21 +5,18 @@ import trafilatura
 import requests
 from bs4 import BeautifulSoup
 USER_AGENT = "Mozilla/5.0 (compatible; PRIRBot/1.0)"
 def extract_from_pdf(file_bytes: bytes) -> str:
     reader = PdfReader(io.BytesIO(file_bytes))
     texts = []
     for page in reader.pages:
         try:
             texts.append(page.extract_text() or "")
-    except Exception:
-        pass
     return "\n".join(texts)
 def extract_from_url(url: str) -> str:
     downloaded = trafilatura.fetch_url(url)
     if downloaded:
@@ -29,4 +26,4 @@ def extract_from_url(url: str) -> str:
     # fallback: simple soup
     resp = requests.get(url, headers={"User-Agent": USER_AGENT}, timeout=20)
     soup = BeautifulSoup(resp.text, "html.parser")
-    return soup.get_text("\n")

 import requests
 from bs4 import BeautifulSoup
 USER_AGENT = "Mozilla/5.0 (compatible; PRIRBot/1.0)"
 def extract_from_pdf(file_bytes: bytes) -> str:
     reader = PdfReader(io.BytesIO(file_bytes))
     texts = []
     for page in reader.pages:
         try:
             texts.append(page.extract_text() or "")
+        except Exception:
+            pass
     return "\n".join(texts)
 def extract_from_url(url: str) -> str:
     downloaded = trafilatura.fetch_url(url)
     if downloaded:
     # fallback: simple soup
     resp = requests.get(url, headers={"User-Agent": USER_AGENT}, timeout=20)
     soup = BeautifulSoup(resp.text, "html.parser")
+    return soup.get_text("\n")