Spaces:

notabaka
/

ASRtest

Runtime error

notabaka commited on Feb 23, 2024

Commit

faa2e50

1 Parent(s): 14bc55d

mlk

Files changed (1) hide show

app.py CHANGED Viewed

@@ -38,14 +38,15 @@ def extract_text(doc):
         return doc.read().decode('utf-8')
     if doc.name.endswith(".pdf"):
-        raw = doc.read()
-        # Remove null bytes without decoding
-        raw = raw.replace(b'\x00', b'')
-        pdf = pdfplumber.open(io.BytesIO(raw))
-        pages = [page.extract_text() for page in pdf.pages]
-        return "\n".join(pages)
     if doc.name.endswith('.docx'):

         return doc.read().decode('utf-8')
     if doc.name.endswith(".pdf"):
+        raw = doc.read()
+        # Handle null bytes
+        raw = raw.replace(b'\x00', b'')
+        with pdfplumber.open(raw) as pdf:
+            pages = [page.extract_text() for page in pdf.pages]
+            return "\n".join(pages)
     if doc.name.endswith('.docx'):