Spaces:

notabaka
/

ASRtest

Runtime error

notabaka commited on Feb 23, 2024

Commit

958bbd7

1 Parent(s): c208ca1

hh

Files changed (1) hide show

app.py CHANGED Viewed

@@ -38,11 +38,16 @@ def extract_text(doc):
         return doc.read().decode('utf-8')
     if doc.name.endswith(".pdf"):
-        raw = doc.read().decode('latin-1')
-        with pdfplumber.open(io.BytesIO(raw)) as pdf:
-            pages = [page.extract_text() for page in pdf.pages]
-            return "\n".join(pages)
     if doc.name.endswith('.docx'):
         raw_text = doc.read()
         return docx2txt.process(raw_text)

         return doc.read().decode('utf-8')
     if doc.name.endswith(".pdf"):
+        raw = doc.read()
+        # Remove null bytes without decoding
+        raw = raw.replace(b'\x00', b'')
+        pdf = pdfplumber.open(BytesIO(raw))
+        pages = [page.extract_text() for page in pdf.pages]
+        return "\n".join(pages)
     if doc.name.endswith('.docx'):
         raw_text = doc.read()
         return docx2txt.process(raw_text)