Spaces:

notabaka
/

ASRtest

Runtime error

notabaka commited on Feb 23, 2024

Commit

0ee4a85

1 Parent(s): 2524123

kkk

Files changed (2) hide show

app.py CHANGED Viewed

@@ -29,29 +29,23 @@ docs = st.sidebar.file_uploader("Upload documents", accept_multiple_files=True,
 query = st.text_input("Enter search query")
 click = st.button("Search")
 def extract_text(doc):
-    # Write temp file
-    with tempfile.TemporaryFile() as fp:
-        fp.write(doc.read())
-        if doc.type == 'text/plain':
-            fp.seek(0)
-            return fp.read().decode("utf-8")
-        # Rest of logic
-        if doc.name.endswith(".pdf"):
-            fp.seek(0)
-            with pdfplumber.open(fp) as pdf:
-                pages = [page.extract_text() for page in pdf.pages]
-                return "\n".join(pages)
-        if doc.name.endswith(".docx"):
-            fp.seek(0)
-            return docx2txt.process(fp)
-        # other cases
-    return None
 if click and query:
     doc_contents = []

 query = st.text_input("Enter search query")
 click = st.button("Search")
+import pdfplumber
+import docx2txt
 def extract_text(doc):
+    if doc.type == 'text/plain':
+        return doc.read().decode('utf-8')
+    if doc.name.endswith('.pdf'):
+        with pdfplumber.open(doc) as pdf:
+            pages = [page.extract_text() for page in pdf.pages]
+            return '\n'.join(pages)
+    if doc.name.endswith('.docx'):
+        raw_text = doc.read()
+        return docx2txt.process(raw_text)
+    return None
 if click and query:
     doc_contents = []

requirements.txt CHANGED Viewed

@@ -2,5 +2,4 @@ torch
 transformers
 textract
 docx2txt
-pdfplumber
-tempfile

 transformers
 textract
 docx2txt
+pdfplumber