pdf2AIextract

Sleeping

App Files Files Community

ShayanRl commited on Jul 19, 2024

Commit

440b73f

verified ·

1 Parent(s): ffd8879

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -2

app.py CHANGED Viewed

@@ -3,6 +3,27 @@ import io
 import requests
 import pdfplumber
 import os
 def fextractURL(pdf_path):
     extracted_data = ""
@@ -51,12 +72,19 @@ st.markdown(vert_space, unsafe_allow_html=True)
 st.write("Extract full text from PDF URL")
 pdfURL = st.text_input(label="PDF URL", value="", max_chars=None, key=None, type="default", help=None, autocomplete=None, on_change=None, args=None, kwargs=None, placeholder=None, disabled=False, label_visibility="visible")
 button = st.button(label='Extract', key=None, help=None, on_click=None, args=None, kwargs=None, type="secondary", disabled=False, use_container_width=False)
 extractedText = st.empty()
 if button:
     try:
         text = fextractURL(pdfURL)
-        extractedText.text(text)
     except Exception as e:
-        st.error(f"An error occurred: {str(e)}")

 import requests
 import pdfplumber
 import os
+from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline
+def AImodel(text,questionText):
+    model_name = "deepset/tinyroberta-squad2"
+    # a) Get predictions
+    nlp = pipeline('question-answering', model=model_name, tokenizer=model_name)
+    QA_input = {
+        'question': questionText,
+        'context': text
+    }
+    res = nlp(QA_input)
+    # b) Load model & tokenizer
+    model = AutoModelForQuestionAnswering.from_pretrained(model_name)
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    return(res)
 def fextractURL(pdf_path):
     extracted_data = ""
 st.write("Extract full text from PDF URL")
 pdfURL = st.text_input(label="PDF URL", value="", max_chars=None, key=None, type="default", help=None, autocomplete=None, on_change=None, args=None, kwargs=None, placeholder=None, disabled=False, label_visibility="visible")
+questionText = st.text_input(label="PDF URL", value="", max_chars=None, key=None, type="default", help=None, autocomplete=None, on_change=None, args=None, kwargs=None, placeholder=None, disabled=False, label_visibility="visible")
 button = st.button(label='Extract', key=None, help=None, on_click=None, args=None, kwargs=None, type="secondary", disabled=False, use_container_width=False)
 extractedText = st.empty()
 if button:
     try:
         text = fextractURL(pdfURL)
+        AItext = AImodel(text,questionText)
+        extractedText.text(AItext)
     except Exception as e:
+        st.error(f"An error occurred: {str(e)}")