Spaces:

Pranjal12345
/

QuestionAnswerGenerator

Runtime error

App Files Files Community

Pranjal12345 commited on Nov 6, 2023

Commit

ce57726

1 Parent(s): 3c17b68

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -24

app.py CHANGED Viewed

@@ -1,47 +1,54 @@
 import gradio as gr
 import re
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 tokenizer = AutoTokenizer.from_pretrained("potsawee/t5-large-generation-squad-QuestionAnswer")
 model = AutoModelForSeq2SeqLM.from_pretrained("potsawee/t5-large-generation-squad-QuestionAnswer")
-def inference(input_text):
-    if input_text is None:
-        return "Please upload a text"
-    input_ids = tokenizer.encode(input_text, return_tensors="pt")
-    sentences = re.split(r'(?<=[.!?])', input_text)
     question_answer_pairs = []
-    for i, sentence in enumerate(sentences):
-        input_ids_clone = tokenizer.encode(sentence, return_tensors="pt")
-        outputs = model.generate(input_ids_clone, max_length=100, num_return_sequences=1)
         question_answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        question = question_answer.strip()
-        question_answer_pairs.append((f"Question:", question))
     result = ''
-    for i in range(len(question_answer_pairs)):
-        if question_answer_pairs[i][1] == '':
-            break
-        question_part = question_answer_pairs[i][1].split("?")[0] + "?"
-        answer_part = question_answer_pairs[i][1].split("?")[1].strip()
-        result += f"Question: {question_part}\nAnswer: {answer_part}\n\n"
     return result
-title = "Question Answer Pairs Generator"
-input_text = gr.Textbox(lines=4, label="Text:")
 interface = gr.Interface(
-    fn=inference,
-    inputs=[input_text],
-    outputs= "text",
     title=title,
 )
 interface.launch()

 import gradio as gr
 import re
+import os
+import fitz
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 tokenizer = AutoTokenizer.from_pretrained("potsawee/t5-large-generation-squad-QuestionAnswer")
 model = AutoModelForSeq2SeqLM.from_pretrained("potsawee/t5-large-generation-squad-QuestionAnswer")
+def extract_text_from_pdf(pdf_file_path):
+    doc = fitz.open(pdf_file_path)
+    text = ""
+    for page in doc:
+        text+=page.get_text()
+    return text
+def generate_question_answer_pairs(pdf_file):
+    if pdf_file is None:
+        return "Please upload a PDF file"
+    pdf_text = extract_text_from_pdf(pdf_file.name)
+    sentences = re.split(r'(?<=[.!?])', pdf_text)
     question_answer_pairs = []
+    for sentence in sentences:
+        input_ids = tokenizer.encode(sentence, return_tensors="pt")
+        outputs = model.generate(input_ids, max_length=100, num_return_sequences=1)
         question_answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        question_answer_pairs.append(question_answer)
     result = ''
+    for question_answer in question_answer_pairs:
+        qa_parts = question_answer.split("?")
+        if len(qa_parts) >= 2:
+            question_part = qa_parts[0] + "?"
+            answer_part = qa_parts[1].strip()
+            result += f"Question: {question_part}\nAnswer: {answer_part}\n\n"
     return result
+title = "Question-Answer Pairs Generation"
+input_file = gr.File(label="Upload a PDF file")
+output_text = gr.Textbox()
 interface = gr.Interface(
+    fn=generate_question_answer_pairs,
+    inputs=input_file,
+    outputs=output_text,
     title=title,
 )
 interface.launch()