Spaces:

pratikshahp
/

Question-Answer-Generation-App

Build error

pratikshahp commited on Jun 12, 2024

Commit

71aedcb

verified ·

1 Parent(s): a754c60

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,10 +1,11 @@
 import streamlit as st
 import fitz  # PyMuPDF
-from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
 # Load the model and tokenizer
-tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
-model = AutoModelForCausalLM.from_pretrained("openai-gpt")
 # Function to extract text from PDF
 def extract_text_from_pdf(pdf_file):
@@ -19,16 +20,18 @@ def extract_text_from_pdf(pdf_file):
 def generate_mcqs(text, num_questions=5):
     if not text.strip():
         return ["No text extracted from the PDF. Unable to generate MCQs."]
-    # Truncate text to fit within the model's max token limit
     max_input_length = 512 - 100  # Reserve space for generated tokens
     inputs = tokenizer(text, return_tensors="pt", max_length=max_input_length, truncation=True)
     mcqs = []
-    generator = pipeline("document-question-answering", model=model, tokenizer=tokenizer)
     for _ in range(num_questions):
         # Generate a single MCQ at a time
-        mcq = generator(tokenizer.decode(inputs['input_ids'][0]), max_new_tokens=100)[0]["generated_text"]
         mcqs.append(mcq)
     return mcqs

 import streamlit as st
 import fitz  # PyMuPDF
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
 # Load the model and tokenizer
+model_name = "t5-small"  # or another model suitable for question generation
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
 # Function to extract text from PDF
 def extract_text_from_pdf(pdf_file):
 def generate_mcqs(text, num_questions=5):
     if not text.strip():
         return ["No text extracted from the PDF. Unable to generate MCQs."]
     max_input_length = 512 - 100  # Reserve space for generated tokens
     inputs = tokenizer(text, return_tensors="pt", max_length=max_input_length, truncation=True)
+    # Create the question generation pipeline
+    generator = pipeline("text2text-generation", model=model, tokenizer=tokenizer)
     mcqs = []
     for _ in range(num_questions):
         # Generate a single MCQ at a time
+        input_text = f"generate question: {tokenizer.decode(inputs['input_ids'][0])}"
+        generated = generator(input_text, max_length=100, num_return_sequences=1)
+        mcq = generated[0]["generated_text"]
         mcqs.append(mcq)
     return mcqs