Spaces:

Zeeshan24
/

Question-Checker

Build error

App Files Files Community

Zeeshan24 commited on Dec 17, 2024

Commit

bfbd7e6

verified ·

1 Parent(s): c020812

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -20

app.py CHANGED Viewed

@@ -1,27 +1,22 @@
 import streamlit as st
 from PIL import Image
-import pytesseract
-from transformers import pipeline
 import re
-import os
-# Install Tesseract OCR during runtime
-os.system("apt-get update && apt-get install -y tesseract-ocr")
-# Load pre-trained model for question-answering
 qa_pipeline = pipeline("question-answering", model="distilbert-base-uncased-distilled-squad")
-# Function to extract text using OCR
-def extract_text_from_image(image_file):
-    image = Image.open(image_file)
-    text = pytesseract.image_to_string(image)
-    return text
-# Process text to extract questions
-def extract_questions_from_text(text):
-    # Extract lines that look like questions
-    questions = re.findall(r'(?:[^\n]*\?)', text)
-    return questions
 # Extract student name and roll number
 def extract_student_info(text):
@@ -31,7 +26,12 @@ def extract_student_info(text):
     roll_number = roll_no.group(1).strip() if roll_no else "Unknown"
     return student_name, roll_number
-# Grade answers using QA model
 def grade_answer(question, context):
     result = qa_pipeline(question=question, context=context)
     return result['score'], "Correct" if result['score'] > 0.5 else "Incorrect"
@@ -46,8 +46,8 @@ uploaded_image = st.file_uploader("Upload Handwritten Image", type=["png", "jpg"
 if uploaded_image:
     st.image(uploaded_image, caption="Uploaded Handwritten File", use_container_width=True)
-    # Extract text using OCR
-    extracted_text = extract_text_from_image(uploaded_image)
     st.subheader("Extracted Text")
     st.text(extracted_text)

 import streamlit as st
 from PIL import Image
+from transformers import TrOCRProcessor, VisionEncoderDecoderModel, pipeline
 import re
+# Load TrOCR Model for Handwritten OCR
+processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
+model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-handwritten")
+# Load pre-trained QA model
 qa_pipeline = pipeline("question-answering", model="distilbert-base-uncased-distilled-squad")
+# Function to extract text using TrOCR
+def extract_text_from_handwriting(image_file):
+    image = Image.open(image_file).convert("RGB")
+    pixel_values = processor(images=image, return_tensors="pt").pixel_values
+    generated_ids = model.generate(pixel_values)
+    extracted_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+    return extracted_text
 # Extract student name and roll number
 def extract_student_info(text):
     roll_number = roll_no.group(1).strip() if roll_no else "Unknown"
     return student_name, roll_number
+# Extract questions from the text
+def extract_questions_from_text(text):
+    questions = re.findall(r'(?:[^\n]*\?)', text)  # Extract sentences ending with "?"
+    return questions
+# Grading function using QA model
 def grade_answer(question, context):
     result = qa_pipeline(question=question, context=context)
     return result['score'], "Correct" if result['score'] > 0.5 else "Incorrect"
 if uploaded_image:
     st.image(uploaded_image, caption="Uploaded Handwritten File", use_container_width=True)
+    # Extract text using TrOCR
+    extracted_text = extract_text_from_handwriting(uploaded_image)
     st.subheader("Extracted Text")
     st.text(extracted_text)