Spaces:

Deevyankar
/

Handouts

Sleeping

App Files Files Community

Deevyankar commited on Sep 20, 2025

Commit

5abbe67

verified ·

1 Parent(s): d83eb1d

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -12

app.py CHANGED Viewed

@@ -3,8 +3,10 @@ import gradio as gr
 import fitz  # PyMuPDF
 from docx import Document
 import io
-import difflib
 import re
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
@@ -49,13 +51,15 @@ def quality_check(new_text):
         return "🔴 New content may need more detail."
 def find_relevant_los(content, los):
     vectorizer = TfidfVectorizer().fit_transform([content] + los)
     similarities = cosine_similarity(vectorizer[0:1], vectorizer[1:]).flatten()
     matched = []
     for i, score in enumerate(similarities):
         if score > 0.2:
             matched.append(f"✓ {los[i]} (Match: {score:.2f})")
-    return matched if matched else ["No significant LO matches found."]
 def summarize_added_lines(old_text, new_text):
     old_lines = set(old_text.splitlines())
@@ -68,7 +72,25 @@ def summarize_added_lines(old_text, new_text):
         if len(line_clean.split()) >= 5:
             summary.append("- " + line_clean)
-    return summary if summary else ["No major content additions found."]
 def compare_handouts(old_pdf, new_pdf, lo_file):
     old_text = extract_text_from_pdf(old_pdf)
@@ -76,16 +98,24 @@ def compare_handouts(old_pdf, new_pdf, lo_file):
     los = extract_los(lo_file)
     if not old_text or not new_text:
-        return "❗ One or both PDFs may not contain extractable text.", "", "", ""
-    added_summary = summarize_added_lines(old_text, new_text)
-    lo_matches = find_relevant_los(new_text, los)
     quality = quality_check(new_text)
     summary_output = "\n".join(added_summary)
     lo_output = "\n".join(lo_matches)
-    return summary_output, lo_output, quality, "✅ Use this summary to generate heatmaps externally."
 iface = gr.Interface(
     fn=compare_handouts,
@@ -96,12 +126,12 @@ iface = gr.Interface(
     ],
     outputs=[
         gr.Textbox(label="🆕 New Content Summary", lines=10),
-        gr.Textbox(label="🎯 LO Matches (Relevance to New)", lines=10),
-        gr.Textbox(label="📈 Content Quality Insight", lines=2),
-        gr.Textbox(label="🌈 Visual Heatmap Prep", lines=2)
     ],
-    title="📘 Smart Handout Analyzer: Content, LO & Quality",
-    description="This tool finds new content in the updated PDF, matches it to learning outcomes (LOs), and estimates content quality. Heatmap-ready output included."
 )
 iface.launch()

 import fitz  # PyMuPDF
 from docx import Document
 import io
 import re
+import difflib
+import matplotlib.pyplot as plt
+import numpy as np
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
         return "🔴 New content may need more detail."
 def find_relevant_los(content, los):
+    if not los:
+        return [], 0
     vectorizer = TfidfVectorizer().fit_transform([content] + los)
     similarities = cosine_similarity(vectorizer[0:1], vectorizer[1:]).flatten()
     matched = []
     for i, score in enumerate(similarities):
         if score > 0.2:
             matched.append(f"✓ {los[i]} (Match: {score:.2f})")
+    return matched, len(matched)
 def summarize_added_lines(old_text, new_text):
     old_lines = set(old_text.splitlines())
         if len(line_clean.split()) >= 5:
             summary.append("- " + line_clean)
+    return summary, len(added_lines), len(new_lines)
+def create_heatmap(old_text, new_text):
+    old_lines = old_text.splitlines()
+    new_lines = new_text.splitlines()
+    sm = difflib.SequenceMatcher(None, old_lines, new_lines)
+    diff_matrix = np.zeros((len(new_lines), 1))
+    for opcode, i1, i2, j1, j2 in sm.get_opcodes():
+        if opcode == 'insert':
+            for j in range(j1, j2):
+                if j < len(diff_matrix):
+                    diff_matrix[j][0] = 1  # Mark added lines
+    fig, ax = plt.subplots(figsize=(2, len(new_lines) * 0.2))
+    ax.imshow(diff_matrix, cmap="Reds", aspect='auto')
+    ax.axis('off')
+    fig.tight_layout()
+    return fig
 def compare_handouts(old_pdf, new_pdf, lo_file):
     old_text = extract_text_from_pdf(old_pdf)
     los = extract_los(lo_file)
     if not old_text or not new_text:
+        return "❗ Error in file(s)", "", "", "", None
+    added_summary, added_lines, total_lines = summarize_added_lines(old_text, new_text)
+    percent_change = (added_lines / max(total_lines, 1)) * 100
+    lo_matches, matched_count = find_relevant_los(new_text, los)
     quality = quality_check(new_text)
     summary_output = "\n".join(added_summary)
     lo_output = "\n".join(lo_matches)
+    stats = (
+        f"📈 Percent Change in Content: {percent_change:.2f}%\n"
+        f"🎯 Matched Learning Outcomes: {matched_count} out of {len(los)}\n"
+        f"{quality}"
+    )
+    heatmap_fig = create_heatmap(old_text, new_text)
+    return summary_output, lo_output, stats, heatmap_fig
 iface = gr.Interface(
     fn=compare_handouts,
     ],
     outputs=[
         gr.Textbox(label="🆕 New Content Summary", lines=10),
+        gr.Textbox(label="🎯 LO Matches", lines=10),
+        gr.Textbox(label="📊 Stats & Quality", lines=5),
+        gr.Plot(label="🌈 Visual Heatmap of Changes")
     ],
+    title="📘 Smart Handout Analyzer: Percent Change, LOs & Quality",
+    description="Upload old & new PDFs plus Learning Outcomes to see content updates, LO match, quality insights, and a heatmap of added content."
 )
 iface.launch()