Spaces:

Deevyankar
/

Handouts

Sleeping

App Files Files Community

Deevyankar commited on Sep 23, 2025

Commit

bf6da39

verified ·

1 Parent(s): 6524b79

Create app.py

Browse files

Files changed (1) hide show

app.py +100 -0

app.py ADDED Viewed

	@@ -0,0 +1,100 @@

+import gradio as gr
+from PyPDF2 import PdfReader
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.metrics.pairwise import cosine_similarity
+from sentence_transformers import SentenceTransformer, util
+import matplotlib.pyplot as plt
+import pandas as pd
+import io
+# Load sentence transformer model
+model = SentenceTransformer('all-MiniLM-L6-v2')
+def extract_text_from_pdf(pdf_file):
+    try:
+        reader = PdfReader(io.BytesIO(pdf_file))
+        full_text = ""
+        for page in reader.pages:
+            text = page.extract_text()
+            if text:
+                full_text += text
+        return full_text.strip()
+    except Exception as e:
+        return ""
+def tfidf_similarity(text1, text2):
+    vectorizer = TfidfVectorizer()
+    tfidf = vectorizer.fit_transform([text1, text2])
+    return cosine_similarity(tfidf[0:1], tfidf[1:2])[0][0]
+def transformer_similarity(text1, text2):
+    emb1 = model.encode(text1, convert_to_tensor=True)
+    emb2 = model.encode(text2, convert_to_tensor=True)
+    return util.pytorch_cos_sim(emb1, emb2).item()
+def compare_all(old_pdf, new_pdf, lo_file):
+    try:
+        los = lo_file.decode("utf-8", errors="ignore").splitlines()
+        los = [lo.strip() for lo in los if lo.strip()]
+    except:
+        return "❌ Could not read learning outcomes file.", None, None, None, None, None
+    old_text = extract_text_from_pdf(old_pdf)
+    new_text = extract_text_from_pdf(new_pdf)
+    if not old_text or not new_text:
+        return "❌ Could not extract text from one or both PDFs.", None, None, None, None, None
+    tfidf_sim = tfidf_similarity(old_text, new_text)
+    transformer_sim = transformer_similarity(old_text, new_text)
+    content_diff = abs(len(new_text) - len(old_text)) / max(len(old_text), 1) * 100
+    tfidf_summary = f"🔍 **TF-IDF Similarity:** {round(tfidf_sim * 100, 2)}%"
+    trans_summary = f"🤖 **Transformer Similarity:** {round(transformer_sim * 100, 2)}%"
+    length_change = f"📄 **Text Length Difference:** {round(content_diff, 2)}%"
+    insights = f"{tfidf_summary}\n{trans_summary}\n{length_change}\n"
+    # LO-wise comparison
+    lo_scores = []
+    for lo in los:
+        lo_score = transformer_similarity(lo, new_text)
+        lo_scores.append(lo_score)
+    labels = [f"LO{i+1}" for i in range(len(los))]
+    df = pd.DataFrame({
+        "Learning Outcome": labels,
+        "Match Score (0-1)": [round(s, 2) for s in lo_scores]
+    })
+    # Chart
+    fig, ax = plt.subplots(figsize=(8, 4))
+    ax.bar(labels, lo_scores, color="skyblue")
+    ax.set_ylim(0, 1)
+    ax.set_ylabel("Semantic Match")
+    ax.set_title("LO-wise Transformer Similarity")
+    plt.xticks(rotation=45)
+    return insights, df, fig, new_text, tfidf_sim, transformer_sim
+iface = gr.Interface(
+    fn=compare_all,
+    inputs=[
+        gr.File(label="Old Handout PDF", type="binary"),
+        gr.File(label="New Handout PDF", type="binary"),
+        gr.File(label="Learning Outcomes (TXT)", type="binary"),
+    ],
+    outputs=[
+        gr.Textbox(label="📘 Summary of Analysis"),
+        gr.Dataframe(label="📊 LO-wise Semantic Comparison"),
+        gr.Plot(label="📈 LO Match Chart"),
+        gr.Textbox(label="📖 New Handout Preview (Full Text)", lines=10, max_lines=20),
+        gr.Number(label="TF-IDF Similarity Score"),
+        gr.Number(label="Transformer Similarity Score"),
+    ],
+    title="📘 Course Handout Comparison Tool",
+    description="Compare old and new handouts, analyze semantic change, LO alignment, and visualize Bloom's mapping."
+)
+iface.launch()