Spaces:

Kishoreuses5
/

Codet5p

Sleeping

App Files Files Community

Kishoreuses5 commited on 29 days ago

Commit

7e042dd

verified ·

1 Parent(s): b1a8eda

Create app.py

Browse files

Files changed (1) hide show

app.py +66 -0

app.py ADDED Viewed

	@@ -0,0 +1,66 @@

+import gradio as gr
+import torch
+import numpy as np
+from transformers import AutoTokenizer, AutoModel
+from sklearn.metrics.pairwise import cosine_similarity
+# Load CodeT5p embedding model
+model_name = "Salesforce/codet5p-110m-embedding"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModel.from_pretrained(model_name)
+def get_embedding(code):
+    inputs = tokenizer(
+        code,
+        return_tensors="pt",
+        truncation=True,
+        max_length=512
+    )
+    with torch.no_grad():
+        outputs = model(**inputs)
+        embedding = outputs.last_hidden_state.mean(dim=1)
+    return embedding.numpy()
+student_codes = []  # stored embeddings
+raw_codes = []      # original text
+def analyze(code):
+    global student_codes, raw_codes
+    emb = get_embedding(code)
+    result = ""
+    if len(student_codes) == 0:
+        result += "First submission stored. No comparison yet.\n"
+    else:
+        all_embeddings = np.vstack(student_codes)
+        sims = cosine_similarity(emb, all_embeddings)[0]
+        max_sim = float(np.max(sims))
+        idx = int(np.argmax(sims))
+        result += f"Most similar previous submission score: {max_sim:.3f}\n"
+        result += f"Most similar code index: {idx}\n\n"
+        if max_sim > 0.9:
+            result += "⚠ Very high similarity — likely same approach / plagiarism\n"
+        elif max_sim > 0.7:
+            result += "🔁 Same structure / same algorithm\n"
+        elif max_sim > 0.5:
+            result += "🟡 Partially similar approach\n"
+        else:
+            result += "🟢 Unique solution style\n"
+    student_codes.append(emb)
+    raw_codes.append(code)
+    return result
+gr.Interface(
+    fn=analyze,
+    inputs=gr.Textbox(lines=10, label="Student Python Code"),
+    outputs=gr.Textbox(lines=12, label="Code Similarity / Approach Analysis"),
+    title="CodeT5p — Code Similarity & Approach Clustering"
+).launch()