Spaces:

Amii2410
/

Duplicate_API

Sleeping

App Files Files Community

Amii2410 commited on Sep 20, 2025

Commit

ebbae50

verified ·

1 Parent(s): e558fc7

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -40

app.py CHANGED Viewed

@@ -1,58 +1,63 @@
 import gradio as gr
 from sentence_transformers import SentenceTransformer, util
-import networkx as nx
-# Load the SentenceTransformer model once at startup
 model = SentenceTransformer("sentence-transformers/paraphrase-mpnet-base-v2")
-def group_duplicates_api(complaints, threshold=0.7):
     """
-    Groups similar/duplicate complaints into clusters.
-    complaints: multiline string or list of strings
-    threshold: similarity score between 0 and 1
     """
-    # Handle empty input
-    if not complaints:
         return []
-    # If using the textbox input, split by newline
-    if isinstance(complaints, str):
-        complaints = [c.strip() for c in complaints.split("\n") if c.strip()]
-    # If fewer than 2 complaints, nothing to compare
-    if len(complaints) < 2:
-        return [[c] for c in complaints]
-    # Compute embeddings and cosine similarities
-    embeddings = model.encode(complaints, convert_to_tensor=True)
-    cosine_scores = util.pytorch_cos_sim(embeddings, embeddings)
-    # Build similarity graph
-    G = nx.Graph()
-    G.add_nodes_from(range(len(complaints)))
-    for i in range(len(complaints)):
-        for j in range(i + 1, len(complaints)):
-            if cosine_scores[i][j].item() >= threshold:
-                G.add_edge(i, j)
-    # Extract connected components as duplicate groups
-    duplicate_groups = list(nx.connected_components(G))
-    results = [[complaints[idx] for idx in group] for group in duplicate_groups]
-    return results
-# Create Gradio interface
-demo = gr.Interface(
-    fn=group_duplicates_api,
     inputs=[
-        gr.Textbox(lines=10, placeholder="Enter complaints separated by newline", label="Complaints"),
-        gr.Slider(0.5, 0.95, value=0.7, step=0.01, label="Similarity Threshold")
     ],
-    outputs=gr.JSON(label="Duplicate Groups"),
-    title="Duplicate Complaint Grouping API",
-    description="Paste multiple complaints (one per line) and get grouped duplicates based on semantic similarity."
 )
-if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
 from sentence_transformers import SentenceTransformer, util
+# Load model once at startup
 model = SentenceTransformer("sentence-transformers/paraphrase-mpnet-base-v2")
+def find_matching_issues(newIssue, nearbyIssues, threshold=0.75):
     """
+    Finds similar issues for a new complaint.
     """
+    if not nearbyIssues:
         return []
+    # Encode new issue
+    new_emb = model.encode(newIssue, convert_to_tensor=True)
+    # Encode all nearby issues
+    issue_texts = [item["issue"] for item in nearbyIssues]
+    issue_embs = model.encode(issue_texts, convert_to_tensor=True)
+    # Compute cosine similarity
+    cosine_scores = util.pytorch_cos_sim(new_emb, issue_embs)[0]
+    matches = []
+    for i, score in enumerate(cosine_scores):
+        if score.item() >= threshold:
+            matches.append({
+                "ID": nearbyIssues[i]["ID"],
+                "issue": nearbyIssues[i]["issue"],
+                "similarity": round(score.item(), 3)
+            })
+    return matches
+# Wrapper for Gradio interface
+def match_api(newIssue, issues_text, threshold):
+    """
+    issues_text: input like '123: electricity problem; 124: water problem'
+    """
+    # Parse nearby issues (simple format: ID: text)
+    nearbyIssues = []
+    for part in issues_text.split(";"):
+        if ":" in part:
+            ID, issue = part.split(":", 1)
+            nearbyIssues.append({"ID": ID.strip(), "issue": issue.strip()})
+    matches = find_matching_issues(newIssue, nearbyIssues, threshold)
+    return matches
+# Gradio interface
+iface = gr.Interface(
+    fn=match_api,
     inputs=[
+        gr.Textbox(label="New Issue"),
+        gr.Textbox(label="Nearby Issues (format: ID: issue; ID: issue)"),
+        gr.Slider(0, 1, value=0.7, step=0.05, label="Threshold")
     ],
+    outputs="json",
+    title="Issue Matcher API",
+    description="Finds similar issues based on semantic similarity."
 )
+iface.launch()