Spaces:

Shirjannn
/

Philsof

Sleeping

App Files Files Community

Shirjannn commited on Aug 16, 2025

Commit

820d22d

verified ·

1 Parent(s): dbc7378

Update app.py

Browse files

Files changed (1) hide show

app.py +59 -21

app.py CHANGED Viewed

@@ -1,35 +1,73 @@
-import json
 import gradio as gr
 import numpy as np
 from sklearn.metrics.pairwise import cosine_similarity
 from sentence_transformers import SentenceTransformer
 # مدل زبانی
 model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
-# لود دیتاست از فایل JSON
-with open("school_data.json", "r", encoding="utf-8") as f:
-    school_data_dynamic = json.load(f)
-# ساختن بردار embedding برای هر جمله
-embeddings = {}
-for school, texts in school_data_dynamic.items():
-    embeddings[school] = model.encode(texts)
-# تابع جستجو
-def find_school(user_input):
-    user_vec = model.encode([user_input])
-    best_school, best_score = None, -1
-    for school, vecs in embeddings.items():
-        sim = cosine_similarity(user_vec, vecs).max()
-        if sim > best_score:
-            best_school, best_score = school, sim
-    return f"Closest school: {best_school} (score: {best_score:.2f})"
 # رابط Gradio
-iface = gr.Interface(fn=find_school,
-                     inputs=gr.Textbox(lines=2, placeholder="Enter a sentence..."),
-                     outputs="text")
-iface.launch()

 import gradio as gr
 import numpy as np
+import pandas as pd
+import zipfile, os
 from sklearn.metrics.pairwise import cosine_similarity
 from sentence_transformers import SentenceTransformer
+from sklearn.decomposition import PCA
+import plotly.graph_objects as go
 # مدل زبانی
 model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
+# مسیر فایل ZIP
+zip_path = "school_data.zip"
+extract_folder = "school_data"
+# استخراج ZIP اگر هنوز استخراج نشده
+if not os.path.exists(extract_folder):
+    with zipfile.ZipFile(zip_path, "r") as zip_ref:
+        zip_ref.extractall(extract_folder)
+# لود دیتای CSV ها
+school_data_dynamic = {}
+for file in os.listdir(extract_folder):
+    if file.endswith(".csv"):
+        df = pd.read_csv(os.path.join(extract_folder, file))
+        # فرض: ستون اول = key ، ستون دوم = متن
+        if df.shape[1] >= 2:
+            for _, row in df.iterrows():
+                key = str(row[0])
+                value = str(row[1])
+                school_data_dynamic[key] = value
+# تبدیل دیتای متنی به embedding
+texts = list(school_data_dynamic.values())
+keys = list(school_data_dynamic.keys())
+embeddings = model.encode(texts, convert_to_tensor=False)
+# کاهش ابعاد برای رسم
+pca = PCA(n_components=2)
+reduced_embeddings = pca.fit_transform(embeddings)
+# تابع جستجو
+def search(query):
+    query_emb = model.encode([query], convert_to_tensor=False)
+    sims = cosine_similarity([query_emb[0]], embeddings)[0]
+    top_idx = np.argmax(sims)
+    return f"Closest match: {keys[top_idx]} → {texts[top_idx]}"
+# تابع برای رسم گراف
+def plot_embeddings():
+    fig = go.Figure()
+    fig.add_trace(go.Scatter(
+        x=reduced_embeddings[:,0],
+        y=reduced_embeddings[:,1],
+        mode="markers+text",
+        text=keys,
+        textposition="top center"
+    ))
+    return fig
 # رابط Gradio
+with gr.Blocks() as demo:
+    gr.Markdown("# 🔍 Semantic Search in School Data")
+    inp = gr.Textbox(label="Enter your query")
+    out = gr.Textbox(label="Best Match")
+    btn = gr.Button("Search")
+    graph = gr.Plot(label="Embedding Visualization")
+    btn.click(fn=search, inputs=inp, outputs=out)
+    demo.load(fn=plot_embeddings, inputs=None, outputs=graph)
+demo.launch()