Spaces:

mo-456
/

FTCE-chatbot

Sleeping

App Files Files Community

mo-456 commited on Jul 15, 2025

Commit

ea38749

verified ·

1 Parent(s): 0fd5ec6

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -33

app.py CHANGED Viewed

@@ -3,46 +3,50 @@ import gradio as gr
 from sentence_transformers import SentenceTransformer, util
 import torch
-# Load Arabic sentence transformer model
 model = SentenceTransformer("CAMeL-Lab/bert-base-arabic-camelbert-ca")
-# Load and preprocess knowledge base
-def load_knowledge(file_path):
-    with open(file_path, "r", encoding="utf-8") as f:
-        content = f.read()
-    passages = [p.strip() for p in content.split("\n\n") if p.strip()]
-    embeddings = model.encode(passages, convert_to_tensor=True)
-    return passages, embeddings
-passages, passage_embeddings = load_knowledge("knowledge.txt")
 # Search function
-def answer_question_arabic(query):
-    query_embedding = model.encode(query, convert_to_tensor=True)
-    scores = util.cos_sim(query_embedding, passage_embeddings)[0]
-    top_idx = torch.argmax(scores).item()
-    best_score = scores[top_idx].item()
-    if best_score < 0.4:
-        return "عذرًا، لم أتمكن من العثور على إجابة مناسبة في قاعدة المعرفة."
-    return passages[top_idx]
 # Gradio UI
-demo = gr.Interface(
-    fn=answer_question_arabic,
-    inputs=gr.Textbox(label="اكتب سؤالك هنا", placeholder="ما هي أهداف التنمية المستدامة؟"),
-    outputs=gr.Textbox(label="إجابة"),
-    title="روبوت المعرفة - التنمية المستدامة",
-    description="أجب عن الأسئلة باللغة العربية بناءً على قاعدة معرفية من وزارة المالية حول التنمية المستدامة والموازنة التشاركية."
-)
-# FastAPI app
 app = FastAPI()
 @app.get("/")
 def read_root():
-    return {"message": "مرحبا بك! انتقل إلى /gradio لبدء التفاعل."}
-@app.get("/gradio")
-def launch_gradio():
-    return gr.mount_gradio_app(app, demo, path="/gradio")

 from sentence_transformers import SentenceTransformer, util
 import torch
+# Load model (auto-downloads if not cached)
 model = SentenceTransformer("CAMeL-Lab/bert-base-arabic-camelbert-ca")
+# Load knowledge file and generate embeddings
+with open("knowledge.txt", "r", encoding="utf-8") as f:
+    knowledge_text = f.read()
+# Split the text into chunks
+def split_text(text, chunk_size=400):
+    sentences = text.split("،")  # Split on Arabic comma
+    chunks, chunk = [], ""
+    for sentence in sentences:
+        if len(chunk) + len(sentence) < chunk_size:
+            chunk += sentence + "،"
+        else:
+            chunks.append(chunk.strip())
+            chunk = sentence + "،"
+    if chunk:
+        chunks.append(chunk.strip())
+    return chunks
+chunks = split_text(knowledge_text)
+corpus_embeddings = model.encode(chunks, convert_to_tensor=True)
 # Search function
+def answer_question(question):
+    question_embedding = model.encode(question, convert_to_tensor=True)
+    scores = util.cos_sim(question_embedding, corpus_embeddings)[0]
+    best_idx = torch.argmax(scores).item()
+    return chunks[best_idx]
 # Gradio UI
+with gr.Blocks() as demo:
+    gr.Markdown("### 🤖 اسأل عن التنمية المستدامة أو الموازنة التشاركية")
+    with gr.Row():
+        inp = gr.Textbox(label="اكتب سؤالك هنا", placeholder="مثال: ما هي أهداف التنمية المستدامة؟")
+    out = gr.Textbox(label="الإجابة")
+    btn = gr.Button("إجابة")
+    btn.click(fn=answer_question, inputs=inp, outputs=out)
+# FastAPI + Gradio mount
 app = FastAPI()
 @app.get("/")
 def read_root():
+    return {"message": "Arabic Q&A Chatbot running."}
+app = gr.mount_gradio_app(app, demo, path="/")