Spaces:

ramysaidagieb
/

ask1

Build error

App Files Files Community

ramysaidagieb commited on Jun 10, 2025

Commit

bafba0e

verified ·

1 Parent(s): 426d264

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -16

app.py CHANGED Viewed

@@ -8,26 +8,25 @@ from sentence_transformers import SentenceTransformer
 from dspy import Example, MIPROv2, Evaluate, evaluate
 from dspy import LiteLLM
-# تحميل التوكن من secrets
-HF_TOKEN = os.environ.get("HF_TOKEN")
-# إعداد النموذج عبر LiteLLM من Hugging Face Inference Endpoints
 dspy.settings.configure(
     lm=LiteLLM(
-        model="HuggingFaceH4/zephyr-7b-beta",  # يمكنك تغييره لأي نموذج Instruct مفتوح
         api_base="https://api-inference.huggingface.co/v1",
         api_key=HF_TOKEN
     )
 )
-# إعداد ChromaDB
 client = chromadb.PersistentClient(path="./chroma_db")
 col = client.get_or_create_collection(name="arabic_docs")
-# نموذج Embedding يدعم العربية
 embedder = SentenceTransformer("sentence-transformers/LaBSE")
-# استخراج النصوص من PDF
 def process_pdf(pdf_bytes):
     doc = fitz.open(stream=pdf_bytes, filetype="pdf")
     texts = []
@@ -38,7 +37,6 @@ def process_pdf(pdf_bytes):
                 texts.append(chunk.strip())
     return texts
-# إدخال النصوص إلى قاعدة Chroma
 def ingest(pdf_file):
     pdf_bytes = pdf_file
     texts = process_pdf(pdf_bytes)
@@ -47,20 +45,17 @@ def ingest(pdf_file):
         col.add(ids=[f"chunk_{i}"], embeddings=[emb.tolist()], metadatas=[{"text": chunk}])
     return f"✅ تمت إضافة {len(texts)} مقطعاً."
-# استرجاع السياق الأقرب للسؤال
 def retrieve_context(question):
     embedding = embedder.encode([question])[0]
     results = col.query(query_embeddings=[embedding.tolist()], n_results=3)
     context_list = [m["text"] for m in results["metadatas"][0]]
     return "\n\n".join(context_list)
-# تعريف توقيع وحدة RAG
 class RagSig(dspy.Signature):
     question: str = dspy.InputField()
     context: str = dspy.InputField()
     answer: str = dspy.OutputField()
-# وحدة RAG
 class RagMod(dspy.Module):
     def __init__(self):
         super().__init__()
@@ -72,17 +67,14 @@ class RagMod(dspy.Module):
 model = RagMod()
-# توليد الإجابة
 def answer(question):
     out = model(question)
     return out.answer
-# تحميل مجموعة بيانات التدريب
 def load_dataset(path):
     with open(path, "r", encoding="utf-8") as f:
         return [Example(**json.loads(l)).with_inputs("question") for l in f]
-# تحسين النموذج
 def optimize(train_file, val_file):
     global model
     trainset = load_dataset(train_file.name)
@@ -92,9 +84,8 @@ def optimize(train_file, val_file):
     model = optimized
     return "✅ تم تحسين النموذج!"
-# واجهة Gradio
 with gr.Blocks() as demo:
-    gr.Markdown("## 🧠 نظام RAG عربي باستخدام DSPy + ChromaDB + HF Inference")
     with gr.Tab("📥 تحميل وتخزين"):
         pdf_input = gr.File(label="ارفع ملف PDF", type="binary")

 from dspy import Example, MIPROv2, Evaluate, evaluate
 from dspy import LiteLLM
+# تحميل التوكن من Secrets
+HF_TOKEN = os.environ["HF_TOKEN"]
+# تهيئة النموذج عبر LiteLLM من Hugging Face API
 dspy.settings.configure(
     lm=LiteLLM(
+        model="HuggingFaceH4/zephyr-7b-beta",  # اختر نموذج Instruct مدعوم
         api_base="https://api-inference.huggingface.co/v1",
         api_key=HF_TOKEN
     )
 )
+# إعداد قاعدة بيانات Chroma
 client = chromadb.PersistentClient(path="./chroma_db")
 col = client.get_or_create_collection(name="arabic_docs")
+# إعداد نموذج LaBSE للتضمين العربي
 embedder = SentenceTransformer("sentence-transformers/LaBSE")
 def process_pdf(pdf_bytes):
     doc = fitz.open(stream=pdf_bytes, filetype="pdf")
     texts = []
                 texts.append(chunk.strip())
     return texts
 def ingest(pdf_file):
     pdf_bytes = pdf_file
     texts = process_pdf(pdf_bytes)
         col.add(ids=[f"chunk_{i}"], embeddings=[emb.tolist()], metadatas=[{"text": chunk}])
     return f"✅ تمت إضافة {len(texts)} مقطعاً."
 def retrieve_context(question):
     embedding = embedder.encode([question])[0]
     results = col.query(query_embeddings=[embedding.tolist()], n_results=3)
     context_list = [m["text"] for m in results["metadatas"][0]]
     return "\n\n".join(context_list)
 class RagSig(dspy.Signature):
     question: str = dspy.InputField()
     context: str = dspy.InputField()
     answer: str = dspy.OutputField()
 class RagMod(dspy.Module):
     def __init__(self):
         super().__init__()
 model = RagMod()
 def answer(question):
     out = model(question)
     return out.answer
 def load_dataset(path):
     with open(path, "r", encoding="utf-8") as f:
         return [Example(**json.loads(l)).with_inputs("question") for l in f]
 def optimize(train_file, val_file):
     global model
     trainset = load_dataset(train_file.name)
     model = optimized
     return "✅ تم تحسين النموذج!"
 with gr.Blocks() as demo:
+    gr.Markdown("## 🧠 نظام RAG عربي باستخدام DSPy + ChromaDB + Hugging Face Inference")
     with gr.Tab("📥 تحميل وتخزين"):
         pdf_input = gr.File(label="ارفع ملف PDF", type="binary")