Spaces:

MGZON
/

api-mg

Runtime error

App Files Files Community

ibrahimlasfar commited on Aug 24, 2025

Commit

6f85038

1 Parent(s): bc1be15

Add updated Dockerfile and app.py with proper cache handling

Browse files

Files changed (1) hide show

app.py +32 -8

app.py CHANGED Viewed

@@ -4,15 +4,28 @@ from pydantic import BaseModel
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from llama_cpp import Llama
 app = FastAPI(
     title="MGZON Smart Assistant",
-    description="دمج نموذج T5 المدرب مع Mistral 7B (GGUF) داخل Space"
 )
 # -------------------------------------------------
 # 1️⃣ تحميل نموذج T5 المدرب من Hub
 # -------------------------------------------------
-T5_REPO = "MGZON/mgzon-flan-t5-base"   # إذا رفعت النموذج إلى مستودع آخر استبدل الاسم
 t5_tokenizer = AutoTokenizer.from_pretrained(T5_REPO)
 t5_model = AutoModelForSeq2SeqLM.from_pretrained(T5_REPO)
@@ -20,35 +33,46 @@ t5_model = AutoModelForSeq2SeqLM.from_pretrained(T5_REPO)
 # 2️⃣ تحميل ملف Mistral .gguf (تم تنزيله بواسطة setup.sh)
 # -------------------------------------------------
 gguf_path = os.path.abspath("models/mistral-7b-instruct-v0.1.Q4_K_M.gguf")
 mistral = Llama(
     model_path=gguf_path,
     n_ctx=2048,
-    n_threads=8,          # عدد الـ threads المتاح داخل Space (CPU)
     # إذا كان لديك GPU داخل Space يمكنك إضافة n_gpu_layers=35
 )
 # -------------------------------------------------
-# 3️⃣ طلب API
 # -------------------------------------------------
 class AskRequest(BaseModel):
     question: str
-    max_new_tokens: int = 150
 @app.post("/ask")
 def ask(req: AskRequest):
     q = req.question.strip()
     if not q:
         raise HTTPException(status_code=400, detail="Empty question")
-    # اختيار النموذج بناءً على كلمة مفتاحية (يمكنك تعديل المنطق)
     if any(tok in q.lower() for tok in ["mgzon", "flan", "t5"]):
-        # --------- T5 ----------
         inputs = t5_tokenizer(q, return_tensors="pt", truncation=True, max_length=256)
         out_ids = t5_model.generate(**inputs, max_length=req.max_new_tokens)
         answer = t5_tokenizer.decode(out_ids[0], skip_special_tokens=True)
         model_name = "MGZON‑FLAN‑T5"
     else:
-        # --------- Mistral ----------
         out = mistral(prompt=q, max_tokens=req.max_new_tokens)
         answer = out["choices"][0]["text"].strip()
         model_name = "Mistral‑7B‑GGUF"

 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from llama_cpp import Llama
+# -------------------------------------------------
+# إعداد مسار الـ cache (فقط إذا لم يكن معرفًا سلفًا)
+# -------------------------------------------------
+CACHE_DIR = "/app/.cache"          # نفس المسار الذي عرّفته في Dockerfile
+os.makedirs(CACHE_DIR, exist_ok=True)
+# تأكد من أن المكتبتين تقرأ المتغيّرات البيئية
+os.environ.setdefault("TRANSFORMERS_CACHE", CACHE_DIR)
+os.environ.setdefault("HF_HOME", CACHE_DIR)
+# -------------------------------------------------
+# إنشاء التطبيق
+# -------------------------------------------------
 app = FastAPI(
     title="MGZON Smart Assistant",
+    description="دمج نموذج T5 المدرب مع Mistral‑7B (GGUF) داخل Space"
 )
 # -------------------------------------------------
 # 1️⃣ تحميل نموذج T5 المدرب من Hub
 # -------------------------------------------------
+T5_REPO = "MGZON/mgzon-flan-t5-base"   # إذا رفعت النموذج إلى مستودع آخر غير هذا غير الاسم
 t5_tokenizer = AutoTokenizer.from_pretrained(T5_REPO)
 t5_model = AutoModelForSeq2SeqLM.from_pretrained(T5_REPO)
 # 2️⃣ تحميل ملف Mistral .gguf (تم تنزيله بواسطة setup.sh)
 # -------------------------------------------------
 gguf_path = os.path.abspath("models/mistral-7b-instruct-v0.1.Q4_K_M.gguf")
+if not os.path.exists(gguf_path):
+    # في حالة عدم وجود الملف (مثلاً إذا لم يُنفّذ setup.sh) نُظهر رسالة واضحة
+    raise RuntimeError(
+        f"ملف Mistral .gguf غير موجود في {gguf_path}. "
+        "تأكد من أن ملف setup.sh تم تنفيذه أثناء الـ build."
+    )
 mistral = Llama(
     model_path=gguf_path,
     n_ctx=2048,
+    n_threads=8,          # عدد الـ threads المتاح داخل Space (CPU فقط)
     # إذا كان لديك GPU داخل Space يمكنك إضافة n_gpu_layers=35
 )
 # -------------------------------------------------
+# تعريف شكل الطلب (JSON)
 # -------------------------------------------------
 class AskRequest(BaseModel):
     question: str
+    max_new_tokens: int = 150   # عدد الكلمات التي تريد استخراجها (يمكن تعديلها)
+# -------------------------------------------------
+# نقطة النهاية /ask
+# -------------------------------------------------
 @app.post("/ask")
 def ask(req: AskRequest):
     q = req.question.strip()
     if not q:
         raise HTTPException(status_code=400, detail="Empty question")
+    # منطق بسيط لاختيار النموذج:
+    # إذا احتوى السؤال على كلمة مفتاحية نستخدم T5، وإلا نستخدم Mistral
     if any(tok in q.lower() for tok in ["mgzon", "flan", "t5"]):
+        # --------- نموذج T5 ----------
         inputs = t5_tokenizer(q, return_tensors="pt", truncation=True, max_length=256)
         out_ids = t5_model.generate(**inputs, max_length=req.max_new_tokens)
         answer = t5_tokenizer.decode(out_ids[0], skip_special_tokens=True)
         model_name = "MGZON‑FLAN‑T5"
     else:
+        # --------- نموذج Mistral ----------
         out = mistral(prompt=q, max_tokens=req.max_new_tokens)
         answer = out["choices"][0]["text"].strip()
         model_name = "Mistral‑7B‑GGUF"