Spaces:

anaspro
/

chatbox

Runtime error

App Files Files Community

anaspro commited on Oct 20, 2025

Commit

d85b048

verified ·

1 Parent(s): df118c2

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -36

app.py CHANGED Viewed

@@ -1,13 +1,13 @@
-from transformers import AutoTokenizer, TextIteratorStreamer, AutoModelForCausalLM
 import torch
 import gradio as gr
-import spaces
 from threading import Thread
 from huggingface_hub import login
-import os
 # ======================================================
-# تسجيل الدخول في حال كان الموديل خاص (اختياري)
 # ======================================================
 if os.getenv("HF_TOKEN"):
     login(token=os.getenv("HF_TOKEN"))
@@ -24,42 +24,29 @@ SYSTEM_PROMPT = (
     "لا تستخدم مقدمات مثل (مرحباً أو بالتأكيد)، فقط الجواب المباشر."
 )
 # ======================================================
-# تحميل الموديل (مع دعم Unsloth إذا متوفر)
 # ======================================================
-print("🔄 Loading model:", MODEL_ID)
-try:
-    from unsloth import FastLanguageModel
-    HAS_UNSLOTH = True
-except ImportError:
-    HAS_UNSLOTH = False
-if HAS_UNSLOTH:
-    print("🚀 Using Unsloth FastLanguageModel backend")
-    model, tokenizer = FastLanguageModel.from_pretrained(
-        MODEL_ID,
-        dtype=torch.bfloat16,
-        load_in_4bit=True,
-        device_map="auto",
-    )
-else:
-    print("⚙️ Using standard Transformers backend")
-    model = AutoModelForCausalLM.from_pretrained(
-        MODEL_ID,
-        torch_dtype=torch.bfloat16,
-        device_map="auto",
-    )
-    tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 model.eval()
 print("✅ Model ready!\n")
 # ======================================================
-# دالة المحادثة
 # ======================================================
 def chat(message, history):
     messages = []
     for msg in history:
         if msg["role"] == "user":
@@ -67,15 +54,20 @@ def chat(message, history):
         elif msg["role"] == "assistant":
             messages.append({"role": "assistant", "content": msg["content"]})
     messages.append({"role": "user", "content": f"{SYSTEM_PROMPT}\n\nالسؤال: {message}"})
     input_ids = tokenizer.apply_chat_template(
         messages,
         return_tensors="pt",
-        add_generation_prompt=True
     ).to(model.device)
-    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
     generation_kwargs = dict(
         input_ids=input_ids,
@@ -87,6 +79,7 @@ def chat(message, history):
         repetition_penalty=1.15,
     )
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
@@ -104,12 +97,12 @@ def chat(message, history):
 demo = gr.ChatInterface(
     fn=chat,
     type="messages",
-    title="🇮🇶 Gemma 3 Iraqi Chat",
     description="""
-**نموذج Gemma 3 4B – باللهجة العراقية 🇮🇶**
-مدرّب ومهيّأ للحوار بالعربية والفصحى، يفهم السياق ويتكلم بوضوح.
-🧠 أمثلة:
 - "شلونك اليوم؟"
 - "اشرحلي شنو يعني تصعيد إداري"
 - "وضحلي الفرق بين الدليل والعبرة"

+import os
 import torch
 import gradio as gr
 from threading import Thread
+from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer
 from huggingface_hub import login
+import spaces
 # ======================================================
+# تسجيل الدخول في حال الموديل خاص
 # ======================================================
 if os.getenv("HF_TOKEN"):
     login(token=os.getenv("HF_TOKEN"))
     "لا تستخدم مقدمات مثل (مرحباً أو بالتأكيد)، فقط الجواب المباشر."
 )
+print(f"🔄 Loading model: {MODEL_ID}")
 # ======================================================
+# تحميل الموديل
 # ======================================================
+tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_ID,
+    torch_dtype=torch.bfloat16,
+    device_map="auto",  # سيستخدم GPU عند تنفيذ الدالة أدناه
+)
 model.eval()
 print("✅ Model ready!\n")
 # ======================================================
+# دالة المحادثة (تُنفذ داخل ZeroGPU)
 # ======================================================
+@spaces.GPU(duration=60)
 def chat(message, history):
+    # تجهيز سجل المحادثة
     messages = []
     for msg in history:
         if msg["role"] == "user":
         elif msg["role"] == "assistant":
             messages.append({"role": "assistant", "content": msg["content"]})
+    # إضافة السؤال الحالي مع الـ system prompt
     messages.append({"role": "user", "content": f"{SYSTEM_PROMPT}\n\nالسؤال: {message}"})
+    # تجهيز الإدخال
     input_ids = tokenizer.apply_chat_template(
         messages,
         return_tensors="pt",
+        add_generation_prompt=True,
     ).to(model.device)
+    # إعداد البث المباشر للنص
+    streamer = TextIteratorStreamer(
+        tokenizer, skip_prompt=True, skip_special_tokens=True
+    )
     generation_kwargs = dict(
         input_ids=input_ids,
         repetition_penalty=1.15,
     )
+    # إنشاء Thread للبث التدريجي
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
 demo = gr.ChatInterface(
     fn=chat,
     type="messages",
+    title="🇮🇶 Gemma 3 Iraqi Chat – ZeroGPU Edition",
     description="""
+**نموذج Gemma 3 Iraqi 🇮🇶**
+مبني ومهيأ للحوار باللهجة العراقية والعربية الفصحى.
+🧠 أمثلة جاهزة:
 - "شلونك اليوم؟"
 - "اشرحلي شنو يعني تصعيد إداري"
 - "وضحلي الفرق بين الدليل والعبرة"