Spaces:

anaspro
/

chatbox

Runtime error

App Files Files Community

anaspro commited on Oct 20

Commit

d11fb30

verified ·

1 Parent(s): de72440

Update app.py

Browse files

Files changed (1) hide show

app.py +62 -54

app.py CHANGED Viewed

@@ -7,32 +7,33 @@ from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStream
 from huggingface_hub import login
 # ======================================================
-# إعدادات عامة
 # ======================================================
 MODEL_ID = "anaspro/gemma3-iraqi"
 SYSTEM_PROMPT = (
-    "أنت مساعد ذكي تفهم اللهجة العراقية والعربية الفصحى. "
-    "جاوب على الأسئلة بإيجاز ووضوح، بنفس لغة المستخدم. "
-    "لا تستخدم مقدمات مثل (مرحباً أو بالتأكيد)، فقط الجواب المباشر."
 )
 if os.getenv("HF_TOKEN"):
     login(token=os.getenv("HF_TOKEN"))
-    print("🔐 Logged in to Hugging Face Hub")
-print("✅ App initialized. Model will load on first GPU request.\n")
 # ======================================================
-# تحميل الموديل داخل ZeroGPU context
 # ======================================================
-@spaces.GPU(duration=60)
 def chat(message, history):
     global model, tokenizer
-    if "model" not in globals():
-        print("🔄 Loading model on GPU...")
         tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
         model = AutoModelForCausalLM.from_pretrained(
             MODEL_ID,
@@ -40,68 +41,75 @@ def chat(message, history):
             device_map="auto",
         )
         model.eval()
-        print("✅ Model loaded successfully on GPU!")
-    # تجهيز سجل المحادثة
-    messages = []
-    for msg in history:
-        messages.append(msg)
-    messages.append({"role": "user", "content": f"{SYSTEM_PROMPT}\n\nالسؤال: {message}"})
     input_ids = tokenizer.apply_chat_template(
         messages,
         return_tensors="pt",
         add_generation_prompt=True
     ).to(model.device)
-    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
-    generation_kwargs = dict(
-        input_ids=input_ids,
-        streamer=streamer,
-        max_new_tokens=512,
-        temperature=0.8,
-        top_p=0.95,
-        do_sample=True,
-        repetition_penalty=1.05,
     )
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
     partial_text = ""
     for new_text in streamer:
         partial_text += new_text
-        yield partial_text.strip()
     thread.join()
 # ======================================================
-# واجهة Gradio
 # ======================================================
 demo = gr.ChatInterface(
     fn=chat,
     type="messages",
-    title="🇮🇶 Gemma 3 Iraqi Chat – ZeroGPU Edition",
-    description="""
-**نموذج Gemma 3 Iraqi 🇮🇶**
-يدعم اللهجة العراقية والعربية الفصحى.
-يعمل على ZeroGPU ويُحمّل الموديل فقط عند أول طلب.
-🧠 أمثلة:
-- "شلونك اليوم؟"
-- "اشرحلي شنو يعني تصعيد إداري"
-- "وضحلي الفرق بين الدليل والعبرة"
-""",
     examples=[
-        ["شلونك اليوم؟"],
-        ["اشرحلي شنو يعني تصعيد إداري"],
-        ["وضحلي الفرق بين الدليل والعبرة"],
     ],
     theme=gr.themes.Soft(),
 )
 if __name__ == "__main__":
-    demo.launch()

 from huggingface_hub import login
 # ======================================================
+# Settings
 # ======================================================
 MODEL_ID = "anaspro/gemma3-iraqi"
 SYSTEM_PROMPT = (
+    "أنت مساعد ذكي يفهم اللهجة العراقية. "
+    "جاوب بشكل مباشر وواضح بنفس لغة المستخدم."
 )
+# Login to HF
 if os.getenv("HF_TOKEN"):
     login(token=os.getenv("HF_TOKEN"))
+    print("🔐 Logged in to Hugging Face")
+# Global variables
+model = None
+tokenizer = None
 # ======================================================
+# Chat function with ZeroGPU
 # ======================================================
+@spaces.GPU(duration=120)  # زودت المدة
 def chat(message, history):
     global model, tokenizer
+    # Load model once
+    if model is None:
+        print("🔄 Loading model...")
         tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
         model = AutoModelForCausalLM.from_pretrained(
             MODEL_ID,
             device_map="auto",
         )
         model.eval()
+        print("✅ Model loaded!")
+    # Build conversation
+    messages = [{"role": "system", "content": SYSTEM_PROMPT}]
+    # Add history
+    for user_msg, bot_msg in history:
+        messages.append({"role": "user", "content": user_msg})
+        messages.append({"role": "assistant", "content": bot_msg})
+    # Add current message
+    messages.append({"role": "user", "content": message})
+    # Tokenize
     input_ids = tokenizer.apply_chat_template(
         messages,
         return_tensors="pt",
         add_generation_prompt=True
     ).to(model.device)
+    # Setup streamer
+    streamer = TextIteratorStreamer(
+        tokenizer,
+        skip_prompt=True,
+        skip_special_tokens=True
     )
+    generation_kwargs = {
+        "input_ids": input_ids,
+        "streamer": streamer,
+        "max_new_tokens": 512,
+        "temperature": 0.7,
+        "top_p": 0.9,
+        "top_k": 50,
+        "do_sample": True,
+        "repetition_penalty": 1.1,
+    }
+    # Start generation in thread
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
+    # Stream response
     partial_text = ""
     for new_text in streamer:
         partial_text += new_text
+        yield partial_text
     thread.join()
 # ======================================================
+# Gradio Interface
 # ======================================================
 demo = gr.ChatInterface(
     fn=chat,
     type="messages",
+    title="🇮🇶 Gemma 3 Iraqi Assistant",
+    description=(
+        "**نموذج Gemma 3 مدرب على اللهجة العراقية**\n\n"
+        "اسأل أي سؤال باللهجة العراقية أو العربية الفصحى!"
+    ),
     examples=[
+        ["شلونك؟"],
+        ["شنو الفرق بين البرمجة والذكاء الاصطناعي؟"],
+        ["علمني اسوي دولمة"],
     ],
     theme=gr.themes.Soft(),
+    cache_examples=False,
 )
 if __name__ == "__main__":
+    demo.launch()