Spaces:

sassil
/

maverick-engineer

Sleeping

App Files Files Community

sassil commited on Oct 4, 2025

Commit

9af31e9

1 Parent(s): 07726ac

1

Browse files

Files changed (1) hide show

app.py +88 -146

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 import spaces
-# إعدادات quantization لـ Qwen3
 quantization_config = BitsAndBytesConfig(
     load_in_4bit=True,
     bnb_4bit_compute_dtype=torch.bfloat16,
@@ -11,17 +11,24 @@ quantization_config = BitsAndBytesConfig(
     bnb_4bit_quant_type="nf4"
 )
-# اختر الموديل حسب العتاد المتاح
-# للحصول على أفضل أداء على H100، استخدم Qwen3-32B
-MODEL_NAME = "Qwen/Qwen3-32B-Instruct"
-# بدائل حسب العتاد:
-# "Qwen/Qwen3-8B-Instruct"  # للعتاد المتوسط (A10G)
-# "Qwen/Qwen3-14B-Instruct" # للعتاد القوي
-# "Qwen/Qwen3-32B-Instruct" # للعتاد الممتاز (H100)
-# "Qwen/Qwen3-235B-A22B-Instruct" # للعتاد الضخم (8xH100)
-print(f"جاري تحميل {MODEL_NAME}...")
 tokenizer = AutoTokenizer.from_pretrained(
     MODEL_NAME,
@@ -39,6 +46,9 @@ model = AutoModelForCausalLM.from_pretrained(
 print("✅ تم تحميل الموديل بنجاح!")
 @spaces.GPU(duration=180)
 def generate_response(
     message,
@@ -48,52 +58,54 @@ def generate_response(
     temperature=0.7,
     top_p=0.95,
     top_k=20,
-    min_p=0.0,
     repetition_penalty=1.05,
-    enable_thinking=False
 ):
     """
     توليد الردود باستخدام Qwen 3
-    يدعم وضع التفكير (Thinking Mode) للمهام المعقدة
     """
     # بناء المحادثة
-    messages = [{"role": "system", "content": system_prompt}]
-    for human, assistant in history:
-        messages.append({"role": "user", "content": human})
-        if assistant:
-            messages.append({"role": "assistant", "content": assistant})
-    messages.append({"role": "user", "content": message})
-    # تطبيق قالب المحادثة
-    text = tokenizer.apply_chat_template(
-        messages,
-        tokenize=False,
-        add_generation_prompt=True,
-        enable_thinking=enable_thinking
-    )
     model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
-    # إعدادات التوليد
-    generation_kwargs = {
-        "max_new_tokens": max_tokens,
-        "temperature": temperature,
-        "top_p": top_p,
-        "top_k": top_k,
-        "min_p": min_p,
-        "repetition_penalty": repetition_penalty,
-        "do_sample": True,
-        "pad_token_id": tokenizer.pad_token_id or tokenizer.eos_token_id,
-        "eos_token_id": tokenizer.eos_token_id,
-    }
     # التوليد
     with torch.no_grad():
         generated_ids = model.generate(
             **model_inputs,
-            **generation_kwargs
         )
     generated_ids = [
@@ -103,22 +115,11 @@ def generate_response(
     response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
-    # إذا كان في وضع التفكير، استخرج الإجابة النهائية
-    if enable_thinking and "<think>" in response:
-        parts = response.split("</think>")
-        if len(parts) > 1:
-            thinking_process = parts[0].replace("<think>", "").strip()
-            final_answer = parts[1].strip()
-            response = f"**🧠 عملية التفكير:**\n{thinking_process}\n\n**✅ الإجابة النهائية:**\n{final_answer}"
     return response
-# واجهة Gradio محسّنة
 with gr.Blocks(
-    theme=gr.themes.Soft(
-        primary_hue="blue",
-        secondary_hue="purple",
-    ),
     css="""
     .container {max-width: 1400px; margin: auto;}
     .rtl {direction: rtl; text-align: right;}
@@ -132,10 +133,11 @@ with gr.Blocks(
     """
 ) as demo:
-    gr.HTML("""
     <div class="header">
         <h1>🚀 Qwen 3 - أحدث موديل من Alibaba Cloud</h1>
-        <p>النسخة الأحدث (أبريل 2025) - يعمل بتقنية 4-bit quantization على Nvidia H100</p>
     </div>
     """)
@@ -146,33 +148,25 @@ with gr.Blocks(
                 height=600,
                 rtl=True,
                 show_copy_button=True,
-                avatar_images=(None, "🤖")
             )
-            with gr.Row():
-                msg = gr.Textbox(
-                    label="✍️ رسالتك",
-                    placeholder="اكتب رسالتك هنا... اضغط Enter للإرسال",
-                    lines=3,
-                    rtl=True,
-                    scale=4
-                )
             with gr.Row():
-                submit = gr.Button("إرسال 📤", variant="primary", scale=2)
-                clear = gr.Button("مسح المحادثة 🗑️", scale=1)
-                thinking_toggle = gr.Checkbox(
-                    label="🧠 تفعيل وضع التفكير العميق",
-                    value=False,
-                    info="للمسائل الرياضية والبرمجية المعقدة"
-                )
         with gr.Column(scale=1):
-            gr.Markdown("### ⚙️ إعدادات متقدمة", elem_classes=["rtl"])
             system_prompt = gr.Textbox(
                 label="📋 System Prompt",
-                value="أنت مساعد ذكي ومفيد يتحدث العربية بطلاقة ويتمتع بخبرة واسعة في مختلف المجالات",
                 lines=4,
                 rtl=True
             )
@@ -181,7 +175,7 @@ with gr.Blocks(
                 max_tokens = gr.Slider(
                     minimum=256,
                     maximum=8192,
-                    value=4096,
                     step=256,
                     label="الحد الأقصى للتوكنات"
                 )
@@ -191,7 +185,7 @@ with gr.Blocks(
                     maximum=2.0,
                     value=0.7,
                     step=0.1,
-                    label="Temperature (الإبداع)"
                 )
                 top_p = gr.Slider(
@@ -199,7 +193,7 @@ with gr.Blocks(
                     maximum=1.0,
                     value=0.95,
                     step=0.05,
-                    label="Top-p (Nucleus Sampling)"
                 )
                 top_k = gr.Slider(
@@ -210,14 +204,6 @@ with gr.Blocks(
                     label="Top-k"
                 )
-                min_p = gr.Slider(
-                    minimum=0.0,
-                    maximum=0.5,
-                    value=0.0,
-                    step=0.05,
-                    label="Min-p"
-                )
                 repetition_penalty = gr.Slider(
                     minimum=1.0,
                     maximum=2.0,
@@ -226,53 +212,22 @@ with gr.Blocks(
                     label="عقوبة التكرار"
                 )
-            gr.Markdown("""
-            ### 💡 ن��ائح الاستخدام
-            **وضع التفكير العميق** 🧠:
-            - مفيد للرياضيات والبرمجة
-            - يُظهر عملية التفكير
-            - يستغرق وقتاً أطول
-            **الإعدادات الموصى بها**:
-            - للمحادثة العادية: Temp=0.7
-            - للبرمجة: Temp=0.3, TopK=20
-            - للإبداع: Temp=1.0, TopP=0.95
-            """, elem_classes=["rtl"])
-    with gr.Row():
-        gr.Markdown("""
-        ### 📊 معلومات الموديل
-        | المعلومة | القيمة |
-        |----------|--------|
-        | **الموديل** | Qwen3-32B-Instruct |
-        | **تاريخ الإصدار** | أبريل 2025 |
-        | **المعمارية** | 32 مليار معامل |
-        | **طول السياق** | 128K توكن |
-        | **التقنية** | 4-bit NF4 Quantization |
-        | **العتاد** | Nvidia H100 (80GB) |
-        | **الأداء** | ~25-40 توكن/ثانية |
-        | **اللغات** | متعدد اللغات (عربي، إنجليزي، صيني...) |
-        ---
-        ### 🌟 ميزات Qwen 3 الجديدة
-        ✅ **وضع التفكير العميق** - للمسائل المعقدة
-        ✅ **سياق 128K توكن** - للمستندات الطويلة
-        ✅ **أداء محسّن** - أسرع من Qwen 2.5
-        ✅ **دعم متعدد اللغات** - مع تحسينات للعربية
-        """, elem_classes=["rtl"])
     def user_message(user_msg, history):
         return "", history + [[user_msg, None]]
-    def bot_response(
-        history, sys_prompt, max_tok, temp,
-        top_p_val, top_k_val, min_p_val, rep_pen, think_mode
-    ):
         user_msg = history[-1][0]
         bot_msg = generate_response(
             user_msg,
@@ -282,14 +237,11 @@ with gr.Blocks(
             temp,
             top_p_val,
             top_k_val,
-            min_p_val,
-            rep_pen,
-            think_mode
         )
         history[-1][1] = bot_msg
         return history
-    # ربط الأحداث
     msg.submit(
         user_message,
         [msg, chatbot],
@@ -297,10 +249,7 @@ with gr.Blocks(
         queue=False
     ).then(
         bot_response,
-        [
-            chatbot, system_prompt, max_tokens, temperature,
-            top_p, top_k, min_p, repetition_penalty, thinking_toggle
-        ],
         chatbot
     )
@@ -311,23 +260,16 @@ with gr.Blocks(
         queue=False
     ).then(
         bot_response,
-        [
-            chatbot, system_prompt, max_tokens, temperature,
-            top_p, top_k, min_p, repetition_penalty, thinking_toggle
-        ],
         chatbot
     )
     clear.click(lambda: None, None, chatbot, queue=False)
 if __name__ == "__main__":
-    demo.queue(
-        max_size=30,
-        default_concurrency_limit=5
-    )
     demo.launch(
         server_name="0.0.0.0",
         server_port=7860,
-        share=False,
-        show_error=True
     )

 from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 import spaces
+# إعدادات quantization
 quantization_config = BitsAndBytesConfig(
     load_in_4bit=True,
     bnb_4bit_compute_dtype=torch.bfloat16,
     bnb_4bit_quant_type="nf4"
 )
+# ✅ الأسماء الصحيحة للموديلات على Hugging Face
+# اختر حسب العتاد المتاح:
+# للعتاد الضخم (8xH100 أو 4xL40S):
+# MODEL_NAME = "Qwen/Qwen3-235B-A22B-Instruct-2507"  # النسخة الأحدث مع Instruct
+# MODEL_NAME = "Qwen/Qwen3-235B-A22B"  # Base model
+# للعتاد القوي (H100 80GB) - الموصى به:
+MODEL_NAME = "Qwen/Qwen3-32B"  # 33B parameters
+# بدائل أخرى:
+# MODEL_NAME = "Qwen/Qwen3-30B-A3B-Instruct-2507"  # 31B with Instruct (أحدث)
+# MODEL_NAME = "Qwen/Qwen3-30B-A3B"  # 31B MoE Base
+# MODEL_NAME = "Qwen/Qwen3-14B"  # 15B للعتاد المتوسط
+# MODEL_NAME = "Qwen/Qwen3-8B"   # 8B للعتاد العادي
+# MODEL_NAME = "Qwen/Qwen3-4B"   # 4B للعتاد الخفيف
+print(f"🚀 جاري تحميل {MODEL_NAME}...")
 tokenizer = AutoTokenizer.from_pretrained(
     MODEL_NAME,
 print("✅ تم تحميل الموديل بنجاح!")
+# تحديد ما إذا كان الموديل يدعم chat template
+HAS_CHAT_TEMPLATE = "Instruct" in MODEL_NAME or "2507" in MODEL_NAME
 @spaces.GPU(duration=180)
 def generate_response(
     message,
     temperature=0.7,
     top_p=0.95,
     top_k=20,
     repetition_penalty=1.05,
 ):
     """
     توليد الردود باستخدام Qwen 3
     """
     # بناء المحادثة
+    if HAS_CHAT_TEMPLATE:
+        # استخدام chat template للموديلات Instruct
+        messages = [{"role": "system", "content": system_prompt}]
+        for human, assistant in history:
+            messages.append({"role": "user", "content": human})
+            if assistant:
+                messages.append({"role": "assistant", "content": assistant})
+        messages.append({"role": "user", "content": message})
+        text = tokenizer.apply_chat_template(
+            messages,
+            tokenize=False,
+            add_generation_prompt=True
+        )
+    else:
+        # للموديلات Base، استخدم format بسيط
+        conversation = f"### System:\n{system_prompt}\n\n"
+        for human, assistant in history:
+            conversation += f"### User:\n{human}\n\n"
+            if assistant:
+                conversation += f"### Assistant:\n{assistant}\n\n"
+        conversation += f"### User:\n{message}\n\n### Assistant:\n"
+        text = conversation
     model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
     # التوليد
     with torch.no_grad():
         generated_ids = model.generate(
             **model_inputs,
+            max_new_tokens=max_tokens,
+            temperature=temperature,
+            top_p=top_p,
+            top_k=top_k,
+            repetition_penalty=repetition_penalty,
+            do_sample=True,
+            pad_token_id=tokenizer.pad_token_id or tokenizer.eos_token_id,
+            eos_token_id=tokenizer.eos_token_id,
         )
     generated_ids = [
     response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
     return response
+# واجهة Gradio
 with gr.Blocks(
+    theme=gr.themes.Soft(primary_hue="blue"),
     css="""
     .container {max-width: 1400px; margin: auto;}
     .rtl {direction: rtl; text-align: right;}
     """
 ) as demo:
+    gr.HTML(f"""
     <div class="header">
         <h1>🚀 Qwen 3 - أحدث موديل من Alibaba Cloud</h1>
+        <p><strong>الموديل المستخدم:</strong> {MODEL_NAME}</p>
+        <p>يعمل بتقنية 4-bit quantization على Nvidia H100</p>
     </div>
     """)
                 height=600,
                 rtl=True,
                 show_copy_button=True,
             )
+            msg = gr.Textbox(
+                label="✍️ رسالتك",
+                placeholder="اكتب رسالتك هنا...",
+                lines=3,
+                rtl=True
+            )
             with gr.Row():
+                submit = gr.Button("إرسال 📤", variant="primary")
+                clear = gr.Button("مسح 🗑️")
         with gr.Column(scale=1):
+            gr.Markdown("### ⚙️ الإعدادات", elem_classes=["rtl"])
             system_prompt = gr.Textbox(
                 label="📋 System Prompt",
+                value="أنت مساعد ذكي ومفيد يتحدث العربية بطلاقة",
                 lines=4,
                 rtl=True
             )
                 max_tokens = gr.Slider(
                     minimum=256,
                     maximum=8192,
+                    value=2048,
                     step=256,
                     label="الحد الأقصى للتوكنات"
                 )
                     maximum=2.0,
                     value=0.7,
                     step=0.1,
+                    label="Temperature"
                 )
                 top_p = gr.Slider(
                     maximum=1.0,
                     value=0.95,
                     step=0.05,
+                    label="Top-p"
                 )
                 top_k = gr.Slider(
                     label="Top-k"
                 )
                 repetition_penalty = gr.Slider(
                     minimum=1.0,
                     maximum=2.0,
                     label="عقوبة التكرار"
                 )
+            model_info = f"""
+            ### 📊 معلومات الموديل
+            - **الاسم**: {MODEL_NAME}
+            - **النوع**: {'Instruct' if HAS_CHAT_TEMPLATE else 'Base'}
+            - **الحجم**: {'32B' if '32B' in MODEL_NAME else '30B' if '30B' in MODEL_NAME else '235B' if '235B' in MODEL_NAME else 'متغير'}
+            - **Quantization**: 4-bit NF4
+            - **العتاد**: ZeroGPU / H100
+            """
+            gr.Markdown(model_info, elem_classes=["rtl"])
     def user_message(user_msg, history):
         return "", history + [[user_msg, None]]
+    def bot_response(history, sys_prompt, max_tok, temp, top_p_val, top_k_val, rep_pen):
         user_msg = history[-1][0]
         bot_msg = generate_response(
             user_msg,
             temp,
             top_p_val,
             top_k_val,
+            rep_pen
         )
         history[-1][1] = bot_msg
         return history
     msg.submit(
         user_message,
         [msg, chatbot],
         queue=False
     ).then(
         bot_response,
+        [chatbot, system_prompt, max_tokens, temperature, top_p, top_k, repetition_penalty],
         chatbot
     )
         queue=False
     ).then(
         bot_response,
+        [chatbot, system_prompt, max_tokens, temperature, top_p, top_k, repetition_penalty],
         chatbot
     )
     clear.click(lambda: None, None, chatbot, queue=False)
 if __name__ == "__main__":
+    demo.queue(max_size=30)
     demo.launch(
         server_name="0.0.0.0",
         server_port=7860,
+        share=False
     )