Spaces:

anaspro
/

chatbox

Runtime error

App Files Files Community

anaspro commited on Oct 24

Commit

8a6b1b9

1 Parent(s): 6da46a3

update

Browse files

Files changed (1) hide show

app.py +24 -89

app.py CHANGED Viewed

@@ -15,7 +15,7 @@ def load_system_prompt():
 DEFAULT_SYSTEM_PROMPT = load_system_prompt()
-model_path = "anaspro/Lahja-iraqi-4B"
 # إذا كان فيه HF_TOKEN في البيئة
 hf_token = os.getenv("HF_TOKEN")
@@ -96,33 +96,6 @@ def format_conversation_history(chat_history):
 @spaces.GPU()
 def generate_response(input_data, chat_history, max_new_tokens, temperature, top_p, top_k, repetition_penalty):
-    # Test بسيط أولاً
-    try:
-        # رسالة test بسيطة
-        test_prompt = "السلام عليكم"
-        inputs = tokenizer(test_prompt, return_tensors="pt").to(model.device)
-        print(f"Input shape: {inputs.input_ids.shape}")  # Debug
-        print(f"Input tokens: {inputs.input_ids[0][:10]}")  # Debug
-        with torch.no_grad():
-            outputs = model.generate(
-                **inputs,
-                max_new_tokens=50,  # قصير للاختبار
-                do_sample=False,
-                num_beams=1,
-                pad_token_id=tokenizer.eos_token_id,
-                eos_token_id=tokenizer.eos_token_id,
-            )
-        test_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        print(f"Test response: {test_response}")  # Debug
-    except Exception as e:
-        print(f"Test failed: {e}")
-        import traceback
-        print(traceback.format_exc())
     # Build messages for Llama chat template
     messages = [{"role": "system", "content": DEFAULT_SYSTEM_PROMPT}]
@@ -135,74 +108,36 @@ def generate_response(input_data, chat_history, max_new_tokens, temperature, top
     # Add current user message
     messages.append({"role": "user", "content": input_data})
-    # استخدام generate مباشرة مع parameters أكثر أماناً
-    try:
-        # محاولة استخدام chat template
-        if hasattr(tokenizer, 'apply_chat_template') and tokenizer.chat_template is not None:
-            prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
-            print(f"Using chat template. Prompt length: {len(prompt)}")  # Debug
-        else:
-            # Fallback format
-            prompt = f"System: {DEFAULT_SYSTEM_PROMPT}\n\n"
-            for msg in messages[1:]:  # Skip system message since we added it above
-                if msg["role"] == "user":
-                    prompt += f"Human: {msg['content']}\n"
-                elif msg["role"] == "assistant":
-                    prompt += f"Assistant: {msg['content']}\n"
-            prompt += "Assistant:"
-            print(f"Using fallback format. Prompt length: {len(prompt)}")  # Debug
-        print(f"Final prompt: {prompt[:200]}...")  # Debug first 200 chars
-        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
-        print(f"Tokenized input shape: {inputs.input_ids.shape}")  # Debug
-        # استخدام generate مع parameters أساسية وآمنة
-        with torch.no_grad():
-            outputs = model.generate(
-                **inputs,
-                max_new_tokens=min(max_new_tokens, 512),  # حد أقصى أمان
-                do_sample=False,  # تعطيل sampling للأمان
-                num_beams=1,  # greedy decoding
-                pad_token_id=tokenizer.eos_token_id,
-                eos_token_id=tokenizer.eos_token_id,
-                return_dict_in_generate=True,
-                output_scores=False,
-            )
-        print(f"Generated sequence shape: {outputs.sequences.shape}")  # Debug
-        print(f"Input length: {inputs.input_ids.shape[1]}")  # Debug
-        response = tokenizer.decode(outputs.sequences[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
-        response = response.strip()
-        print(f"Generated response length: {len(response)}")  # Debug
-        print(f"Response preview: {response[:100]}...")  # Debug
-        if not response:
-            print("Empty response, using fallback")  # Debug
-            response = "أهلاً! أنا أليكس مساعد خدمة العملاء. كيف أقدر أساعدك اليوم؟"
         yield response
-    except Exception as e:
-        error_msg = f"خطأ في التوليد: {str(e)}"
-        print(error_msg)
-        print(f"Error type: {type(e)}")  # Debug
-        import traceback
-        print("Traceback:")
-        print(traceback.format_exc())  # Debug
-        yield "��هلاً! أنا أليكس مساعد خدمة العملاء. كيف أقدر أساعدك اليوم؟"
 demo = gr.ChatInterface(
     fn=generate_response,
     additional_inputs=[
         gr.Slider(label="الحد الأقصى للكلمات الجديدة", minimum=64, maximum=4096, step=1, value=2048),
-        gr.Slider(label="درجة الحرارة", minimum=0.1, maximum=2.0, step=0.1, value=1.0),
-        gr.Slider(label="Top-p", minimum=0.1, maximum=1.0, step=0.05, value=0.9),
         gr.Slider(label="Top-k", minimum=1, maximum=100, step=1, value=50),
-        gr.Slider(label="عقوبة التكرار", minimum=1.0, maximum=1.5, step=0.05, value=1.2)
     ],
     examples=[
         [{"text": "النت عندي معطل من الصبح، تقدر تساعدني؟"}],

 DEFAULT_SYSTEM_PROMPT = load_system_prompt()
+model_path = "unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit"
 # إذا كان فيه HF_TOKEN في البيئة
 hf_token = os.getenv("HF_TOKEN")
 @spaces.GPU()
 def generate_response(input_data, chat_history, max_new_tokens, temperature, top_p, top_k, repetition_penalty):
     # Build messages for Llama chat template
     messages = [{"role": "system", "content": DEFAULT_SYSTEM_PROMPT}]
     # Add current user message
     messages.append({"role": "user", "content": input_data})
+    # استخدام ChatPipeline المخصص مع streaming
+    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+    generation_kwargs = pipe(
+        messages,
+        streamer=streamer,
+        max_new_tokens=max_new_tokens,
+        temperature=temperature,
+        top_p=top_p,
+        top_k=top_k,
+        repetition_penalty=repetition_penalty
+    )
+    thread = Thread(target=model.generate, kwargs=generation_kwargs)
+    thread.start()
+    # Stream the response
+    response = ""
+    for chunk in streamer:
+        response += chunk
         yield response
 demo = gr.ChatInterface(
     fn=generate_response,
     additional_inputs=[
         gr.Slider(label="الحد الأقصى للكلمات الجديدة", minimum=64, maximum=4096, step=1, value=2048),
+        gr.Slider(label="درجة الحرارة", minimum=0.1, maximum=2.0, step=0.1, value=0.7),
+        gr.Slider(label="Top-p", minimum=0.05, maximum=1.0, step=0.05, value=0.9),
         gr.Slider(label="Top-k", minimum=1, maximum=100, step=1, value=50),
+        gr.Slider(label="عقوبة التكرار", minimum=1.0, maximum=2.0, step=0.05, value=1.0)
     ],
     examples=[
         [{"text": "النت عندي معطل من الصبح، تقدر تساعدني؟"}],