Spaces:

anaspro
/

chatbox

Runtime error

App Files Files Community

anaspro commited on Oct 18

Commit

ec237e7

verified ·

1 Parent(s): ae2df6e

Update app.py

Browse files

Files changed (1) hide show

app.py +59 -20

app.py CHANGED Viewed

@@ -1,8 +1,31 @@
 import gradio as gr
-from huggingface_hub import InferenceClient
 import spaces
-import os
 @spaces.GPU
 def respond(
     message,
@@ -12,36 +35,52 @@ def respond(
     temperature,
     top_p,
 ):
-    # استخدم Token من Secrets
-    token = os.environ.get("HF_TOKEN")
-    client = InferenceClient(model="anaspro/iraqi-kashif-2b", token=token)
     messages = [{"role": "system", "content": system_message}]
     messages.extend(history)
     messages.append({"role": "user", "content": message})
-    response = ""
-    for msg in client.chat_completion(
         messages,
-        max_tokens=max_tokens,
-        stream=True,
         temperature=temperature,
         top_p=top_p,
-    ):
-        if msg.choices and msg.choices[0].delta.content:
-            response += msg.choices[0].delta.content
-            yield response
 chatbot = gr.ChatInterface(
-    respond,
     type="messages",
     additional_inputs=[
-        gr.Textbox(value="أنت مساعد عراقي ذكي.", label="System message"),
-        gr.Slider(minimum=1, maximum=512, value=100, step=1, label="Max tokens"),
         gr.Slider(minimum=0.1, maximum=2.0, value=0.7, step=0.1, label="Temperature"),
-        gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p"),
     ],
 )
 if __name__ == "__main__":
-    chatbot.launch()

 import gradio as gr
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer
+from threading import Thread
 import spaces
+# ✅ Use GPU if available
+device = "cuda" if torch.cuda.is_available() else "cpu"
+# ✅ Load your model and tokenizer
+MODEL_NAME = "anaspro/iraqi-kashif-2b"
+@spaces.GPU
+def load_model():
+    print("🔄 Loading model and tokenizer...")
+    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+    model = AutoModelForCausalLM.from_pretrained(
+        MODEL_NAME,
+        torch_dtype=torch.float16,
+        device_map="auto",
+    )
+    model.eval()
+    print("✅ Model loaded successfully!")
+    return tokenizer, model
+tokenizer, model = load_model()
+# ✅ Respond function using streaming
 @spaces.GPU
 def respond(
     message,
     temperature,
     top_p,
 ):
+    # Combine chat history and user message into a single prompt
     messages = [{"role": "system", "content": system_message}]
     messages.extend(history)
     messages.append({"role": "user", "content": message})
+    # Apply chat template (your repo has chat_template.jinja)
+    prompt = tokenizer.apply_chat_template(
         messages,
+        tokenize=False,
+        add_generation_prompt=True,
+    )
+    # Prepare streamer for live token generation
+    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+    inputs = tokenizer(prompt, return_tensors="pt").to(device)
+    generation_kwargs = dict(
+        **inputs,
+        streamer=streamer,
+        max_new_tokens=max_tokens,
         temperature=temperature,
         top_p=top_p,
+        do_sample=True,
+    )
+    # Run generation in background thread
+    thread = Thread(target=model.generate, kwargs=generation_kwargs)
+    thread.start()
+    # Stream tokens as they arrive
+    response = ""
+    for new_text in streamer:
+        response += new_text
+        yield response
+# ✅ Gradio chat UI
 chatbot = gr.ChatInterface(
+    fn=respond,
     type="messages",
     additional_inputs=[
+        gr.Textbox(value="أنت مساعد ذكي تتحدث باللهجة العراقية.", label="System message"),
+        gr.Slider(minimum=32, maximum=512, value=128, step=8, label="Max tokens"),
         gr.Slider(minimum=0.1, maximum=2.0, value=0.7, step=0.1, label="Temperature"),
+        gr.Slider(minimum=0.1, maximum=1.0, value=0.9, step=0.05, label="Top-p"),
     ],
 )
 if __name__ == "__main__":
+    chatbot.launch(server_name="0.0.0.0", server_port=7860)