Spaces:

Nihal2000
/

CarAssistanceQA

Sleeping

App Files Files Community

Nihal2000 commited on Sep 4

Commit

b4f13ec

1 Parent(s): dfdc0c0

gemma3 is not compatible for spaces

Browse files

Files changed (1) hide show

app.py +28 -34

app.py CHANGED Viewed

@@ -1,49 +1,43 @@
 import os
 import gradio as gr
-from huggingface_hub import InferenceClient
-HF_TOKEN = os.getenv("HF_TOKEN")
-def respond(message, history, system_message, max_tokens, temperature, top_p):
-    client = InferenceClient(model="Nihal2000/gemma3-merged", token=HF_TOKEN)
-    messages = [{"role": "system", "content": system_message}]
-    messages.extend(history)
-    messages.append({"role": "user", "content": message})
-    response = ""
-    try:
-        for msg in client.chat_completion(
-            messages,
-            max_tokens=max_tokens,
-            stream=True,
-            temperature=temperature,
-            top_p=top_p,
-        ):
-            choices = msg.choices
-            token = ""
-            if len(choices) and choices[0].delta.content:
-                token = choices[0].delta.content
-            response += token
-            yield response
-    except Exception as e:
-        yield f"[Error] {str(e)}"
-    if not response:
-        yield "[No response from model]"
 chatbot = gr.ChatInterface(
     respond,
     type="messages",
     additional_inputs=[
-        gr.Textbox(value="You are an Automotive Chatbot.", label="System message"),
         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
-        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
-        gr.Slider(
-            minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)"
-        ),
-    ],
 )
 with gr.Blocks() as demo:

 import os
 import gradio as gr
+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+model_id = "Nihal2000/gemma3-merged"
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForCausalLM.from_pretrained(model_id)
+gen = pipeline(
+    "text-generation",
+    model=model,
+    tokenizer=tokenizer,
+    device=0 if "CUDA_VISIBLE_DEVICES" in os.environ else -1
+)
+def respond(message, history, system_message, max_tokens, temperature, top_p):
+    prompt = system_message + "\n" + "\n".join(
+        [f"User: {u}\nAssistant: {a}" for u, a in history]
+    ) + f"\nUser: {message}\nAssistant:"
+    out = gen(
+        prompt,
+        max_new_tokens=max_tokens,
+        temperature=temperature,
+        top_p=top_p,
+        do_sample=False,
+    )
+    # Return current assistant final response
+    response = out[0]["generated_text"][len(prompt):]
+    return response
 chatbot = gr.ChatInterface(
     respond,
     type="messages",
     additional_inputs=[
+        gr.Textbox(value="You are an automotive assistant.", label="System message"),
         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
+        gr.Slider(minimum=0.1, maximum=2.0, value=0.7, step=0.1, label="Temperature"),
+        gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p"),
+    ]
 )
 with gr.Blocks() as demo: