Spaces:

shuarya2011
/

Assistant

Running

App Files Files Community

shuarya2011 commited on 23 days ago

Commit

4ddd7a9

verified ·

1 Parent(s): 0be43d1

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -19

app.py CHANGED Viewed

@@ -1,21 +1,41 @@
 import gradio as gr
-from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 MODEL_ID = "google/gemma-4-31B-it-assistant"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
     torch_dtype=torch.bfloat16,
     device_map="auto",
 )
 def chat(message, history):
     messages = []
     for user_msg, bot_msg in history:
-        messages.append({"role": "user",    "content": user_msg})
-        messages.append({"role": "assistant","content": bot_msg})
     messages.append({"role": "user", "content": message})
     inputs = tokenizer.apply_chat_template(
@@ -24,25 +44,23 @@ def chat(message, history):
         add_generation_prompt=True,
     ).to(model.device)
-    from transformers import TextIteratorStreamer
-    from threading import Thread
     streamer = TextIteratorStreamer(
         tokenizer,
         skip_prompt=True,
         skip_special_tokens=True,
     )
-    gen_kwargs = dict(
-        input_ids=inputs,
-        streamer=streamer,
-        max_new_tokens=512,
-        do_sample=True,
-        temperature=0.7,
-        top_p=0.9,
     )
-    thread = Thread(target=model.generate, kwargs=gen_kwargs)
     thread.start()
     partial = ""
@@ -50,13 +68,16 @@ def chat(message, history):
         partial += token
         yield partial
 demo = gr.ChatInterface(
     fn=chat,
     title="Gemma 4 Assistant",
-    description="Powered by google/gemma-4-31B-it-assistant with streaming",
-    examples=["Explain quantum computing simply",
-              "Write a Python function to reverse a string",
-              "What is the capital of France?"],
     theme=gr.themes.Soft(),
 )

+import subprocess, sys
+subprocess.check_call([
+    sys.executable, "-m", "pip", "install", "--quiet",
+    "transformers>=4.45.0",
+    "accelerate>=0.26.0",
+    "sentencepiece>=0.1.99",
+])
 import gradio as gr
 import torch
+from transformers import (
+    AutoTokenizer,
+    AutoModelForCausalLM,
+    TextIteratorStreamer,
+)
+from threading import Thread
 MODEL_ID = "google/gemma-4-31B-it-assistant"
+print("Loading tokenizer...")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+print("Loading model...")
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
     torch_dtype=torch.bfloat16,
     device_map="auto",
 )
+model.eval()
+print("Model ready.")
 def chat(message, history):
     messages = []
     for user_msg, bot_msg in history:
+        messages.append({"role": "user",      "content": user_msg})
+        messages.append({"role": "assistant", "content": bot_msg})
     messages.append({"role": "user", "content": message})
     inputs = tokenizer.apply_chat_template(
         add_generation_prompt=True,
     ).to(model.device)
     streamer = TextIteratorStreamer(
         tokenizer,
         skip_prompt=True,
         skip_special_tokens=True,
     )
+    thread = Thread(
+        target=model.generate,
+        kwargs=dict(
+            input_ids=inputs,
+            streamer=streamer,
+            max_new_tokens=512,
+            do_sample=True,
+            temperature=0.7,
+            top_p=0.9,
+        ),
     )
     thread.start()
     partial = ""
         partial += token
         yield partial
 demo = gr.ChatInterface(
     fn=chat,
     title="Gemma 4 Assistant",
+    description="google/gemma-4-31B-it-assistant — streaming enabled",
+    examples=[
+        "Explain quantum computing in simple terms",
+        "Write a Python function to reverse a string",
+        "What is photosynthesis?",
+    ],
     theme=gr.themes.Soft(),
 )