Spaces:

bricksandbot
/

assessor-platform-chat

Sleeping

App Files Files Community

bricksandbot commited on Nov 16, 2025

Commit

aa0d41c

verified ·

1 Parent(s): a29c8be

Deploy Buildsnpper chatbot Gradio interface

Browse files

- Add Gradio chat interface for Buildsnpper platform
- Uses bricksandbotltd/buildsnpper-chatbot-Q4_K_M model
- Includes 8 example questions
- Supports conversation history
- Clean, simple UI for customer support

Files changed (1) hide show

app.py +34 -22

app.py CHANGED Viewed

@@ -35,14 +35,14 @@ print("Model loaded successfully!")
 @spaces.GPU
 def chat(message, history):
     """
-    Process user message and generate response using ZeroGPU.
     Args:
         message: User's input message
         history: List of [user_msg, bot_msg] pairs
-    Returns:
-        str: Bot's response
     """
     # Build conversation history
     messages = []
@@ -63,25 +63,37 @@ def chat(message, history):
     # Tokenize
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
-    # Generate response
-    with torch.no_grad():
-        outputs = model.generate(
-            **inputs,
-            max_new_tokens=300,
-            temperature=0.1,
-            do_sample=True,
-            top_p=0.9,
-            pad_token_id=tokenizer.eos_token_id,
-        )
-    # Decode response
-    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    # Extract just the assistant's response
-    if "<|assistant|>" in response:
-        response = response.split("<|assistant|>")[-1].strip()
-    return response
 # Example questions

 @spaces.GPU
 def chat(message, history):
     """
+    Process user message and generate streaming response using ZeroGPU.
     Args:
         message: User's input message
         history: List of [user_msg, bot_msg] pairs
+    Yields:
+        str: Streaming bot's response
     """
     # Build conversation history
     messages = []
     # Tokenize
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    # Generate response with streaming
+    from transformers import TextIteratorStreamer
+    from threading import Thread
+    streamer = TextIteratorStreamer(
+        tokenizer,
+        skip_prompt=True,
+        skip_special_tokens=True
+    )
+    generation_kwargs = dict(
+        inputs,
+        max_new_tokens=300,
+        temperature=0.1,
+        do_sample=True,
+        top_p=0.9,
+        pad_token_id=tokenizer.eos_token_id,
+        streamer=streamer,
+    )
+    # Start generation in separate thread
+    thread = Thread(target=model.generate, kwargs=generation_kwargs)
+    thread.start()
+    # Stream the response
+    partial_response = ""
+    for new_text in streamer:
+        partial_response += new_text
+        yield partial_response
+    thread.join()
 # Example questions