Spaces:

SiennaClarke
/

ChatBoxApp

Sleeping

App Files Files Community

SiennaClarke commited on 29 days ago

Commit

5258109

verified ·

1 Parent(s): 9d1fd1f

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -22

app.py CHANGED Viewed

@@ -3,15 +3,14 @@ from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStream
 from threading import Thread
 import torch
-# UI Setup - No Sidebar
-st.set_page_config(page_title="Gemma 3 1B Fast Chat", page_icon="💎", layout="centered", initial_sidebar_state="collapsed")
-# 1. Model ID for Gemma 3 1B Instruct
-MODEL_ID = "google/gemma-3-1b-it"
 @st.cache_resource
-def load_model():
-    # Gemma 3 1B is small enough to load in bfloat16 or float32 quickly
     tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_ID,
@@ -20,55 +19,58 @@ def load_model():
     )
     return tokenizer, model
-tokenizer, model = load_model()
-# Custom CSS to keep the clean look
 st.markdown("<style>[data-testid='collapsedControl'] { display: none; }</style>", unsafe_allow_html=True)
-st.title("💎 Gemma 3 1B")
-st.caption("Lightweight Google AI | High-Speed Local Chat")
 if "messages" not in st.session_state:
     st.session_state.messages = []
-# Action Button
-if st.button("Clear Chat History"):
     st.session_state.messages = []
     st.rerun()
-# Display history
 for msg in st.session_state.messages:
     with st.chat_message(msg["role"]):
         st.markdown(msg["content"])
-# 2. Streaming Chat Input
-if prompt := st.chat_input("Message Gemma 3..."):
     st.session_state.messages.append({"role": "user", "content": prompt})
     with st.chat_message("user"):
         st.markdown(prompt)
     with st.chat_message("assistant"):
-        # Setup Streamer
         streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
-        # Gemma 3 uses a specific chat template format
-        input_text = tokenizer.apply_chat_template(st.session_state.messages, tokenize=False, add_generation_prompt=True)
         inputs = tokenizer([input_text], return_tensors="pt").to(model.device)
-        # Threaded generation for real-time streaming
         generation_kwargs = dict(
             **inputs,
             streamer=streamer,
-            max_new_tokens=1024,
             do_sample=True,
             temperature=0.7,
-            top_p=0.9,
         )
         thread = Thread(target=model.generate, kwargs=generation_kwargs)
         thread.start()
-        # Update UI word-by-word
         placeholder = st.empty()
         full_response = ""
         for new_text in streamer:

 from threading import Thread
 import torch
+# 1. Page Config - No Sidebar
+st.set_page_config(page_title="Qwen 3 0.6B Instant", page_icon="⚡", layout="centered", initial_sidebar_state="collapsed")
+# Model ID: The 2026 ultra-lightweight version
+MODEL_ID = "Qwen/Qwen3-0.6B-Instruct"
 @st.cache_resource
+def load_resource():
     tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_ID,
     )
     return tokenizer, model
+tokenizer, model = load_resource()
+# Hide Sidebar Toggle
 st.markdown("<style>[data-testid='collapsedControl'] { display: none; }</style>", unsafe_allow_html=True)
+st.title("⚡ Qwen 3 0.6B: Instant")
+st.caption("The fastest chat model of 2026 | Pure CPU Speed")
 if "messages" not in st.session_state:
     st.session_state.messages = []
+# Header button for clearing
+if st.button("Reset Chat"):
     st.session_state.messages = []
     st.rerun()
+# Display chat history
 for msg in st.session_state.messages:
     with st.chat_message(msg["role"]):
         st.markdown(msg["content"])
+# 2. Chat Input & Generation
+if prompt := st.chat_input("Ask me anything..."):
     st.session_state.messages.append({"role": "user", "content": prompt})
     with st.chat_message("user"):
         st.markdown(prompt)
     with st.chat_message("assistant"):
         streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+        # Apply Qwen 3 template (disabling 'thinking' for maximum chat speed)
+        input_text = tokenizer.apply_chat_template(
+            st.session_state.messages,
+            tokenize=False,
+            add_generation_prompt=True,
+            enable_thinking=False
+        )
         inputs = tokenizer([input_text], return_tensors="pt").to(model.device)
         generation_kwargs = dict(
             **inputs,
             streamer=streamer,
+            max_new_tokens=512,
             do_sample=True,
             temperature=0.7,
+            top_p=0.8,
         )
         thread = Thread(target=model.generate, kwargs=generation_kwargs)
         thread.start()
+        # Word-by-word streaming
         placeholder = st.empty()
         full_response = ""
         for new_text in streamer: