Spaces:

basmala12
/

smollm_interface5

Sleeping

App Files Files Community

basmala12 commited on Nov 21, 2025

Commit

126e7fa

verified ·

1 Parent(s): 38a7826

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -21

app.py CHANGED Viewed

@@ -12,61 +12,53 @@ model.eval()
 def respond(message, history, system_message, max_tokens, temperature, top_p):
     """
-    ChatInterface (type="messages") passes:
-      - message: current user message (str)
-      - history: list of dicts: [{"role": "...", "content": "..."}, ...]
-      - system_message, max_tokens, temperature, top_p: from additional_inputs
-    We return a single string: the assistant reply.
     """
-    # Build full conversation for the chat template
     messages = [{"role": "system", "content": system_message}]
     # history is a list of {"role": "user"/"assistant", "content": str}
-    # We append it as-is to preserve previous turns
     messages.extend(history)
-    # Add the new user question
     messages.append({"role": "user", "content": message})
-    # Turn into model prompt using the tokenizer's chat template
     prompt = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
         add_generation_prompt=True,
     )
-    # Tokenize
     inputs = tokenizer(prompt, return_tensors="pt")
-    # Generate continuation (new assistant answer only)
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
             max_new_tokens=max_tokens,
-            do_sample=True,
-            temperature=float(temperature),
-            top_p=float(top_p),
         )
-    # Slice off the prompt tokens, keep only new tokens
     generated_tokens = outputs[0][inputs["input_ids"].shape[1]:]
     answer = tokenizer.decode(generated_tokens, skip_special_tokens=True).strip()
-    # Optional: enforce "short answer + brief reasoning"
-    words = answer.split()
-    if len(words) > 60:
-        answer = " ".join(words[:60]) + " ..."
     return answer
 chatbot = gr.ChatInterface(
     fn=respond,
     type="messages",
     additional_inputs=[
         gr.Textbox(
-            value="Give short answers with brief logical reasoning.",
             label="System message",
         ),
         gr.Slider(1, 512, value=256, step=1, label="Max new tokens"),

 def respond(message, history, system_message, max_tokens, temperature, top_p):
     """
+    SAFER / MORE FACTUAL VERSION (Option A)
+    - Deterministic decoding (no sampling)
+    - Uses chat template correctly
+    - Returns only the new assistant answer
     """
+    # Build conversation for the chat template
     messages = [{"role": "system", "content": system_message}]
     # history is a list of {"role": "user"/"assistant", "content": str}
     messages.extend(history)
+    # Add current user message
     messages.append({"role": "user", "content": message})
+    # Turn into prompt
     prompt = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
         add_generation_prompt=True,
     )
     inputs = tokenizer(prompt, return_tensors="pt")
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
             max_new_tokens=max_tokens,
+            do_sample=False,      # <- deterministic, no randomness
+            temperature=0.0,      # <- ignored when do_sample=False, but explicit
         )
+    # Keep only new tokens after the prompt
     generated_tokens = outputs[0][inputs["input_ids"].shape[1]:]
     answer = tokenizer.decode(generated_tokens, skip_special_tokens=True).strip()
     return answer
 chatbot = gr.ChatInterface(
     fn=respond,
     type="messages",
     additional_inputs=[
         gr.Textbox(
+            value="Give short, factual answers with brief logical reasoning. If you are not sure, say you are not sure instead of guessing.",
             label="System message",
         ),
         gr.Slider(1, 512, value=256, step=1, label="Max new tokens"),