Spaces:

basmala12
/

smollm_interface5

Sleeping

App Files Files Community

basmala12 commited on Nov 21, 2025

Commit

27ed1d2

verified ·

1 Parent(s): 126e7fa

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -16

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
 MODEL_NAME = "basmala12/smollm_finetuning5"
-# Load tokenizer & model once at startup (on CPU)
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)
 model.eval()
@@ -12,14 +12,14 @@ model.eval()
 def respond(message, history, system_message, max_tokens, temperature, top_p):
     """
-    SAFER / MORE FACTUAL VERSION (Option A)
-    - Deterministic decoding (no sampling)
-    - Uses chat template correctly
-    - Returns only the new assistant answer
     """
-    # Build conversation for the chat template
     messages = [{"role": "system", "content": system_message}]
     # history is a list of {"role": "user"/"assistant", "content": str}
@@ -28,7 +28,7 @@ def respond(message, history, system_message, max_tokens, temperature, top_p):
     # Add current user message
     messages.append({"role": "user", "content": message})
-    # Turn into prompt
     prompt = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
@@ -37,20 +37,32 @@ def respond(message, history, system_message, max_tokens, temperature, top_p):
     inputs = tokenizer(prompt, return_tensors="pt")
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
             max_new_tokens=max_tokens,
-            do_sample=False,      # <- deterministic, no randomness
-            temperature=0.0,      # <- ignored when do_sample=False, but explicit
         )
-    # Keep only new tokens after the prompt
     generated_tokens = outputs[0][inputs["input_ids"].shape[1]:]
     answer = tokenizer.decode(generated_tokens, skip_special_tokens=True).strip()
-    return answer
 chatbot = gr.ChatInterface(
@@ -58,15 +70,18 @@ chatbot = gr.ChatInterface(
     type="messages",
     additional_inputs=[
         gr.Textbox(
-            value="Give short, factual answers with brief logical reasoning. If you are not sure, say you are not sure instead of guessing.",
             label="System message",
         ),
         gr.Slider(1, 512, value=256, step=1, label="Max new tokens"),
-        gr.Slider(0.1, 4.0, value=0.7, step=0.1, label="Temperature"),
-        gr.Slider(0.1, 1.0, value=0.9, step=0.05, label="Top-p"),
     ],
     title="SmolLM2 – Short Reasoning Chatbot",
-    description="Fine-tuned SmolLM2 (basmala12/smollm_finetuning5) that gives short answers with brief logical reasoning.",
 )
 if __name__ == "__main__":

 MODEL_NAME = "basmala12/smollm_finetuning5"
+# Load tokenizer & model once at startup
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)
 model.eval()
 def respond(message, history, system_message, max_tokens, temperature, top_p):
     """
+    Safer, generic factual mode:
+    - uses chat template properly
+    - deterministic decoding (no sampling)
+    - generic conciseness filter (1–2 sentences, word cap)
+    - NO hardcoded answers for specific questions
     """
+    # Build conversation for chat template
     messages = [{"role": "system", "content": system_message}]
     # history is a list of {"role": "user"/"assistant", "content": str}
     # Add current user message
     messages.append({"role": "user", "content": message})
+    # Apply chat template
     prompt = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
     inputs = tokenizer(prompt, return_tensors="pt")
+    # Deterministic generation: safer, less hallucination than sampling
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
             max_new_tokens=max_tokens,
+            do_sample=False,   # no randomness
+            temperature=0.0,   # ignored when do_sample=False, but explicit
         )
+    # Take only the newly generated tokens (after the prompt)
     generated_tokens = outputs[0][inputs["input_ids"].shape[1]:]
     answer = tokenizer.decode(generated_tokens, skip_special_tokens=True).strip()
+    # ---------- Generic conciseness: first 1–2 sentences, word cap ----------
+    import re
+    # Keep only first 1–2 sentences
+    sentences = re.split(r'(?<=[.!?])\s+', answer)
+    answer = " ".join(sentences[:2])
+    # Word cap (e.g. ~40 words)
+    words = answer.split()
+    if len(words) > 40:
+        answer = " ".join(words[:40]) + "."
+    return answer
 chatbot = gr.ChatInterface(
     type="messages",
     additional_inputs=[
         gr.Textbox(
+            value=(
+                "Give short, factual answers with brief logical reasoning. "
+                "If you are not sure, say you are not sure instead of guessing."
+            ),
             label="System message",
         ),
         gr.Slider(1, 512, value=256, step=1, label="Max new tokens"),
+        gr.Slider(0.1, 4.0, value=0.7, step=0.1, label="Temperature (ignored in deterministic mode)"),
+        gr.Slider(0.1, 1.0, value=0.9, step=0.05, label="Top-p (ignored in deterministic mode)"),
     ],
     title="SmolLM2 – Short Reasoning Chatbot",
+    description="Fine-tuned SmolLM2 (basmala12/smollm_finetuning5) that gives short, factual answers with brief reasoning.",
 )
 if __name__ == "__main__":