Spaces:

TobDeBer
/

SmolTransform

Sleeping

TobDeBer commited on Dec 25, 2025

Commit

56bfe89

1 Parent(s): d9a2223

llm safety

Files changed (1) hide show

app.py CHANGED Viewed

@@ -22,11 +22,14 @@ def load_model():
     global tokenizer, model
     try:
         print(f"Loading model: {MODEL_NAME}")
-        tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
         model = AutoModelForCausalLM.from_pretrained(
             MODEL_NAME,
             dtype=torch.float32,
-            device_map="auto"
         )
         if tokenizer.pad_token is None:
@@ -62,6 +65,7 @@ def chat_predict(message, history, max_length, temperature, top_p, repetition_pe
         # Format the prompt
         formatted_prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
         inputs = tokenizer(formatted_prompt, return_tensors="pt").to(model.device)
         # Setup streamer

     global tokenizer, model
     try:
         print(f"Loading model: {MODEL_NAME}")
+        tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, use_fast=True)
+        tokenizer.padding_side = "left" # Ensure consistency
+        if tokenizer.pad_token is None:
+            tokenizer.pad_token = tokenizer.eos_token
         model = AutoModelForCausalLM.from_pretrained(
             MODEL_NAME,
             dtype=torch.float32,
+            device_map={"": "cpu"}
         )
         if tokenizer.pad_token is None:
         # Format the prompt
         formatted_prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+        print("formatted_prompt: ", formatted_prompt)
         inputs = tokenizer(formatted_prompt, return_tensors="pt").to(model.device)
         # Setup streamer