Spaces:

Pabloler21
/

hollow

Sleeping

App Files Files Community

Pabloler21 commited on 27 days ago

Commit

cf33c28

1 Parent(s): d8d8506

Fix: handle BatchEncoding from apply_chat_template in transformers 5.x

Browse files

Files changed (1) hide show

engine.py +11 -4

engine.py CHANGED Viewed

@@ -26,28 +26,35 @@ if IS_SPACE:
     _MODEL_ID = "Qwen/Qwen3-8B"
     _tokenizer = AutoTokenizer.from_pretrained(_MODEL_ID)
-    _model = AutoModelForCausalLM.from_pretrained(_MODEL_ID, torch_dtype=torch.bfloat16)
     @spaces.GPU(duration=90)
     def run_turn(chat_messages, user_msg, gen_max_tokens=300, extract_max_tokens=120):
         _model.to("cuda")
         def _generate(messages, max_tokens, temperature):
-            ids = _tokenizer.apply_chat_template(
                 messages,
                 add_generation_prompt=True,
                 enable_thinking=False,
                 return_tensors="pt",
             ).to("cuda")
             with torch.no_grad():
                 out = _model.generate(
-                    ids,
                     max_new_tokens=max_tokens,
                     do_sample=temperature > 0,
                     temperature=temperature if temperature > 0 else 1.0,
                     pad_token_id=_tokenizer.eos_token_id,
                 )
-            return _tokenizer.decode(out[0][ids.shape[1]:], skip_special_tokens=True).strip()
         reply = _generate(chat_messages, gen_max_tokens, temperature=0.8)
         raw_json = _generate(_build_extract_messages(user_msg, reply), extract_max_tokens, temperature=0.0)

     _MODEL_ID = "Qwen/Qwen3-8B"
     _tokenizer = AutoTokenizer.from_pretrained(_MODEL_ID)
+    _model = AutoModelForCausalLM.from_pretrained(_MODEL_ID, dtype=torch.bfloat16)
     @spaces.GPU(duration=90)
     def run_turn(chat_messages, user_msg, gen_max_tokens=300, extract_max_tokens=120):
         _model.to("cuda")
         def _generate(messages, max_tokens, temperature):
+            # transformers 5.x returns BatchEncoding, not a plain tensor
+            tokenized = _tokenizer.apply_chat_template(
                 messages,
                 add_generation_prompt=True,
                 enable_thinking=False,
                 return_tensors="pt",
             ).to("cuda")
+            if hasattr(tokenized, "input_ids"):
+                input_ids = tokenized["input_ids"]
+                generate_kwargs = dict(tokenized)
+            else:
+                input_ids = tokenized
+                generate_kwargs = {"input_ids": tokenized}
             with torch.no_grad():
                 out = _model.generate(
+                    **generate_kwargs,
                     max_new_tokens=max_tokens,
                     do_sample=temperature > 0,
                     temperature=temperature if temperature > 0 else 1.0,
                     pad_token_id=_tokenizer.eos_token_id,
                 )
+            return _tokenizer.decode(out[0][input_ids.shape[1]:], skip_special_tokens=True).strip()
         reply = _generate(chat_messages, gen_max_tokens, temperature=0.8)
         raw_json = _generate(_build_extract_messages(user_msg, reply), extract_max_tokens, temperature=0.0)