Spaces:

hugging-apps
/

interleavethinker

Running on Zero

App Files Files Community

multimodalart HF Staff commited on 1 day ago

Commit

bbc2e65

verified ·

1 Parent(s): 999f78d

Upload folder using huggingface_hub

Browse files

Files changed (2) hide show

app.py +21 -1
requirements.txt +2 -2

app.py CHANGED Viewed

@@ -212,13 +212,33 @@ def qwen3_vl_predict(model, processor, messages, max_new_tokens=4096):
     inputs = inputs.to(model.device)
     print(f"[DEBUG qwen3_vl_predict] Input keys: {inputs.keys() if hasattr(inputs, 'keys') else type(inputs)}")
     print(f"[DEBUG qwen3_vl_predict] Input IDs shape: {inputs.input_ids.shape if hasattr(inputs, 'input_ids') else 'N/A'}")
     with torch.inference_mode():
-        generated_ids = model.generate(**inputs, max_new_tokens=max_new_tokens)
     print(f"[DEBUG qwen3_vl_predict] Generated IDs shape: {generated_ids.shape}")
     generated_ids_trimmed = [
         out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
     ]
     print(f"[DEBUG qwen3_vl_predict] Trimmed lengths: {[len(t) for t in generated_ids_trimmed]}")
     output_text = processor.batch_decode(
         generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
     )

     inputs = inputs.to(model.device)
     print(f"[DEBUG qwen3_vl_predict] Input keys: {inputs.keys() if hasattr(inputs, 'keys') else type(inputs)}")
     print(f"[DEBUG qwen3_vl_predict] Input IDs shape: {inputs.input_ids.shape if hasattr(inputs, 'input_ids') else 'N/A'}")
+    # Print last 20 tokens of input to see if generation prompt is correct
+    input_ids_list = inputs.input_ids[0].tolist()
+    print(f"[DEBUG qwen3_vl_predict] Last 20 input tokens: {input_ids_list[-20:]}")
+    print(f"[DEBUG qwen3_vl_predict] Decoded last 20: {processor.tokenizer.decode(input_ids_list[-20:])}")
     with torch.inference_mode():
+        generated_ids = model.generate(
+            **inputs,
+            max_new_tokens=max_new_tokens,
+            do_sample=True,
+            temperature=0.7,
+            top_p=0.8,
+            top_k=20,
+            use_cache=True,
+        )
     print(f"[DEBUG qwen3_vl_predict] Generated IDs shape: {generated_ids.shape}")
+    # Check what the generated token is
+    gen_tokens = generated_ids[0].tolist()
+    print(f"[DEBUG qwen3_vl_predict] Last 5 generated tokens: {gen_tokens[-5:]}")
     generated_ids_trimmed = [
         out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
     ]
     print(f"[DEBUG qwen3_vl_predict] Trimmed lengths: {[len(t) for t in generated_ids_trimmed]}")
+    # Try decoding without skip_special_tokens to see what's there
+    raw_decode = processor.batch_decode(
+        generated_ids_trimmed, skip_special_tokens=False, clean_up_tokenization_spaces=False
+    )
+    print(f"[DEBUG qwen3_vl_predict] Raw decode (no skip): {raw_decode[0][:200] if raw_decode else 'empty'}")
     output_text = processor.batch_decode(
         generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
     )

requirements.txt CHANGED Viewed

@@ -1,5 +1,5 @@
-transformers==4.57.1
-diffusers>=0.37.0
 accelerate
 bitsandbytes
 sentencepiece

+transformers
+diffusers
 accelerate
 bitsandbytes
 sentencepiece