HuggingFaceTB
/

SmolVLM-256M-Instruct

@@ -196,7 +196,7 @@ for i in range(max_new_tokens):
   ## Update values for next generation loop
   input_ids = logits[:, -1].argmax(-1, keepdims=True)
-  attention_mask = np.ones_like(input_ids)
   position_ids = position_ids[:, -1:] + 1
   for j, key in enumerate(past_key_values):
     past_key_values[key] = present_key_values[j]

   ## Update values for next generation loop
   input_ids = logits[:, -1].argmax(-1, keepdims=True)
+  attention_mask = np.ones_like(np.concatenate((attention_mask, input_ids), axis=-1))
   position_ids = position_ids[:, -1:] + 1
   for j, key in enumerate(past_key_values):
     past_key_values[key] = present_key_values[j]