Spaces:

MindLabUnimib
/

prova2

Sleeping

MindLabUnimib commited on 17 days ago

Commit

519b2ce

verified ·

1 Parent(s): bbd23ed

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -65,11 +65,11 @@ def generate_responses(model, tokenizer, prompts):
     texts = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     print(texts[0])
-    model_inputs = tokenizer(texts, padding=True, truncation=True, max_length=512, return_tensors="pt").to(model.device)
-    print(tokenizer.batch_decode(model_inputs["input_ids"][0]))
     with torch.inference_mode():
         generated_ids = model.generate(
             **model_inputs,
@@ -78,9 +78,9 @@ def generate_responses(model, tokenizer, prompts):
             repetition_penalty=1.1,
             max_new_tokens=512,
         )
-    prompt_lengths = model_inputs["attention_mask"].sum(dim=1) - 1
     generated_ids = [output_ids[length:] for length, output_ids in zip(prompt_lengths, generated_ids)]
-    print(tokenizer.batch_decode(generated_ids[0], skip_special_tokens=False))
     responses = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
     return responses

     texts = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     print(texts[0])
+    model_inputs = tokenizer(texts, padding=True, truncation=True, max_length=512, return_tensors="pt").to(model.device)
+    print(tokenizer.decode(model_inputs["input_ids"][0]))
     with torch.inference_mode():
         generated_ids = model.generate(
             **model_inputs,
             repetition_penalty=1.1,
             max_new_tokens=512,
         )
+    prompt_lengths = model_inputs["attention_mask"].sum(dim=1)
     generated_ids = [output_ids[length:] for length, output_ids in zip(prompt_lengths, generated_ids)]
+    print(tokenizer.decode(generated_ids[0], skip_special_tokens=False))
     responses = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
     return responses