Spaces:

Vasudevakrishna
/

CapstoneERA

Sleeping

Vasudevakrishna commited on Feb 4, 2024

Commit

b89d6d1

verified ·

1 Parent(s): 75dfe2d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -32,9 +32,7 @@ processor  = AutoProcessor.from_pretrained(config.get("clip_model_name"), trust_
 audio_model = whisperx.load_model('tiny', 'cpu', compute_type="float32")
-def generate_answers(img=None, aud = None, q = None, max_tokens = 30):
-    print(img, aud, q)
     batch_size = 1
     start_iq = tokenizer.encode("<iQ>")
     end_iq = tokenizer.encode("</iQ>")
@@ -78,7 +76,6 @@ def generate_answers(img=None, aud = None, q = None, max_tokens = 30):
     for pos in range(max_tokens - 1):
         model_output_logits = phi2_model.forward(inputs_embeds = combined_embeds)['logits']
-        print(model_output_logits.shape)
         predicted_word_token_logits = model_output_logits[:, -1, :].unsqueeze(1)
         predicted_word_token = torch.argmax(predicted_word_token_logits, dim = -1)
         predicted_caption[:, pos] = predicted_word_token.view(1,-1).to('cpu')

 audio_model = whisperx.load_model('tiny', 'cpu', compute_type="float32")
+def generate_answers(img=None, aud = None, q = None, max_tokens = 30):
     batch_size = 1
     start_iq = tokenizer.encode("<iQ>")
     end_iq = tokenizer.encode("</iQ>")
     for pos in range(max_tokens - 1):
         model_output_logits = phi2_model.forward(inputs_embeds = combined_embeds)['logits']
         predicted_word_token_logits = model_output_logits[:, -1, :].unsqueeze(1)
         predicted_word_token = torch.argmax(predicted_word_token_logits, dim = -1)
         predicted_caption[:, pos] = predicted_word_token.view(1,-1).to('cpu')