Spaces:

Vasudevakrishna
/

CapstoneERA

Sleeping

App Files Files Community

Vasudevakrishna commited on Feb 4, 2024

Commit

52e4280

verified ·

1 Parent(s): 1e111d5

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -10

app.py CHANGED Viewed

@@ -63,8 +63,7 @@ def generate_answers(img=None, aud = None, q = None, max_tokens = 30):
         for seg in trans['segments']:
             audio_res += seg['text']
         audio_res = audio_res.strip()
-        print(audio_res)
-        audio_tokens = tokenizer(q,return_tensors="pt", return_attention_mask=False)['input_ids']
         audio_embeds = phi2_model.model.embed_tokens(audio_tokens.to(config.get("device")))
         inputs_embeddings.append(audio_embeds)
@@ -86,6 +85,7 @@ def generate_answers(img=None, aud = None, q = None, max_tokens = 30):
         next_token_embeds = phi2_model.model.embed_tokens(predicted_word_token)
         combined_embeds   = torch.cat([combined_embeds, next_token_embeds], dim=1)
     predicted_captions_decoded = tokenizer.batch_decode(predicted_caption,ignore_index = 50256)[0]
     return predicted_captions_decoded
@@ -99,16 +99,18 @@ with gr.Blocks() as demo:
     )
     with gr.Row():
-            image = gr.Image(label="Image", type="pil")
-            audio_q = gr.Audio(label="Audio Question", sources=['microphone', 'upload'], type='filepath')
-    with gr.Row():
-        question = gr.Text(label ='Question?')
-    with gr.Row():
-        max_tokens = gr.Slider(1, 50, value = 10, step=1, label="Maximum length of tokens in asnwer.")
-    submit = gr.Button("Submit")
     with gr.Row():
         answer   = gr.Text(label ='Answer')
-    submit.click(generate_answers, inputs=[image,audio_q,question, max_tokens], outputs=[answer])
 if __name__ == "__main__":
     demo.launch(share=True)

         for seg in trans['segments']:
             audio_res += seg['text']
         audio_res = audio_res.strip()
+        audio_tokens = tokenizer(audio_res,return_tensors="pt", return_attention_mask=False)['input_ids']
         audio_embeds = phi2_model.model.embed_tokens(audio_tokens.to(config.get("device")))
         inputs_embeddings.append(audio_embeds)
         next_token_embeds = phi2_model.model.embed_tokens(predicted_word_token)
         combined_embeds   = torch.cat([combined_embeds, next_token_embeds], dim=1)
     predicted_captions_decoded = tokenizer.batch_decode(predicted_caption,ignore_index = 50256)[0]
+    predicted_captions_decoded = predicted_captions_decoded.replace("<|endoftext|>","")
     return predicted_captions_decoded
     )
     with gr.Row():
+        with gr.Column():
+            image = gr.Image(label='Image', type="pil", value=None)
+            audio_q = gr.Audio(label="Audio Question", value=None, sources=['microphone', 'upload'], type='filepath')
+            question = gr.Text(label ='Question?', value=None)
+            max_tokens = gr.Slider(1, 50, value=10, step=1, label="Max tokens")
     with gr.Row():
         answer   = gr.Text(label ='Answer')
+    with gr.Row():
+        submit = gr.Button("Submit")
+        submit.click(generate_answers, inputs=[image, audio_q, question, max_tokens], outputs=[answer])
+        clear_btn = gr.ClearButton([image, audio_q, question, max_tokens, answer])
 if __name__ == "__main__":
     demo.launch(share=True)