Spaces:

IDMNYU
/

9103D-2025S-api-example

Sleeping

thiagohersan commited on Jan 25, 2025

Commit

afb7934

verified ·

1 Parent(s): c5e27c9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,24 +3,47 @@ import numpy as np
 from transformers import pipeline
-tts = pipeline(task="text-to-speech", model="facebook/mms-tts-eng")
 # caption = pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")
 caption = pipeline("image-to-text", model="nlpconnect/vit-gpt2-image-captioning")
 def run_tts(txt):
   res = tts(txt)
   audio = (res["audio"].reshape(-1) * 2 ** 15).astype(np.int16)
   return res["sampling_rate"], audio
-def run_caption(img):
-  res = caption(img, max_new_tokens=128)
-  return res[0]["generated_text"]
 def run_caption_tts(img):
   return run_tts(run_caption(img))
 with gr.Blocks() as demo:
   gr.Interface(
     run_tts,
     inputs=gr.Textbox(),
@@ -28,13 +51,13 @@ with gr.Blocks() as demo:
   )
   gr.Interface(
-    run_caption,
     inputs=gr.Image(type="pil"),
-    outputs="text",
   )
   gr.Interface(
-    run_caption_tts,
     inputs=gr.Image(type="pil"),
     outputs="audio",
   )

 from transformers import pipeline
 # caption = pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")
 caption = pipeline("image-to-text", model="nlpconnect/vit-gpt2-image-captioning")
+generate = pipeline("text-generation", model="openai-community/gpt2-xl")
+tts = pipeline(task="text-to-speech", model="facebook/mms-tts-eng")
+def run_caption(img):
+  res = caption(img, max_new_tokens=128)
+  return res[0]["generated_text"]
+def run_generate(txt):
+  res = generate(txt, max_length=50)
+  return res[0]["generated_text"]
 def run_tts(txt):
   res = tts(txt)
   audio = (res["audio"].reshape(-1) * 2 ** 15).astype(np.int16)
   return res["sampling_rate"], audio
 def run_caption_tts(img):
   return run_tts(run_caption(img))
+def run_caption_generate_tts(img):
+  return run_tts(run_generate(run_caption(img)))
 with gr.Blocks() as demo:
+  gr.Interface(
+    run_caption,
+    inputs=gr.Image(type="pil"),
+    outputs="text",
+  )
+  gr.Interface(
+    run_generate,
+    inputs="text",
+    outputs="text",
+  )
   gr.Interface(
     run_tts,
     inputs=gr.Textbox(),
   )
   gr.Interface(
+    run_caption_tts,
     inputs=gr.Image(type="pil"),
+    outputs="audio",
   )
   gr.Interface(
+    run_caption_generate_tts,
     inputs=gr.Image(type="pil"),
     outputs="audio",
   )