Spaces:

DGutierrez81
/

CommentImage

Sleeping

App Files Files Community

DGutierrez81 commited on Oct 30, 2025

Commit

b5f36c2

verified ·

1 Parent(s): aa43f8a

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -26

app.py CHANGED Viewed

@@ -1,19 +1,19 @@
 import gradio as gr
 import requests
 from PIL import Image
-from io import BytesIO
 from transformers import pipeline
-from datasets import load_dataset
 import torch
 import soundfile as sf
 image_to_text = pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")
 synthesiser = pipeline("text-to-speech", model="microsoft/speecht5_tts")
-embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
 url = "https://www.thecocktaildb.com/api/json/v1/1/search.php?s=margarita"
 response = requests.get(url)
 lista = []
@@ -26,45 +26,52 @@ if response.status_code == 200:
 else:
     print(f"Error: {response.status_code}")
 def change_textbox(choice):
     cocktail = requests.get(f"https://www.thecocktaildb.com/api/json/v1/1/search.php?s={choice}")
     data = cocktail.json()
     dataCocktail = data.get("drinks", [])
     for i in dataCocktail:
         if i['strDrink'].lower() == choice.lower():
             name = i['strDrink']
             instructions = i['strInstructions']
             image_url = i['strDrinkThumb']
             break
-    textInstructions = gr.Textbox(instructions)
     img_response = requests.get(image_url)
     image = Image.open(BytesIO(img_response.content)).convert("RGB")
     result = image_to_text(image)
     descripcion = result[0]['generated_text']
     speech = synthesiser(instructions, forward_params={"speaker_embeddings": speaker_embedding})
     sf.write("speech.wav", speech["audio"], samplerate=speech["sampling_rate"])
     audio_path = "speech.wav"
     speech2 = synthesiser(descripcion, forward_params={"speaker_embeddings": speaker_embedding})
     sf.write("speech2.wav", speech2["audio"], samplerate=speech2["sampling_rate"])
     audio_path2 = "speech2.wav"
-    return name, image,textInstructions,audio_path,descripcion,audio_path2
 with gr.Blocks() as demo:
     gr.HTML(
         """
         <style>
-            /* Cambiar el fondo de toda la página */
             body {
-                background-color: #000000;
-                color: #FFFFFF;
-                font-family: Arial, sans-serif;
                 margin: 0;
                 padding: 0;
                 text-align: center;
@@ -79,7 +86,7 @@ with gr.Blocks() as demo:
                 align-items: center;
                 justify-content: center;
             }
             .gradio-container .gradio-radio {
                 display: inline-block;
                 margin: 10px;
@@ -93,18 +100,20 @@ with gr.Blocks() as demo:
         """
     )
-    gr.Markdown(
-    """<h1>Cocktails Descriptions</h1>"""
-)
     radio = gr.Radio(lista, label="Choose your cocktail:")
-    text = gr.Textbox(lines=2, interactive=False, show_copy_button=True, label="Cocktail Name")
     imagen = gr.Image(label="Cocktail Image")
-    text2 = gr.Textbox(lines=2, interactive=False, show_copy_button=True, label="Instructions")
     audio = gr.Audio(label="Cocktail Instructions Audio")
     text3 = gr.Textbox(lines=2, interactive=False, show_copy_button=True, label="Image description")
     audio2 = gr.Audio(label="Audio image description")
-    radio.change(fn=change_textbox, inputs=radio, outputs=[text, imagen,text2, audio,text3, audio2])
-demo.launch()

 import gradio as gr
 import requests
 from PIL import Image
+from io import BytesIO
 from transformers import pipeline
 import torch
 import soundfile as sf
+# Pipelines de Transformers
 image_to_text = pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")
 synthesiser = pipeline("text-to-speech", model="microsoft/speecht5_tts")
+# Speaker embedding aleatorio (para demo)
+speaker_embedding = torch.randn(1, 512)
+# Obtener lista de cócteles desde la API
 url = "https://www.thecocktaildb.com/api/json/v1/1/search.php?s=margarita"
 response = requests.get(url)
 lista = []
 else:
     print(f"Error: {response.status_code}")
+# Función principal que actualiza la interfaz
 def change_textbox(choice):
     cocktail = requests.get(f"https://www.thecocktaildb.com/api/json/v1/1/search.php?s={choice}")
     data = cocktail.json()
     dataCocktail = data.get("drinks", [])
+    name = ""
+    instructions = ""
+    image_url = ""
     for i in dataCocktail:
         if i['strDrink'].lower() == choice.lower():
             name = i['strDrink']
             instructions = i['strInstructions']
             image_url = i['strDrinkThumb']
             break
+    # Cargar imagen
     img_response = requests.get(image_url)
     image = Image.open(BytesIO(img_response.content)).convert("RGB")
+    # Generar descripción de la imagen
     result = image_to_text(image)
     descripcion = result[0]['generated_text']
+    # Generar audio de instrucciones
     speech = synthesiser(instructions, forward_params={"speaker_embeddings": speaker_embedding})
     sf.write("speech.wav", speech["audio"], samplerate=speech["sampling_rate"])
     audio_path = "speech.wav"
+    # Generar audio de descripción de la imagen
     speech2 = synthesiser(descripcion, forward_params={"speaker_embeddings": speaker_embedding})
     sf.write("speech2.wav", speech2["audio"], samplerate=speech2["sampling_rate"])
     audio_path2 = "speech2.wav"
+    return name, image, instructions, audio_path, descripcion, audio_path2
+# Crear la interfaz de Gradio
 with gr.Blocks() as demo:
     gr.HTML(
         """
         <style>
             body {
+                background-color: #000000;
+                color: #ffffff;
+                font-family: Arial, sans-serif;
                 margin: 0;
                 padding: 0;
                 text-align: center;
                 align-items: center;
                 justify-content: center;
             }
             .gradio-container .gradio-radio {
                 display: inline-block;
                 margin: 10px;
         """
     )
+    gr.Markdown("<h1>Cocktails Descriptions</h1>")
     radio = gr.Radio(lista, label="Choose your cocktail:")
+    text = gr.Textbox(lines=1, interactive=False, show_copy_button=True, label="Cocktail Name")
     imagen = gr.Image(label="Cocktail Image")
+    text2 = gr.Textbox(lines=4, interactive=False, show_copy_button=True, label="Instructions")
     audio = gr.Audio(label="Cocktail Instructions Audio")
     text3 = gr.Textbox(lines=2, interactive=False, show_copy_button=True, label="Image description")
     audio2 = gr.Audio(label="Audio image description")
+    radio.change(
+        fn=change_textbox,
+        inputs=radio,
+        outputs=[text, imagen, text2, audio, text3, audio2]
+    )
+demo.launch(share=True)