SandraCLV commited on
Commit
36063e4
1 Parent(s): ab46ebc

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +15 -5
app.py CHANGED
@@ -1,6 +1,9 @@
1
  import gradio as gr
2
  from transformers import pipeline
 
3
  import torch
 
 
4
 
5
  #Definir 2 modelos uno de imagen a texto y otro de texto a audio que inyecta
6
  # el resultado del primero modelo(texto generado) en la entrada del 2潞 modelo
@@ -16,12 +19,19 @@ text_to_audio_model = pipeline("text-to-speech")
16
  # Funci贸n para la interfaz de Gradio
17
  def image_to_audio(input_image):
18
  # Convertir la imagen a texto
19
- text_output = image_to_text_model(input_image)[0]['label']
20
-
21
- # Generar audio a partir del texto
22
- audio_output = text_to_audio_model(text_output)[0]['audio']
 
 
 
 
 
 
 
 
23
 
24
- return audio_output
25
 
26
 
27
  # Interfaz Gradio
 
1
  import gradio as gr
2
  from transformers import pipeline
3
+ from PIL import Image, ImageOps
4
  import torch
5
+ import timm
6
+
7
 
8
  #Definir 2 modelos uno de imagen a texto y otro de texto a audio que inyecta
9
  # el resultado del primero modelo(texto generado) en la entrada del 2潞 modelo
 
19
  # Funci贸n para la interfaz de Gradio
20
  def image_to_audio(input_image):
21
  # Convertir la imagen a texto
22
+ model = timm.create_model("hf_hub:timm/mobilenetv3_large_100.ra_in1k", pretrained=True)
23
+ model = model.eval()
24
+ # get model specific transforms (normalization, resize)
25
+ data_config = timm.data.resolve_model_data_config(model)
26
+ transforms = timm.data.create_transform(**data_config, is_training=False)
27
+ output = model(transforms(img).unsqueeze(0)) # unsqueeze single image into batch of 1
28
+ for o in output:
29
+
30
+ #text_output = image_to_text_model(input_image)[0]['label']
31
+ # Generar audio a partir del texto
32
+ audio_output = text_to_audio_model(o.shape)['audio']
33
+ print(o.shape)
34
 
 
35
 
36
 
37
  # Interfaz Gradio