Spaces:

ojoel98
/

app4

Sleeping

App Files Files Community

ojoel98 commited on Mar 26, 2024

Commit

16036bc

verified ·

1 Parent(s): 758f154

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -12

app.py CHANGED Viewed

@@ -554,32 +554,37 @@ caption_model.fit(
 """### **Opción para guardar el modelo entrenado**"""
 #con está opción vemos los pesos del modelo en una lista
-pesos = caption_model.get_weights()
 #guardamos esos pesos en formato npy - en este caso lo guardamos entrenado con una época, ya que si quitamos el fit o el entrenamiento nos da error, por lo que siempre tenemos que
 #entrenarle al modelo con una época para después configurarle con otro con 10 épocas
-np.save('pesos1.npy', np.array(pesos, dtype=object), allow_pickle=True)
 #aquí configuramos los pesos que estaban entrenados con una época con diez - nosotros corrimos anteriormente con 10 y nos descargamos
 import os
 import numpy as np
 #Carga del modelo
-archivo_pesos = os.path.join("pesos1.npy")
 caption_model = np.load(archivo_pesos, allow_pickle=True)
 #Interfaz para gradio
 def generate_caption(sample_img):
-    print(sample_img.shape)
-    sample_img = np.random.choice(valid_images)
     sample_img = decode_and_resize(sample_img)
     img = sample_img.numpy().clip(0, 255).astype(np.uint8)
     plt.imshow(img)
     plt.show()
     img = tf.expand_dims(sample_img, 0)
-    img = caption_model.cnn_model(img)
-    encoded_img = caption_model.encoder(img, training=False)
-    decoded_caption = "<start> "
     for i in range(max_decoded_sentence_length):
         tokenized_caption = vectorization([decoded_caption])[:, :-1]
         mask = tf.math.not_equal(tokenized_caption, 0)
@@ -591,16 +596,18 @@ def generate_caption(sample_img):
         if sampled_token == "<end>":
             break
         decoded_caption += " " + sampled_token
     decoded_caption = decoded_caption.replace("<start> ", "")
     decoded_caption = decoded_caption.replace(" <end>", "").strip()
     text_to_say = decoded_caption
     lenguage = "es-es"
-    gtts_object = gTTS(text = text_to_say,
-                   lang = lenguage,
-                   slow = False )
     gtts_object.save("gtts.mp3")
     audio = "gtts.mp3"
     return decoded_caption, audio
 demo = gr.Interface(fn = generate_caption,inputs = gr.Image(label="Imagen"), outputs = [gr.Text(label="Descripción textual"), gr.Audio(label="Audio")], theme ='darkhuggingface', title = 'DESCRIPCIÓN DE IMÁGENES DE RIPIOS DE PERFORACIÓN',

 """### **Opción para guardar el modelo entrenado**"""
 #con está opción vemos los pesos del modelo en una lista
+#pesos = caption_model.get_weights()
 #guardamos esos pesos en formato npy - en este caso lo guardamos entrenado con una época, ya que si quitamos el fit o el entrenamiento nos da error, por lo que siempre tenemos que
 #entrenarle al modelo con una época para después configurarle con otro con 10 épocas
+#np.save('pesos1.npy', np.array(pesos, dtype=object), allow_pickle=True)
 #aquí configuramos los pesos que estaban entrenados con una época con diez - nosotros corrimos anteriormente con 10 y nos descargamos
 import os
 import numpy as np
 #Carga del modelo
+archivo_pesos = os.path.join("pesos10.npy")
 caption_model = np.load(archivo_pesos, allow_pickle=True)
 #Interfaz para gradio
 def generate_caption(sample_img):
+    # Decodifica y redimensiona la imagen de entrada
     sample_img = decode_and_resize(sample_img)
     img = sample_img.numpy().clip(0, 255).astype(np.uint8)
     plt.imshow(img)
     plt.show()
+    # Prepara la imagen para el modelo
     img = tf.expand_dims(sample_img, 0)
+    img_embed = caption_model.cnn_model(img)
+    encoded_img = caption_model.encoder(img_embed, training=False)
+    # Inicializa la descripción con el token de inicio
+    decoded_caption = "<start>"
+    # Itera para generar la descripción
     for i in range(max_decoded_sentence_length):
         tokenized_caption = vectorization([decoded_caption])[:, :-1]
         mask = tf.math.not_equal(tokenized_caption, 0)
         if sampled_token == "<end>":
             break
         decoded_caption += " " + sampled_token
+    # Elimina los tokens de inicio y fin de la descripción
     decoded_caption = decoded_caption.replace("<start> ", "")
     decoded_caption = decoded_caption.replace(" <end>", "").strip()
+    # Convierte la descripción a audio
     text_to_say = decoded_caption
     lenguage = "es-es"
+    gtts_object = gTTS(text=text_to_say, lang=lenguage, slow=False)
     gtts_object.save("gtts.mp3")
     audio = "gtts.mp3"
     return decoded_caption, audio
 demo = gr.Interface(fn = generate_caption,inputs = gr.Image(label="Imagen"), outputs = [gr.Text(label="Descripción textual"), gr.Audio(label="Audio")], theme ='darkhuggingface', title = 'DESCRIPCIÓN DE IMÁGENES DE RIPIOS DE PERFORACIÓN',