Spaces:

peshk1n
/

image-captioning-test

Sleeping

App Files Files Community

peshk1n commited on Jun 24, 2025

Commit

6a4b74c

verified ·

1 Parent(s): 1b0627f

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -8

app.py CHANGED Viewed

@@ -81,7 +81,7 @@ class PositionalEmbedding(layers.Layer):
     return output
-class AttentionalPooling(layers.Layer):
     def __init__(self, embed_dim, num_heads=6):
         super().__init__()
         self.embed_dim = embed_dim
@@ -100,7 +100,7 @@ class AttentionalPooling(layers.Layer):
         return self.norm(attn_output)
-class TransformerBlock(layers.Layer):
   def __init__(self, embed_dim, dense_dim, num_heads, dropout_rate=0.1, ln_epsilon=1e-6, is_multimodal=False, **kwargs):
     super().__init__(**kwargs)
     self.embed_dim = embed_dim
@@ -128,7 +128,7 @@ class TransformerBlock(layers.Layer):
     # Feed-Forward Network
-    self.dense_proj = keras.Sequential([
         layers.Dense(self.dense_dim, activation="gelu"),
         layers.Dropout(self.dropout_rate),
         layers.Dense(self.embed_dim)
@@ -279,7 +279,7 @@ for layer in vit_tiny_model.layers:
     layer.trainable = True
-class CoCaEncoder(keras.Model):
     def __init__(self,
             vit, **kwargs):
@@ -317,7 +317,7 @@ class CoCaEncoder(keras.Model):
-class CoCaDecoder(keras.Model):
     def __init__(self,
             cls_token_id,
             num_heads,
@@ -368,7 +368,7 @@ class CoCaDecoder(keras.Model):
 # день 6
-class CoCaModel(keras.Model):
     def __init__(self,
         vit,
         cls_token_id,
@@ -491,7 +491,7 @@ dummy_features = tf.zeros((1, 3, img_size, img_size), dtype=tf.float32)
 dummy_captions = tf.zeros((1, sentence_length-1), dtype=tf.int64)
 _ = coca_model((dummy_features, dummy_captions))
-optimizer = keras.optimizers.Adam(learning_rate=1e-4)
 coca_model.compile(optimizer)
 save_dir = "models/"
@@ -540,7 +540,7 @@ class BahdanauAttention(layers.Layer):
-class ImageCaptioningModel(keras.Model):
     def __init__(self, vocab_size, max_caption_len, embedding_dim=512, lstm_units=512, dropout_rate=0.5, **kwargs):
         super().__init__(**kwargs)

     return output
+class AttentionalPooling(tf.keras.layers.Layer):
     def __init__(self, embed_dim, num_heads=6):
         super().__init__()
         self.embed_dim = embed_dim
         return self.norm(attn_output)
+class TransformerBlock(tf.keras.layers.Layer):
   def __init__(self, embed_dim, dense_dim, num_heads, dropout_rate=0.1, ln_epsilon=1e-6, is_multimodal=False, **kwargs):
     super().__init__(**kwargs)
     self.embed_dim = embed_dim
     # Feed-Forward Network
+    self.dense_proj = tf.keras.Sequential([
         layers.Dense(self.dense_dim, activation="gelu"),
         layers.Dropout(self.dropout_rate),
         layers.Dense(self.embed_dim)
     layer.trainable = True
+class CoCaEncoder(tf.keras.Model):
     def __init__(self,
             vit, **kwargs):
+class CoCaDecoder(tf.keras.Model):
     def __init__(self,
             cls_token_id,
             num_heads,
 # день 6
+class CoCaModel(tf.keras.Model):
     def __init__(self,
         vit,
         cls_token_id,
 dummy_captions = tf.zeros((1, sentence_length-1), dtype=tf.int64)
 _ = coca_model((dummy_features, dummy_captions))
+optimizer = tf.keras.optimizers.Adam(learning_rate=1e-4)
 coca_model.compile(optimizer)
 save_dir = "models/"
+class ImageCaptioningModel(tf.keras.Model):
     def __init__(self, vocab_size, max_caption_len, embedding_dim=512, lstm_units=512, dropout_rate=0.5, **kwargs):
         super().__init__(**kwargs)