BiliSakura
/

Remote-CLIP-ViT-L-14

@@ -1,44 +1,40 @@
 {
-  "architectures": [
-    "CLIPModel"
-  ],
-  "dtype": "float32",
-  "initializer_factor": 1.0,
-  "logit_scale_init_value": 2.6592,
   "model_type": "clip",
-  "projection_dim": 768,
   "text_config": {
-    "attention_dropout": 0.0,
-    "dropout": 0.0,
-    "hidden_act": "quick_gelu",
     "hidden_size": 768,
-    "initializer_factor": 1.0,
-    "initializer_range": 0.02,
     "intermediate_size": 3072,
-    "layer_norm_eps": 1e-05,
     "max_position_embeddings": 77,
-    "model_type": "clip_text_model",
     "num_attention_heads": 12,
     "num_hidden_layers": 12,
     "projection_dim": 768,
-    "vocab_size": 49408
   },
-  "transformers_version": "4.57.3",
   "vision_config": {
-    "attention_dropout": 0.0,
-    "dropout": 0.0,
-    "hidden_act": "quick_gelu",
     "hidden_size": 1024,
-    "image_size": 224,
-    "initializer_factor": 1.0,
-    "initializer_range": 0.02,
     "intermediate_size": 4096,
-    "layer_norm_eps": 1e-05,
-    "model_type": "clip_vision_model",
     "num_attention_heads": 16,
-    "num_channels": 3,
     "num_hidden_layers": 24,
     "patch_size": 14,
-    "projection_dim": 768
-  }
-}

 {
   "model_type": "clip",
   "text_config": {
+    "model_type": "clip_text_model",
     "hidden_size": 768,
     "intermediate_size": 3072,
     "max_position_embeddings": 77,
     "num_attention_heads": 12,
     "num_hidden_layers": 12,
+    "vocab_size": 49408,
     "projection_dim": 768,
+    "hidden_act": "quick_gelu",
+    "layer_norm_eps": 1e-05,
+    "attention_dropout": 0.0,
+    "dropout": 0.0
   },
   "vision_config": {
+    "model_type": "clip_vision_model",
     "hidden_size": 1024,
     "intermediate_size": 4096,
     "num_attention_heads": 16,
     "num_hidden_layers": 24,
     "patch_size": 14,
+    "image_size": 224,
+    "projection_dim": 768,
+    "num_channels": 3,
+    "hidden_act": "quick_gelu",
+    "layer_norm_eps": 1e-05,
+    "attention_dropout": 0.0,
+    "dropout": 0.0
+  },
+  "projection_dim": 768,
+  "logit_scale_init_value": 2.6592,
+  "initializer_factor": 1.0,
+  "dtype": "float32",
+  "architectures": [
+    "CLIPModel"
+  ],
+  "transformers_version": "4.57.3"
+}