Upload folder using huggingface_hub

Files changed (3) hide show

config.json CHANGED Viewed

@@ -146,20 +146,20 @@
   "drop_vision_last_layer": false,
   "eos_token_id": 151645,
   "hidden_act": "silu",
-  "hidden_size": 256,
   "image_size": 448,
   "init_audio": false,
   "init_tts": false,
   "init_vision": true,
   "initializer_range": 0.02,
-  "intermediate_size": 512,
   "listen_speak_type": "asr",
-  "max_position_embeddings": 128,
   "max_window_layers": 28,
   "model_type": "minicpmo",
-  "num_attention_heads": 4,
-  "num_hidden_layers": 2,
-  "num_key_value_heads": 4,
   "patch_size": 14,
   "query_num": 64,
   "rms_norm_eps": 1e-06,
@@ -172,7 +172,7 @@
   "slice_mode": true,
   "sliding_window": null,
   "stream_input": false,
-  "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.46.2",
   "tts_config": {
@@ -193,5 +193,5 @@
     "num_hidden_layers": 1,
     "patch_size": 14
   },
-  "vocab_size": 320
 }

   "drop_vision_last_layer": false,
   "eos_token_id": 151645,
   "hidden_act": "silu",
+  "hidden_size": 16,
   "image_size": 448,
   "init_audio": false,
   "init_tts": false,
   "init_vision": true,
   "initializer_range": 0.02,
+  "intermediate_size": 32,
   "listen_speak_type": "asr",
+  "max_position_embeddings": 2048,
   "max_window_layers": 28,
   "model_type": "minicpmo",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 1,
+  "num_key_value_heads": 2,
   "patch_size": 14,
   "query_num": 64,
   "rms_norm_eps": 1e-06,
   "slice_mode": true,
   "sliding_window": null,
   "stream_input": false,
+  "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.46.2",
   "tts_config": {
     "num_hidden_layers": 1,
     "patch_size": 14
   },
+  "vocab_size": 151700
 }

modeling_minicpmo.py CHANGED Viewed

@@ -206,7 +206,7 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
         return Resampler(
             num_queries=self.config.query_num,
             embed_dim=embed_dim,
-            num_heads=embed_dim // 128,
             kv_dim=vision_dim,
             adaptive=True,
         )

         return Resampler(
             num_queries=self.config.query_num,
             embed_dim=embed_dim,
+            num_heads=max(1, embed_dim // 128),
             kv_dim=vision_dim,
             adaptive=True,
         )

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c91ebd65c3f39ed36a031a9eb5722a54facafece3b60bcc554b6e02d624cadc4
-size 3760638

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5d5eb21618db4f4f5c73a408cae4a9d842e334d4419a3b278a7ec5bdb1970a2
+size 4968727