mujtaba025
/

tiny-random-MiniCPM-o-2_6

+{
+  "architectures": [
+    "MiniCPMO"
+  ],
+  "attention_dropout": 0.0,
+  "audio_chunk_length": 1.0,
+  "audio_config": {
+    "_name_or_path": "openai/whisper-medium",
+    "activation_dropout": 0.0,
+    "activation_function": "gelu",
+    "apply_spec_augment": false,
+    "architectures": [
+      "MiniCPMWhisperEncoder"
+    ],
+    "attention_dropout": 0.0,
+    "begin_suppress_tokens": [
+      0
+    ],
+    "bos_token_id": 0,
+    "classifier_proj_size": 256,
+    "d_model": 8,
+    "decoder_attention_heads": 1,
+    "decoder_ffn_dim": 16,
+    "decoder_layerdrop": 0.0,
+    "decoder_layers": 1,
+    "decoder_start_token_id": 50258,
+    "dropout": 0.0,
+    "dtype": "float32",
+    "encoder_attention_heads": 1,
+    "encoder_ffn_dim": 16,
+    "encoder_layerdrop": 0.0,
+    "encoder_layers": 1,
+    "eos_token_id": 1,
+    "forced_decoder_ids": [],
+    "init_std": 0.02,
+    "mask_feature_length": 10,
+    "mask_feature_min_masks": 0,
+    "mask_feature_prob": 0.0,
+    "mask_time_length": 10,
+    "mask_time_min_masks": 2,
+    "mask_time_prob": 0.05,
+    "max_length": 448,
+    "max_source_positions": 1500,
+    "max_target_positions": 448,
+    "median_filter_width": 7,
+    "model_type": "whisper",
+    "num_hidden_layers": 24,
+    "num_mel_bins": 80,
+    "pad_token_id": 2,
+    "scale_embedding": false,
+    "suppress_tokens": [],
+    "use_cache": true,
+    "use_weighted_layer_sum": false,
+    "vocab_size": 1000
+  },
+  "audio_pool_step": 2,
+  "auto_map": {
+    "AutoConfig": "configuration_minicpm.MiniCPMOConfig",
+    "AutoModel": "modeling_minicpmo.MiniCPMO",
+    "AutoModelForCausalLM": "modeling_minicpmo.MiniCPMO"
+  },
+  "batch_vision_input": true,
+  "bos_token_id": 0,
+  "chunk_input": true,
+  "drop_vision_last_layer": false,
+  "dtype": "bfloat16",
+  "eos_token_id": 1,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "image_size": 448,
+  "init_audio": true,
+  "init_tts": false,
+  "init_vision": true,
+  "initializer_range": 0.02,
+  "intermediate_size": 32,
+  "layer_types": [
+    "full_attention"
+  ],
+  "listen_speak_type": "asr",
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "minicpmo",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 1,
+  "num_key_value_heads": 1,
+  "pad_token_id": 2,
+  "patch_size": 14,
+  "query_num": 64,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "slice_config": {
+    "max_slice_nums": 9,
+    "model_type": "minicpmv",
+    "patch_size": 14,
+    "scale_resolution": 448
+  },
+  "slice_mode": true,
+  "sliding_window": null,
+  "stream_input": false,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.57.6",
+  "tts_config": {
+    "attn_implementation": "sdpa",
+    "audio_bos_token_id": 21132,
+    "aug_loss_weight": true,
+    "hidden_size": 768,
+    "intermediate_size": 3072,
+    "llm_dim": 3584,
+    "max_position_embeddings": 4096,
+    "model_type": "conditional_chattts",
+    "num_attention_heads": 12,
+    "num_audio_tokens": 626,
+    "num_hidden_layers": 20,
+    "num_mel_bins": 100,
+    "num_spk_embs": 1,
+    "num_text_tokens": 21178,
+    "num_vq": 4,
+    "spk_emb_token_id": 21143,
+    "streaming": true,
+    "streaming_audio_chunk_size": 50,
+    "streaming_text_chunk_size": 10,
+    "streaming_text_reserved_len": 300,
+    "text_eos_token_id": 21133,
+    "use_llm_hidden_state": false,
+    "use_mlp": true,
+    "use_speaker_embedding": true,
+    "use_text": true
+  },
+  "use_cache": true,
+  "use_image_id": true,
+  "use_sliding_window": false,
+  "version": 2.6,
+  "vision_batch_size": 16,
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 8,
+    "image_size": 980,
+    "intermediate_size": 16,
+    "layer_norm_eps": 1e-06,
+    "model_type": "siglip_vision_model",
+    "num_attention_heads": 1,
+    "num_channels": 3,
+    "num_hidden_layers": 1,
+    "patch_size": 14
+  },
+  "vocab_size": 32000
+}