mohammadmahdinouri
/

mol-baseline

Model card Files Files and versions

mohammadmahdinouri commited on Aug 26, 2025

Commit

3560193

·

verified ·

1 Parent(s): c8a7252

Upload ModernALBERTForMaskedLM

Files changed (2) hide show

config.json +17 -15
model.safetensors +2 -2

config.json CHANGED Viewed

@@ -1,31 +1,33 @@
 {
   "architectures": [
     "ModernALBERTForMaskedLM"
   ],
   "attention_probs_dropout_prob": 0.1,
-  "concat_routing_inputs": true,
   "embedding_size": 128,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 1024,
   "initializer_range": 0.02,
-  "intermediate_size": 2048,
-  "layer_norm_eps": 1e-12,
   "max_position_embeddings": 8192,
-  "model_type": "ModernALBERT_MoL",
   "num_attention_heads": 16,
-  "num_expert_layers": 6,
-  "num_hidden_layers": 18,
-  "num_static_groups": 2,
   "pad_token_id": 0,
-  "router_aux_loss_coef": 0.01,
-  "router_warmup_steps": 2000,
-  "routing_noise_std": 1.0,
-  "routing_noise_type": "gumbel",
-  "static_group_depth": 3,
-  "top_k_experts": 1,
   "torch_dtype": "float32",
-  "transformers_version": "4.55.2",
-  "use_gated_residual": true,
   "vocab_size": 50368
 }

 {
+  "adapter_reduction": 16,
   "architectures": [
     "ModernALBERTForMaskedLM"
   ],
   "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
   "embedding_size": 128,
+  "expert_intermediate_size": 2624,
+  "group_depth": 4,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 1024,
   "initializer_range": 0.02,
+  "intermediate_size": 2624,
+  "layer_norm_eps": 1e-06,
+  "load_balancing_loss_coef": 0.0,
+  "lora_rank": 16,
   "max_position_embeddings": 8192,
+  "model_type": "ModernALBERT",
   "num_attention_heads": 16,
+  "num_experts": 1,
+  "num_hidden_layers": 16,
   "pad_token_id": 0,
+  "router_jitter_noise": 0.01,
+  "top_k": 1,
   "torch_dtype": "float32",
+  "transformers_version": "4.55.4",
+  "use_adapter": false,
+  "use_cache": true,
+  "use_moa": true,
   "vocab_size": 50368
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1812cf0c1b7951357f2edf6a19d991163fc9fa711c1aaf72846f7cfa21002698
-size 278716128

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e2861841a5d6d5aa9160ebdf65eac049a17608fbef39680f3f9fe9d83c99e56
+size 293240464