paul-english
/

iterativebert-base

@@ -3,22 +3,22 @@ license: apache-2.0
 library_name: transformers
 language: en
 tags:
-  - tiner
-  - iterative-bert
-  - encoder
-  - pytorch
 model-index:
-  - name: iterativebert-base
-    results:
-      - task:
-          type: fill-mask
-        dataset:
-          name: MBZUAI-LLM/SlimPajama-627B-DC
-          type: MBZUAI-LLM/SlimPajama-627B-DC
-        metrics:
-          - name: Loss
-            type: loss
-            value: 5.0599
 ---
 # iterativebert-base

 library_name: transformers
 language: en
 tags:
+- tiner
+- iterative-bert
+- encoder
+- pytorch
 model-index:
+- name: iterativebert-base
+  results:
+  - task:
+      type: fill-mask
+    dataset:
+      name: MBZUAI-LLM/SlimPajama-627B-DC
+      type: MBZUAI-LLM/SlimPajama-627B-DC
+    metrics:
+    - type: loss
+      value: 5.0599
+      name: Loss
 ---
 # iterativebert-base

config.json CHANGED Viewed

@@ -6,7 +6,6 @@
   "architectures": [
     "IterativeBert"
   ],
-  "attn_implementation": "flash_attention_2",
   "conv_kernel_size": 2,
   "dropout_attn_output": 0.1,
   "dropout_attn_weights": 0.0,
@@ -24,9 +23,6 @@
   "l_step_rope_base": 10000.0,
   "l_step_use_conv": true,
   "layer_norm_eps": 1e-12,
-  "liger_fused_rmsnorm": true,
-  "liger_fused_rope": false,
-  "liger_fused_swiglu": true,
   "max_position_embeddings": 2048,
   "model_type": "iterative_bert",
   "norm_type": "layernorm",

   "architectures": [
     "IterativeBert"
   ],
   "conv_kernel_size": 2,
   "dropout_attn_output": 0.1,
   "dropout_attn_weights": 0.0,
   "l_step_rope_base": 10000.0,
   "l_step_use_conv": true,
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 2048,
   "model_type": "iterative_bert",
   "norm_type": "layernorm",