HALION-AI
/

helionx_base_300m

@@ -1,4 +1,5 @@
 {
   "model_type": "gpt2",
   "vocab_size": 50257,
   "n_positions": 2048,
@@ -6,14 +7,23 @@
   "n_embd": 896,
   "n_layer": 22,
   "n_head": 14,
-  "activation_function": "gelu",
   "resid_pdrop": 0.0,
   "embd_pdrop": 0.0,
   "attn_pdrop": 0.0,
   "layer_norm_epsilon": 1e-5,
   "initializer_range": 0.02,
   "use_cache": true,
   "bos_token_id": 50256,
   "eos_token_id": 50256,
-  "architectures": ["HelionXModel"]
 }

 {
+  "architectures": ["GPT2LMHeadModel"],
   "model_type": "gpt2",
   "vocab_size": 50257,
   "n_positions": 2048,
   "n_embd": 896,
   "n_layer": 22,
   "n_head": 14,
+  "n_inner": 3584,
+  "activation_function": "gelu_new",
   "resid_pdrop": 0.0,
   "embd_pdrop": 0.0,
   "attn_pdrop": 0.0,
   "layer_norm_epsilon": 1e-5,
   "initializer_range": 0.02,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "summary_activation": null,
+  "summary_last_dropout": 0.0,
+  "summary_first_dropout": 0.0,
+  "summary_proj_to_labels": true,
+  "summary_proj_to_labels": true,
+  "scale_attn_weights": true,
   "use_cache": true,
   "bos_token_id": 50256,
   "eos_token_id": 50256,
+  "tie_word_embeddings": true
 }