LilPhat23
/

PhoGPT

+{
+  "model_type": "phogpt",
+  "architectures": ["PhoGPTForCausalLM"],
+  "hidden_size": 4096,
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "vocab_size": 51200,
+  "max_seq_len": 4096,
+  "torch_dtype": "float16",
+  "attn_config": {
+    "attn_impl": "triton",
+    "attn_pdrop": 0.0,
+    "attn_type": "multihead_attention",
+    "alibi": true,
+    "alibi_bias_max": 8,
+    "prefix_lm": false,
+    "qk_ln": false
+  },
+  "ffn_config": {
+    "ffn_type": "phogpt_mlp"
+  },
+  "init_config": {
+    "name": "kaiming_normal_",
+    "fan_mode": "fan_in",
+    "init_nonlinearity": "relu",
+    "init_div_is_residual": true
+  },
+  "use_cache": false
+}