tsingla98
/

frawdllm-100m

Text Generation

Model card Files Files and versions

tsingla98 commited on Dec 22, 2025

Commit

47bd780

·

verified ·

1 Parent(s): d574535

Upload FrawdLLMForCausalLM

Files changed (2) hide show

config.json +3 -0
hf_wrapper.py +5 -0

config.json CHANGED Viewed

@@ -11,10 +11,13 @@
   "dropout": 0.1,
   "dtype": "float32",
   "eos_token_id": 3,
   "model_type": "frawdllm",
   "n_embd": 768,
   "n_head": 12,
   "n_layer": 12,
   "pad_token_id": 0,
   "transformers_version": "4.57.3",
   "use_rmsnorm": false,

   "dropout": 0.1,
   "dtype": "float32",
   "eos_token_id": 3,
+  "hidden_size": 768,
   "model_type": "frawdllm",
   "n_embd": 768,
   "n_head": 12,
   "n_layer": 12,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
   "pad_token_id": 0,
   "transformers_version": "4.57.3",
   "use_rmsnorm": false,

hf_wrapper.py CHANGED Viewed

@@ -50,6 +50,11 @@ class FrawdLLMConfig(PretrainedConfig):
         self.use_rmsnorm = use_rmsnorm
         self.use_swiglu = use_swiglu
         super().__init__(
             pad_token_id=pad_token_id,
             bos_token_id=bos_token_id,

         self.use_rmsnorm = use_rmsnorm
         self.use_swiglu = use_swiglu
+        # Aliases for HuggingFace compatibility
+        self.num_hidden_layers = n_layer
+        self.hidden_size = n_embd
+        self.num_attention_heads = n_head
         super().__init__(
             pad_token_id=pad_token_id,
             bos_token_id=bos_token_id,