Upload AlibiForCausalLM

Browse files

Files changed (4) hide show

config.json +5 -4
configuration_alibi.py +64 -0
generation_config.json +1 -1
model.safetensors +1 -1

config.json CHANGED Viewed

@@ -1,11 +1,12 @@
 {
   "architectures": [
     "AlibiForCausalLM"
   ],
   "attention_bias": false,
   "auto_map": {
-    "AutoConfig": "configuration_transformer.TransformerConfig",
-    "AutoModelForCausalLM": "modeling_transformer.TransformerForCausalLM"
   },
   "bos_token_id": null,
   "elementwise_affine": true,
@@ -18,7 +19,7 @@
   "initializer_range": 0.02,
   "intermediate_size": null,
   "max_position_embeddings": null,
-  "model_type": "transformer-project_fox",
   "norm_eps": 1e-06,
   "num_heads": 6,
   "num_hidden_layers": 4,
@@ -26,7 +27,7 @@
   "rope_base": 500000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
-  "transformers_version": "4.44.0",
   "use_alibi": true,
   "use_cache": true,
   "use_rope": false,

 {
+  "_name_or_path": "alibi_4_6_384_",
   "architectures": [
     "AlibiForCausalLM"
   ],
   "attention_bias": false,
   "auto_map": {
+    "AutoConfig": "configuration_alibi.AlibiConfig",
+    "AutoModelForCausalLM": "modeling_alibi.AlibiForCausalLM"
   },
   "bos_token_id": null,
   "elementwise_affine": true,
   "initializer_range": 0.02,
   "intermediate_size": null,
   "max_position_embeddings": null,
+  "model_type": "alibi",
   "norm_eps": 1e-06,
   "num_heads": 6,
   "num_hidden_layers": 4,
   "rope_base": 500000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
+  "transformers_version": "4.46.0.dev0",
   "use_alibi": true,
   "use_cache": true,
   "use_rope": false,

configuration_alibi.py ADDED Viewed

	@@ -0,0 +1,64 @@

+# -*- coding: utf-8 -*-
+from typing import Optional
+from transformers.configuration_utils import PretrainedConfig
+class AlibiConfig(PretrainedConfig):
+    model_type = 'alibi'
+    keys_to_ignore_at_inference = ['past_key_values']
+    def __init__(
+        self,
+        vocab_size: int = 32000,
+        hidden_size: int = 2048,
+        hidden_ratio: Optional[int] = 4,
+        intermediate_size: Optional[int] = None,
+        num_hidden_layers: int = 24,
+        num_heads: int = 32,
+        num_kv_heads: int = None,
+        hidden_act: str = "swish",
+        window_size: Optional[int] = None,
+        max_position_embeddings: int = 2048,
+        initializer_range: float = 0.02,
+        elementwise_affine: Optional[bool] = True,
+        norm_eps: float = 1e-6,
+        use_cache: bool = True,
+        pad_token_id: int = None,
+        bos_token_id: int = 1,
+        eos_token_id: int = 2,
+        tie_word_embeddings: bool = False,
+        attention_bias: bool = False,
+        fuse_norm: bool = True,
+        fuse_cross_entropy: bool = True,
+        rope_base: float = 500000.0,
+        use_rope: bool = False,
+        use_alibi: bool = True,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.hidden_size = hidden_size
+        self.hidden_ratio = hidden_ratio
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_heads = num_heads
+        self.num_kv_heads = num_kv_heads
+        self.window_size = window_size
+        self.max_position_embeddings = max_position_embeddings
+        self.hidden_act = hidden_act
+        self.initializer_range = initializer_range
+        self.elementwise_affine = elementwise_affine
+        self.norm_eps = norm_eps
+        self.use_cache = use_cache
+        self.attention_bias = attention_bias
+        self.fuse_cross_entropy = fuse_cross_entropy
+        self.fuse_norm = fuse_norm
+        self.rope_base = rope_base
+        self.use_rope = use_rope
+        self.use_alibi = use_alibi
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )

generation_config.json CHANGED Viewed

@@ -1,4 +1,4 @@
 {
   "_from_model_config": true,
-  "transformers_version": "4.44.0"
 }

 {
   "_from_model_config": true,
+  "transformers_version": "4.46.0.dev0"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:549a8cb8ab5e54e1036faab7620e1783038719ea894c4ec2d9912b2cd143ed05
 size 182780024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a056cc03312bbb395c0c1ed80061e8dabea55d05697ce382a8b113afc6fc8bfc
 size 182780024