copy snapshot bb8c23be2 from checkpoint itazap/blt-1b

Browse files

Files changed (4) hide show

.gitattributes +35 -0
config.json +99 -0
model.safetensors +3 -0
tokenizer_config.json +11 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

config.json ADDED Viewed

	@@ -0,0 +1,99 @@

+{
+  "model_type": "blt",
+  "vocab_size": 260,
+  "max_position_embeddings": 4096,
+  "patch_in_forward": true,
+  "realtime_patching": true,
+  "patching_mode": "entropy",
+  "patch_size": 4,
+  "patching_threshold": 1.335442066192627,
+  "patching_threshold_add": null,
+  "max_patch_length": null,
+  "patching_batch_size": 1,
+  "patching_device": "cuda",
+  "monotonicity": false,
+  "cross_attn_k": 2,
+  "encoder_hash_byte_group_size": [
+    3,
+    4,
+    5,
+    6,
+    7,
+    8
+  ],
+  "encoder_hash_byte_group_vocab": 500002,
+  "encoder_hash_byte_group_nb_functions": 1,
+  "pm_size": 0,
+  "patcher_config": {
+    "vocab_size": 260,
+    "hidden_size": 768,
+    "num_hidden_layers": 14,
+    "num_attention_heads": 12,
+    "num_key_value_heads": null,
+    "max_position_embeddings": 8192,
+    "norm_eps": 1e-05,
+    "dropout": 0.0,
+    "rope_theta": 10000.0,
+    "attn_impl": "xformers",
+    "attn_bias_type": "local_block_causal",
+    "intermediate_size": 2048
+  },
+  "encoder_config": {
+    "vocab_size": 260,
+    "cross_attn_all_layers": false,
+    "cross_attn_k": 2,
+    "hidden_size_global": 2048,
+    "pm_size": 0,
+    "hidden_size": 1024,
+    "num_attention_heads": 16,
+    "num_key_value_heads": null,
+    "num_hidden_layers": 1,
+    "norm_eps": 1e-05,
+    "dropout": 0.0,
+    "max_position_embeddings": 24576,
+    "rope_theta": 500000.0,
+    "rope_scaling": {
+      "rope_type": "default"
+    },
+    "hidden_act": "silu",
+    "_attn_implementation": "sdpa",
+    "intermediate_size": 2816
+  },
+  "decoder_config": {
+    "vocab_size": 260,
+    "cross_attn_all_layers": true,
+    "cross_attn_k": 2,
+    "hidden_size_global": 2048,
+    "hidden_size": 1024,
+    "num_attention_heads": 16,
+    "num_key_value_heads": null,
+    "num_hidden_layers": 9,
+    "norm_eps": 1e-05,
+    "dropout": 0.0,
+    "max_position_embeddings": 24576,
+    "rope_theta": 500000.0,
+    "rope_scaling": {
+      "rope_type": "default"
+    },
+    "hidden_act": "silu",
+    "_attn_implementation": "sdpa",
+    "intermediate_size": 2816
+  },
+  "global_config": {
+    "hidden_size": 2048,
+    "num_attention_heads": 16,
+    "num_key_value_heads": null,
+    "num_hidden_layers": 25,
+    "norm_eps": 1e-05,
+    "dropout": 0.0,
+    "max_position_embeddings": 4096,
+    "rope_theta": 500000.0,
+    "rope_scaling": {
+      "rope_type": "default"
+    },
+    "hidden_act": "silu",
+    "_attn_implementation": "sdpa",
+    "intermediate_size": 5632
+  },
+  "tie_word_embeddings": false
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b42ece52607eacbb4e538c695b137a53d38ea68dcc4a03dd825a9656f476162d
+size 9266850624

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "tokenizer_class": "BLTTokenizer",
+  "vocab_size": 260,
+  "model_max_length": 1024,
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}