Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

.DS_Store +0 -0
config.json +13 -10
generation_config.json +3 -2
model-00001-of-00004-001.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004-003.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors +3 -0
model.safetensors.index.json +298 -0
run.py +248 -0
special_tokens_map.json +3 -21
tokenizer.json +2 -2
tokenizer_config.json +71 -73

.DS_Store CHANGED Viewed

Binary files a/.DS_Store and b/.DS_Store differ

config.json CHANGED Viewed

@@ -1,36 +1,39 @@
 {
-  "_attn_implementation_autoset": true,
-  "_name_or_path": "NousResearch/Hermes-3-Llama-3.2-3B",
   "architectures": [
     "LlamaForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "bos_token_id": 128000,
-  "eos_token_id": 128039,
   "head_dim": 128,
   "hidden_act": "silu",
-  "hidden_size": 3072,
   "initializer_range": 0.02,
-  "intermediate_size": 8192,
   "max_position_embeddings": 131072,
   "mlp_bias": false,
   "model_type": "llama",
-  "num_attention_heads": 24,
-  "num_hidden_layers": 28,
   "num_key_value_heads": 8,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-05,
   "rope_scaling": {
-    "factor": 32.0,
     "high_freq_factor": 4.0,
     "low_freq_factor": 1.0,
     "original_max_position_embeddings": 8192,
     "rope_type": "llama3"
   },
   "rope_theta": 500000.0,
-  "tie_word_embeddings": true,
-  "transformers_version": "4.46.3",
   "use_cache": true,
   "vocab_size": 128256
 }

 {
+  "_name_or_path": "unsloth/meta-llama-3.1-8b-instruct-bnb-4bit",
   "architectures": [
     "LlamaForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "bos_token_id": 128000,
+  "eos_token_id": 128009,
   "head_dim": 128,
   "hidden_act": "silu",
+  "hidden_size": 4096,
   "initializer_range": 0.02,
+  "intermediate_size": 14336,
   "max_position_embeddings": 131072,
   "mlp_bias": false,
   "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
   "num_key_value_heads": 8,
+  "pad_token_id": 128004,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-05,
   "rope_scaling": {
+    "factor": 8.0,
     "high_freq_factor": 4.0,
     "low_freq_factor": 1.0,
     "original_max_position_embeddings": 8192,
     "rope_type": "llama3"
   },
   "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.48.3",
+  "unsloth_fixed": true,
+  "unsloth_version": "2025.2.15",
   "use_cache": true,
   "vocab_size": 128256
 }

generation_config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "_from_model_config": true,
   "bos_token_id": 128000,
   "do_sample": true,
   "eos_token_id": [
@@ -7,7 +6,9 @@
     128008,
     128009
   ],
   "temperature": 0.6,
   "top_p": 0.9,
-  "transformers_version": "4.46.3"
 }

 {
   "bos_token_id": 128000,
   "do_sample": true,
   "eos_token_id": [
     128008,
     128009
   ],
+  "max_length": 131072,
+  "pad_token_id": 128004,
   "temperature": 0.6,
   "top_p": 0.9,
+  "transformers_version": "4.48.3"
 }

model-00001-of-00004-001.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4684ad3a95c24998074655277123ac9044157e57264952bd30e54349ce45410
+size 4976698672

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e38eb0479a6c5f87ec4eeb80dbf2aa8c0e32ef482eeab399051f91f4ec76b2e1
+size 4999802720

model-00003-of-00004-003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1b40587b9a5aa515b1c23e1e14e2d17a4b58d6f5975f2370b7b8be48d34d748
+size 4915916176

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ede1930dfb28e673704b9ee8ed94d63c0a34ea6c79cd2cff60ce676d57197038
+size 1168138808

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e38eb0479a6c5f87ec4eeb80dbf2aa8c0e32ef482eeab399051f91f4ec76b2e1
+size 4999802720

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "metadata": {
+    "total_size": 16060522496
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors"
+  }
+}

run.py ADDED Viewed

	@@ -0,0 +1,248 @@

+from datasets import load_dataset, concatenate_datasets
+from transformers import TrainingArguments, TextStreamer
+from trl import SFTTrainer
+from unsloth.chat_templates import get_chat_template
+from unsloth import FastLanguageModel, is_bfloat16_supported
+# ###############################################################################
+# # 1. Load/Initialize Model and Tokenizer
+# ###############################################################################
+# max_seq_length = 2048
+# model_name = "unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit"
+# model, tokenizer = FastLanguageModel.from_pretrained(
+#     model_name=model_name,
+#     max_seq_length=max_seq_length,
+#     load_in_4bit=True,
+#     dtype=None,
+# )
+# model = FastLanguageModel.get_peft_model(
+#     model,
+#     r=16,
+#     lora_alpha=16,
+#     lora_dropout=0,
+#     target_modules=[
+#         "q_proj", "k_proj", "v_proj", "up_proj", "down_proj",
+#         "o_proj", "gate_proj"
+#     ],
+#     use_rslora=True,
+#     use_gradient_checkpointing="unsloth"
+# )
+# # Prepare the tokenizer for "chatml" format
+# tokenizer = get_chat_template(
+#     tokenizer,
+#     mapping={"role": "from", "content": "value", "user": "human", "assistant": "gpt"},
+#     chat_template="chatml",
+# )
+# ###############################################################################
+# # 2. Dataset Loading and Caching
+# ###############################################################################
+# # The user’s custom function to apply chat template:
+# def apply_template(examples):
+#     messages_batch = examples["conversations"]
+#     texts = []
+#     for message in messages_batch:
+#         text = tokenizer.apply_chat_template(
+#             message,
+#             tokenize=False,
+#             add_generation_prompt=False
+#         )
+#         texts.append(text)
+#     return {"text": texts}
+# def apply_template2(examples):
+#     import json
+#     conversation_batch = examples["conversation"]
+#     tools_batch = examples["tools"]
+#     texts = []
+#     for i, conversation_json_str in enumerate(conversation_batch):
+#         # 1) Load conversation & tools:
+#         thread = json.loads(conversation_json_str)
+#         tools_data = json.loads(tools_batch[i])
+#         # 2) Convert "arguments" to "parameters"
+#         for tool in tools_data:
+#             if "arguments" in tool:
+#                 tool["parameters"] = tool["arguments"]
+#         # 3) Create system prompt
+#         system_prompt = {
+#             "from": "system",
+#             "value": (
+#                 "You are a function calling AI model. You are provided with "
+#                 "function signatures within <tools> </tools> XML tags. Don't make "
+#                 "assumptions about what values to plug into functions.\n"
+#                 f"<tools>{json.dumps(tools_data)}</tools>"
+#             )
+#         }
+#         # 4) Build new conversation
+#         clean_thread = [system_prompt]
+#         for msg in thread:
+#             # Possibly rename "role": "tool call" to something else
+#             if msg["role"] == "tool call":
+#                 msg["role"] = "gtp"
+#             # The code below ensures "value" is <tool_call> ... </tool_call>
+#             if not isinstance(msg, dict):
+#                 # If it's not a dict, forcibly convert to dict
+#                 item = json.dumps({"type":"function", "function": msg['content']})
+#                 clean_thread.append({
+#                     "from": msg["role"],
+#                     "value": f"<tool_call>{item}</tool_call>"
+#                 })
+#             else:
+#                 item = json.dumps({"type":"function", "function": msg['content']})
+#                 clean_thread.append({
+#                     "from": msg["role"],
+#                     "value": f"<tool_call>{item}</tool_call>"
+#                 })
+#         # 6) PASS THE LIST (NOT the JSON string) to apply_chat_template
+#         text = tokenizer.apply_chat_template(
+#             clean_thread,
+#             tokenize=False,
+#             add_generation_prompt=False
+#         )
+#         texts.append(text)
+#     return {"text": texts}
+# tool_intro = "You are a function calling AI model. You are provided with function signatures within <tools> </tools> XML tags. You may call one or more functions to assist with the user query. Don't make assumptions about what values to plug into functions."
+# # If you want a local cache file, specify cache_file_name
+# dataset_1 = load_dataset(
+#     "interstellarninja/tool-calls-sharegpt",
+#     split="train",
+# )
+# # Load second dataset
+# dataset_2 = load_dataset(
+#     "interstellarninja/tool-calls-multiturn",
+#     split="train",
+# )
+# dataset_3 = load_dataset(
+#     "BitAgent/tool_calling",
+#     split="train",
+# )
+# dataset_1 = dataset_1.map(apply_template, batched=True)
+# dataset_2 = dataset_2.map(apply_template, batched=True)
+# dataset_3 = dataset_3.map(apply_template2, batched=True)
+# # Concatenate both datasets
+# dataset = concatenate_datasets([dataset_1, dataset_2, dataset_3])
+# ###############################################################################
+# # 3. SFTTrainer and Training Arguments (with checkpointing)
+# ###############################################################################
+# training_args = TrainingArguments(
+#     learning_rate=3e-4,
+#     lr_scheduler_type="linear",
+#     per_device_train_batch_size=8,
+#     gradient_accumulation_steps=2,
+#     num_train_epochs=1,
+#     fp16=not is_bfloat16_supported(),
+#     bf16=is_bfloat16_supported(),
+#     logging_steps=1,
+#     optim="adamw_8bit",
+#     weight_decay=0.01,
+#     warmup_steps=10,
+#     output_dir="drive/MyDrive/Ribo/model-checkpoints",
+#     seed=0,
+#     report_to="none",
+# )
+# trainer = SFTTrainer(
+#     model=model,
+#     tokenizer=tokenizer,
+#     train_dataset=dataset,
+#     dataset_text_field="text",
+#     max_seq_length=max_seq_length,
+#     dataset_num_proc=2,
+#     packing=True,
+#     args=training_args,
+# )
+# ###############################################################################
+# # 4. Train and Save Checkpoints
+# ###############################################################################
+# trainer.train()
+# # After every `save_steps` steps, a checkpoint is saved in `output/checkpoint-*`.
+# # You can resume training from there by setting `resume_from_checkpoint`.
+# ###############################################################################
+# # 5. Convert to Inference Model
+# ###############################################################################
+# model = FastLanguageModel.for_inference(model)
+# ###############################################################################
+# # 7. Save & Push Final Merged Model
+# ###############################################################################
+# # Save model merged (16-bit) locally
+# model.save_pretrained_merged(
+#     "drive/MyDrive/Ribo/model",
+#     tokenizer,
+#     save_method="merged_16bit"
+# )
+model, tokenizer = FastLanguageModel.from_pretrained("./")
+###############################################################################
+# 6. Example Inference with TextStreamer
+###############################################################################
+messages = [
+    {
+      "from": "system",
+      "value": """
+Available tools:
+[
+  {
+    "type": "function",
+    "function": {
+      "name": "get_current_date",
+      "description": "Returns the current date in the format specified",
+      "parameters": {
+          "type": "object",
+          "required": ["format"],
+          "properties": {
+            "format": {
+              "type": "string",
+              "description": "will format the date in the format specified MM/DD/YY or similar"
+            }
+          }
+      }
+    }
+  }
+]
+"""
+    },
+    {"from": "human", "value": "What is the current date?"},
+]
+formatted_text = tokenizer.apply_chat_template(
+    messages,
+    tokenize=True,
+    add_generation_prompt=True,
+    return_tensors="pt",
+)
+# If your GPU has limited memory, you might need smaller max_new_tokens
+# or streaming logic
+text_streamer = TextStreamer(tokenizer)
+output = model.generate(
+    input_ids=formatted_text["input_ids"],
+    attention_mask=formatted_text["attention_mask"],
+    streamer=text_streamer,
+    max_new_tokens=4096,
+    use_cache=True
+)

special_tokens_map.json CHANGED Viewed

@@ -1,23 +1,5 @@
 {
-  "bos_token": {
-    "content": "<|begin_of_text|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "<|im_end|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<|end_of_text|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
+  "bos_token": "<|begin_of_text|>",
+  "eos_token": "<|im_end|>",
+  "pad_token": "<|finetune_right_pad_id|>"
 }

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f908f9b84390fd12c6d0c356765257846c53f60bf472ff4996a440a1e230373
-size 17209403

 version https://git-lfs.github.com/spec/v1
+oid sha256:a113717b4505b4f56b3bc1032540fa90b686c05b875e25bac0e1825441f38984
+size 17209920

tokenizer_config.json CHANGED Viewed

@@ -17,20 +17,20 @@
       "special": true
     },
     "128002": {
-      "content": "<tool_call>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128003": {
-      "content": "<tool_response>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128004": {
       "content": "<|finetune_right_pad_id|>",
@@ -73,7 +73,7 @@
       "special": true
     },
     "128009": {
-      "content": "<|eot_id|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -89,231 +89,231 @@
       "special": true
     },
     "128011": {
-      "content": "<tools>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128012": {
-      "content": "</tools>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128013": {
-      "content": "</tool_call>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128014": {
-      "content": "</tool_response>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128015": {
-      "content": "<schema>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128016": {
-      "content": "</schema>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128017": {
-      "content": "<scratch_pad>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128018": {
-      "content": "</scratch_pad>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128019": {
-      "content": "<SCRATCHPAD>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128020": {
-      "content": "</SCRATCHPAD>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128021": {
-      "content": "<REASONING>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128022": {
-      "content": "</REASONING>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128023": {
-      "content": "<INNER_MONOLOGUE>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128024": {
-      "content": "</INNER_MONOLOGUE>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128025": {
-      "content": "<PLAN>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128026": {
-      "content": "</PLAN>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128027": {
-      "content": "<EXECUTION>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128028": {
-      "content": "</EXECUTION>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128029": {
-      "content": "<REFLECTION>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128030": {
-      "content": "</REFLECTION>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128031": {
-      "content": "<THINKING>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128032": {
-      "content": "</THINKING>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128033": {
-      "content": "<SOLUTION>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128034": {
-      "content": "</SOLUTION>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128035": {
-      "content": "<EXPLANATION>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128036": {
-      "content": "</EXPLANATION>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128037": {
-      "content": "<UNIT_TEST>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128038": {
-      "content": "</UNIT_TEST>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128039": {
-      "content": "<|im_end|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -321,12 +321,12 @@
       "special": true
     },
     "128040": {
-      "content": "<|im_start|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "128041": {
       "content": "<|reserved_special_token_33|>",
@@ -2050,14 +2050,12 @@
     }
   },
   "bos_token": "<|begin_of_text|>",
-  "chat_template": "{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
-  "clean_up_tokenization_spaces": true,
   "eos_token": "<|im_end|>",
-  "model_input_names": [
-    "input_ids",
-    "attention_mask"
-  ],
-  "model_max_length": 131072,
-  "pad_token": "<|end_of_text|>",
-  "tokenizer_class": "PreTrainedTokenizerFast"
 }

       "special": true
     },
     "128002": {
+      "content": "<|reserved_special_token_0|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128003": {
+      "content": "<|reserved_special_token_1|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128004": {
       "content": "<|finetune_right_pad_id|>",
       "special": true
     },
     "128009": {
+      "content": "<|im_end|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     },
     "128011": {
+      "content": "<|reserved_special_token_3|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128012": {
+      "content": "<|reserved_special_token_4|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128013": {
+      "content": "<|reserved_special_token_5|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128014": {
+      "content": "<|reserved_special_token_6|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128015": {
+      "content": "<|reserved_special_token_7|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128016": {
+      "content": "<|reserved_special_token_8|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128017": {
+      "content": "<|reserved_special_token_9|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128018": {
+      "content": "<|reserved_special_token_10|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128019": {
+      "content": "<|reserved_special_token_11|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128020": {
+      "content": "<|reserved_special_token_12|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128021": {
+      "content": "<|reserved_special_token_13|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128022": {
+      "content": "<|reserved_special_token_14|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128023": {
+      "content": "<|reserved_special_token_15|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128024": {
+      "content": "<|reserved_special_token_16|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128025": {
+      "content": "<|reserved_special_token_17|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128026": {
+      "content": "<|reserved_special_token_18|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128027": {
+      "content": "<|reserved_special_token_19|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128028": {
+      "content": "<|reserved_special_token_20|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128029": {
+      "content": "<|reserved_special_token_21|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128030": {
+      "content": "<|reserved_special_token_22|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128031": {
+      "content": "<|reserved_special_token_23|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128032": {
+      "content": "<|reserved_special_token_24|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128033": {
+      "content": "<|reserved_special_token_25|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128034": {
+      "content": "<|reserved_special_token_26|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128035": {
+      "content": "<|reserved_special_token_27|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128036": {
+      "content": "<|reserved_special_token_28|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128037": {
+      "content": "<|reserved_special_token_29|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128038": {
+      "content": "<|reserved_special_token_30|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128039": {
+      "content": "<|reserved_special_token_31|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     },
     "128040": {
+      "content": "<|reserved_special_token_32|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "128041": {
       "content": "<|reserved_special_token_33|>",
     }
   },
   "bos_token": "<|begin_of_text|>",
+  "chat_template": "{% if 'role' in messages[0] %}{% for message in messages %}{% if message['role'] == 'user' %}{{'<|im_start|>user\n' + message['content'] + '<|im_end|>\n'}}{% elif message['role'] == 'assistant' %}{{'<|im_start|>assistant\n' + message['content'] + '<|im_end|>\n' }}{% else %}{{ '<|im_start|>system\n' + message['content'] + '<|im_end|>\n' }}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}{% else %}{% for message in messages %}{% if message['from'] == 'human' %}{{'<|im_start|>user\n' + message['value'] + '<|im_end|>\n'}}{% elif message['from'] == 'gpt' %}{{'<|im_start|>assistant\n' + message['value'] + '<|im_end|>\n' }}{% else %}{{ '<|im_start|>system\n' + message['value'] + '<|im_end|>\n' }}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}{% endif %}",
+  "clean_up_tokenization_spaces": false,
   "eos_token": "<|im_end|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|finetune_right_pad_id|>",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": null
 }