Upload task output 1bb7f5eb-6f15-4cc7-904c-cbb98a510983

Browse files

Files changed (13) hide show

added_tokens.json +13 -0
config.json +135 -0
generation_config.json +7 -0
loss.txt +1 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +298 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +132 -0
trainer_state.json +615 -0
training_args.bin +3 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "<|assistant|>": 32001,
+  "<|endoftext|>": 32000,
+  "<|end|>": 32007,
+  "<|placeholder1|>": 32002,
+  "<|placeholder2|>": 32003,
+  "<|placeholder3|>": 32004,
+  "<|placeholder4|>": 32005,
+  "<|placeholder5|>": 32008,
+  "<|placeholder6|>": 32009,
+  "<|system|>": 32006,
+  "<|user|>": 32010
+}

config.json ADDED Viewed

	@@ -0,0 +1,135 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 32000,
+  "head_dim": 96,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "original_max_position_embeddings": 4096,
+  "pad_token_id": 32000,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "attention_factor": 32.0,
+    "factor": 32.0,
+    "long_factor": [
+      1.0800000429153442,
+      1.1100000143051147,
+      1.1399999856948853,
+      1.340000033378601,
+      1.5899999141693115,
+      1.600000023841858,
+      1.6200000047683716,
+      2.620000123977661,
+      3.2300000190734863,
+      3.2300000190734863,
+      4.789999961853027,
+      7.400000095367432,
+      7.700000286102295,
+      9.09000015258789,
+      12.199999809265137,
+      17.670000076293945,
+      24.46000099182129,
+      28.57000160217285,
+      30.420001983642578,
+      30.840002059936523,
+      32.590003967285156,
+      32.93000411987305,
+      42.320003509521484,
+      44.96000289916992,
+      50.340003967285156,
+      50.45000457763672,
+      57.55000305175781,
+      57.93000411987305,
+      58.21000289916992,
+      60.1400032043457,
+      62.61000442504883,
+      62.62000274658203,
+      62.71000289916992,
+      63.1400032043457,
+      63.1400032043457,
+      63.77000427246094,
+      63.93000411987305,
+      63.96000289916992,
+      63.970001220703125,
+      64.02999877929688,
+      64.06999969482422,
+      64.08000183105469,
+      64.12000274658203,
+      64.41000366210938,
+      64.4800033569336,
+      64.51000213623047,
+      64.52999877929688,
+      64.83999633789062
+    ],
+    "rope_type": "longrope",
+    "short_factor": [
+      1.0,
+      1.0199999809265137,
+      1.0299999713897705,
+      1.0299999713897705,
+      1.0499999523162842,
+      1.0499999523162842,
+      1.0499999523162842,
+      1.0499999523162842,
+      1.0499999523162842,
+      1.0699999332427979,
+      1.0999999046325684,
+      1.1099998950958252,
+      1.1599998474121094,
+      1.1599998474121094,
+      1.1699998378753662,
+      1.2899998426437378,
+      1.339999794960022,
+      1.679999828338623,
+      1.7899998426437378,
+      1.8199998140335083,
+      1.8499997854232788,
+      1.8799997568130493,
+      1.9099997282028198,
+      1.9399996995925903,
+      1.9899996519088745,
+      2.0199997425079346,
+      2.0199997425079346,
+      2.0199997425079346,
+      2.0199997425079346,
+      2.0199997425079346,
+      2.0199997425079346,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0299997329711914,
+      2.0799996852874756,
+      2.0899996757507324,
+      2.189999580383301,
+      2.2199995517730713,
+      2.5899994373321533,
+      2.729999542236328,
+      2.749999523162842,
+      2.8399994373321533
+    ]
+  },
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3",
+  "use_cache": false,
+  "vocab_size": 32064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 32000,
+  "pad_token_id": 32000,
+  "transformers_version": "4.51.3"
+}

loss.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ 419,no_eval

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c06e4d9ef0079babfe5495ac87b368c1ac69fa74896dfe69d6f5c2dd65edd003
+size 4991370968

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:188c1cbda6c63019c531aef7dfbc42cd9a1f1e625e7f531d5247e8b6723f16a1
+size 2650821816

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "metadata": {
+    "total_size": 7642159104
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|placeholder6|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": true,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,132 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "32000": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32002": {
+      "content": "<|placeholder1|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32003": {
+      "content": "<|placeholder2|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32004": {
+      "content": "<|placeholder3|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32005": {
+      "content": "<|placeholder4|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32006": {
+      "content": "<|system|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32007": {
+      "content": "<|end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32008": {
+      "content": "<|placeholder5|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32009": {
+      "content": "<|placeholder6|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32010": {
+      "content": "<|user|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}{% if message['role'] == 'system' and message['content'] %}{{'<|system|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'user' %}{{'<|user|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'assistant' %}{{'<|assistant|>\n' + message['content'] + '<|end|>\n'}}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|assistant|>\n' }}{% else %}{{ eos_token }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 131072,
+  "pad_token": "<|placeholder6|>",
+  "padding_side": "left",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,615 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.17656974294142436,
+  "eval_steps": 500,
+  "global_step": 419,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002107037505267594,
+      "grad_norm": Infinity,
+      "learning_rate": 1.0425224359183675e-05,
+      "loss": 9.2528,
+      "step": 5
+    },
+    {
+      "epoch": 0.004214075010535188,
+      "grad_norm": Infinity,
+      "learning_rate": 2.3456754808163266e-05,
+      "loss": 9.0876,
+      "step": 10
+    },
+    {
+      "epoch": 0.006321112515802781,
+      "grad_norm": Infinity,
+      "learning_rate": 3.6488285257142865e-05,
+      "loss": 9.071,
+      "step": 15
+    },
+    {
+      "epoch": 0.008428150021070375,
+      "grad_norm": Infinity,
+      "learning_rate": 4.951981570612245e-05,
+      "loss": 9.0988,
+      "step": 20
+    },
+    {
+      "epoch": 0.01053518752633797,
+      "grad_norm": Infinity,
+      "learning_rate": 6.255134615510205e-05,
+      "loss": 9.1175,
+      "step": 25
+    },
+    {
+      "epoch": 0.012642225031605562,
+      "grad_norm": Infinity,
+      "learning_rate": 7.558287660408165e-05,
+      "loss": 9.1526,
+      "step": 30
+    },
+    {
+      "epoch": 0.014749262536873156,
+      "grad_norm": Infinity,
+      "learning_rate": 8.861440705306124e-05,
+      "loss": 9.009,
+      "step": 35
+    },
+    {
+      "epoch": 0.01685630004214075,
+      "grad_norm": Infinity,
+      "learning_rate": 9.122065932117784e-05,
+      "loss": 9.2034,
+      "step": 40
+    },
+    {
+      "epoch": 0.018963337547408345,
+      "grad_norm": Infinity,
+      "learning_rate": 9.122044067089586e-05,
+      "loss": 9.0025,
+      "step": 45
+    },
+    {
+      "epoch": 0.02107037505267594,
+      "grad_norm": Infinity,
+      "learning_rate": 9.122005382923049e-05,
+      "loss": 9.0069,
+      "step": 50
+    },
+    {
+      "epoch": 0.023177412557943533,
+      "grad_norm": Infinity,
+      "learning_rate": 9.121949879808376e-05,
+      "loss": 8.9929,
+      "step": 55
+    },
+    {
+      "epoch": 0.025284450063211124,
+      "grad_norm": Infinity,
+      "learning_rate": 9.121877558018465e-05,
+      "loss": 8.8893,
+      "step": 60
+    },
+    {
+      "epoch": 0.027391487568478718,
+      "grad_norm": Infinity,
+      "learning_rate": 9.121788417908908e-05,
+      "loss": 9.0498,
+      "step": 65
+    },
+    {
+      "epoch": 0.029498525073746312,
+      "grad_norm": Infinity,
+      "learning_rate": 9.121682459917987e-05,
+      "loss": 9.1409,
+      "step": 70
+    },
+    {
+      "epoch": 0.0316055625790139,
+      "grad_norm": Infinity,
+      "learning_rate": 9.121559684566679e-05,
+      "loss": 9.3385,
+      "step": 75
+    },
+    {
+      "epoch": 0.0337126000842815,
+      "grad_norm": Infinity,
+      "learning_rate": 9.121420092458643e-05,
+      "loss": 9.0298,
+      "step": 80
+    },
+    {
+      "epoch": 0.03581963758954909,
+      "grad_norm": Infinity,
+      "learning_rate": 9.121263684280228e-05,
+      "loss": 9.0127,
+      "step": 85
+    },
+    {
+      "epoch": 0.03792667509481669,
+      "grad_norm": Infinity,
+      "learning_rate": 9.121090460800458e-05,
+      "loss": 9.0721,
+      "step": 90
+    },
+    {
+      "epoch": 0.04003371260008428,
+      "grad_norm": Infinity,
+      "learning_rate": 9.120900422871043e-05,
+      "loss": 9.1312,
+      "step": 95
+    },
+    {
+      "epoch": 0.04214075010535188,
+      "grad_norm": Infinity,
+      "learning_rate": 9.120693571426357e-05,
+      "loss": 9.114,
+      "step": 100
+    },
+    {
+      "epoch": 0.04424778761061947,
+      "grad_norm": Infinity,
+      "learning_rate": 9.12046990748345e-05,
+      "loss": 9.1711,
+      "step": 105
+    },
+    {
+      "epoch": 0.046354825115887066,
+      "grad_norm": Infinity,
+      "learning_rate": 9.120229432142029e-05,
+      "loss": 9.1641,
+      "step": 110
+    },
+    {
+      "epoch": 0.04846186262115466,
+      "grad_norm": Infinity,
+      "learning_rate": 9.119972146584466e-05,
+      "loss": 9.2252,
+      "step": 115
+    },
+    {
+      "epoch": 0.05056890012642225,
+      "grad_norm": Infinity,
+      "learning_rate": 9.119698052075782e-05,
+      "loss": 9.0076,
+      "step": 120
+    },
+    {
+      "epoch": 0.052675937631689845,
+      "grad_norm": Infinity,
+      "learning_rate": 9.119407149963643e-05,
+      "loss": 9.0771,
+      "step": 125
+    },
+    {
+      "epoch": 0.054782975136957436,
+      "grad_norm": Infinity,
+      "learning_rate": 9.11909944167836e-05,
+      "loss": 9.262,
+      "step": 130
+    },
+    {
+      "epoch": 0.056890012642225034,
+      "grad_norm": Infinity,
+      "learning_rate": 9.118774928732871e-05,
+      "loss": 9.0539,
+      "step": 135
+    },
+    {
+      "epoch": 0.058997050147492625,
+      "grad_norm": Infinity,
+      "learning_rate": 9.118433612722738e-05,
+      "loss": 9.0142,
+      "step": 140
+    },
+    {
+      "epoch": 0.06110408765276022,
+      "grad_norm": Infinity,
+      "learning_rate": 9.118075495326146e-05,
+      "loss": 9.1751,
+      "step": 145
+    },
+    {
+      "epoch": 0.0632111251580278,
+      "grad_norm": Infinity,
+      "learning_rate": 9.117700578303887e-05,
+      "loss": 8.805,
+      "step": 150
+    },
+    {
+      "epoch": 0.0653181626632954,
+      "grad_norm": Infinity,
+      "learning_rate": 9.117308863499353e-05,
+      "loss": 9.0702,
+      "step": 155
+    },
+    {
+      "epoch": 0.067425200168563,
+      "grad_norm": Infinity,
+      "learning_rate": 9.116900352838523e-05,
+      "loss": 9.073,
+      "step": 160
+    },
+    {
+      "epoch": 0.0695322376738306,
+      "grad_norm": Infinity,
+      "learning_rate": 9.116475048329966e-05,
+      "loss": 9.2132,
+      "step": 165
+    },
+    {
+      "epoch": 0.07163927517909818,
+      "grad_norm": Infinity,
+      "learning_rate": 9.116032952064818e-05,
+      "loss": 9.1914,
+      "step": 170
+    },
+    {
+      "epoch": 0.07374631268436578,
+      "grad_norm": Infinity,
+      "learning_rate": 9.115574066216778e-05,
+      "loss": 9.0857,
+      "step": 175
+    },
+    {
+      "epoch": 0.07585335018963338,
+      "grad_norm": Infinity,
+      "learning_rate": 9.115098393042094e-05,
+      "loss": 9.3902,
+      "step": 180
+    },
+    {
+      "epoch": 0.07796038769490098,
+      "grad_norm": Infinity,
+      "learning_rate": 9.114605934879554e-05,
+      "loss": 9.1069,
+      "step": 185
+    },
+    {
+      "epoch": 0.08006742520016856,
+      "grad_norm": Infinity,
+      "learning_rate": 9.11409669415048e-05,
+      "loss": 9.0304,
+      "step": 190
+    },
+    {
+      "epoch": 0.08217446270543616,
+      "grad_norm": Infinity,
+      "learning_rate": 9.113570673358704e-05,
+      "loss": 8.8525,
+      "step": 195
+    },
+    {
+      "epoch": 0.08428150021070376,
+      "grad_norm": Infinity,
+      "learning_rate": 9.113027875090565e-05,
+      "loss": 9.3074,
+      "step": 200
+    },
+    {
+      "epoch": 0.08638853771597134,
+      "grad_norm": Infinity,
+      "learning_rate": 9.112468302014893e-05,
+      "loss": 9.1235,
+      "step": 205
+    },
+    {
+      "epoch": 0.08849557522123894,
+      "grad_norm": Infinity,
+      "learning_rate": 9.111891956882998e-05,
+      "loss": 9.0219,
+      "step": 210
+    },
+    {
+      "epoch": 0.09060261272650653,
+      "grad_norm": Infinity,
+      "learning_rate": 9.11129884252865e-05,
+      "loss": 9.1624,
+      "step": 215
+    },
+    {
+      "epoch": 0.09270965023177413,
+      "grad_norm": Infinity,
+      "learning_rate": 9.110688961868076e-05,
+      "loss": 9.0277,
+      "step": 220
+    },
+    {
+      "epoch": 0.09481668773704172,
+      "grad_norm": Infinity,
+      "learning_rate": 9.110062317899935e-05,
+      "loss": 9.0036,
+      "step": 225
+    },
+    {
+      "epoch": 0.09692372524230931,
+      "grad_norm": Infinity,
+      "learning_rate": 9.109418913705311e-05,
+      "loss": 9.0376,
+      "step": 230
+    },
+    {
+      "epoch": 0.09903076274757691,
+      "grad_norm": Infinity,
+      "learning_rate": 9.108758752447692e-05,
+      "loss": 9.1026,
+      "step": 235
+    },
+    {
+      "epoch": 0.1011378002528445,
+      "grad_norm": Infinity,
+      "learning_rate": 9.108081837372961e-05,
+      "loss": 9.2828,
+      "step": 240
+    },
+    {
+      "epoch": 0.10324483775811209,
+      "grad_norm": Infinity,
+      "learning_rate": 9.107388171809369e-05,
+      "loss": 9.1233,
+      "step": 245
+    },
+    {
+      "epoch": 0.10535187526337969,
+      "grad_norm": Infinity,
+      "learning_rate": 9.106677759167533e-05,
+      "loss": 9.2087,
+      "step": 250
+    },
+    {
+      "epoch": 0.10745891276864729,
+      "grad_norm": Infinity,
+      "learning_rate": 9.10595060294041e-05,
+      "loss": 9.0822,
+      "step": 255
+    },
+    {
+      "epoch": 0.10956595027391487,
+      "grad_norm": Infinity,
+      "learning_rate": 9.105206706703279e-05,
+      "loss": 9.0266,
+      "step": 260
+    },
+    {
+      "epoch": 0.11167298777918247,
+      "grad_norm": Infinity,
+      "learning_rate": 9.104446074113729e-05,
+      "loss": 9.0158,
+      "step": 265
+    },
+    {
+      "epoch": 0.11378002528445007,
+      "grad_norm": Infinity,
+      "learning_rate": 9.10366870891164e-05,
+      "loss": 9.1653,
+      "step": 270
+    },
+    {
+      "epoch": 0.11588706278971765,
+      "grad_norm": Infinity,
+      "learning_rate": 9.102874614919157e-05,
+      "loss": 9.1888,
+      "step": 275
+    },
+    {
+      "epoch": 0.11799410029498525,
+      "grad_norm": Infinity,
+      "learning_rate": 9.102063796040684e-05,
+      "loss": 9.1944,
+      "step": 280
+    },
+    {
+      "epoch": 0.12010113780025285,
+      "grad_norm": Infinity,
+      "learning_rate": 9.101236256262852e-05,
+      "loss": 8.8196,
+      "step": 285
+    },
+    {
+      "epoch": 0.12220817530552044,
+      "grad_norm": Infinity,
+      "learning_rate": 9.10039199965451e-05,
+      "loss": 9.1051,
+      "step": 290
+    },
+    {
+      "epoch": 0.12431521281078803,
+      "grad_norm": Infinity,
+      "learning_rate": 9.099531030366696e-05,
+      "loss": 9.0194,
+      "step": 295
+    },
+    {
+      "epoch": 0.1264222503160556,
+      "grad_norm": Infinity,
+      "learning_rate": 9.098653352632625e-05,
+      "loss": 9.0343,
+      "step": 300
+    },
+    {
+      "epoch": 0.12852928782132322,
+      "grad_norm": Infinity,
+      "learning_rate": 9.097758970767663e-05,
+      "loss": 9.0571,
+      "step": 305
+    },
+    {
+      "epoch": 0.1306363253265908,
+      "grad_norm": Infinity,
+      "learning_rate": 9.096847889169301e-05,
+      "loss": 9.1159,
+      "step": 310
+    },
+    {
+      "epoch": 0.13274336283185842,
+      "grad_norm": Infinity,
+      "learning_rate": 9.09592011231715e-05,
+      "loss": 9.3278,
+      "step": 315
+    },
+    {
+      "epoch": 0.134850400337126,
+      "grad_norm": Infinity,
+      "learning_rate": 9.0949756447729e-05,
+      "loss": 9.049,
+      "step": 320
+    },
+    {
+      "epoch": 0.1369574378423936,
+      "grad_norm": Infinity,
+      "learning_rate": 9.094014491180309e-05,
+      "loss": 9.053,
+      "step": 325
+    },
+    {
+      "epoch": 0.1390644753476612,
+      "grad_norm": Infinity,
+      "learning_rate": 9.093036656265176e-05,
+      "loss": 9.1193,
+      "step": 330
+    },
+    {
+      "epoch": 0.14117151285292878,
+      "grad_norm": Infinity,
+      "learning_rate": 9.092042144835316e-05,
+      "loss": 9.0794,
+      "step": 335
+    },
+    {
+      "epoch": 0.14327855035819637,
+      "grad_norm": Infinity,
+      "learning_rate": 9.091030961780546e-05,
+      "loss": 9.0032,
+      "step": 340
+    },
+    {
+      "epoch": 0.14538558786346398,
+      "grad_norm": Infinity,
+      "learning_rate": 9.090003112072649e-05,
+      "loss": 9.0861,
+      "step": 345
+    },
+    {
+      "epoch": 0.14749262536873156,
+      "grad_norm": Infinity,
+      "learning_rate": 9.088958600765355e-05,
+      "loss": 8.9942,
+      "step": 350
+    },
+    {
+      "epoch": 0.14959966287399915,
+      "grad_norm": Infinity,
+      "learning_rate": 9.087897432994316e-05,
+      "loss": 8.968,
+      "step": 355
+    },
+    {
+      "epoch": 0.15170670037926676,
+      "grad_norm": Infinity,
+      "learning_rate": 9.086819613977083e-05,
+      "loss": 9.1462,
+      "step": 360
+    },
+    {
+      "epoch": 0.15381373788453434,
+      "grad_norm": Infinity,
+      "learning_rate": 9.085725149013074e-05,
+      "loss": 8.8035,
+      "step": 365
+    },
+    {
+      "epoch": 0.15592077538980195,
+      "grad_norm": Infinity,
+      "learning_rate": 9.08461404348355e-05,
+      "loss": 9.0213,
+      "step": 370
+    },
+    {
+      "epoch": 0.15802781289506954,
+      "grad_norm": Infinity,
+      "learning_rate": 9.083486302851602e-05,
+      "loss": 9.1359,
+      "step": 375
+    },
+    {
+      "epoch": 0.16013485040033712,
+      "grad_norm": Infinity,
+      "learning_rate": 9.082341932662096e-05,
+      "loss": 9.1997,
+      "step": 380
+    },
+    {
+      "epoch": 0.16224188790560473,
+      "grad_norm": Infinity,
+      "learning_rate": 9.081180938541676e-05,
+      "loss": 8.9983,
+      "step": 385
+    },
+    {
+      "epoch": 0.16434892541087232,
+      "grad_norm": Infinity,
+      "learning_rate": 9.080003326198714e-05,
+      "loss": 9.2442,
+      "step": 390
+    },
+    {
+      "epoch": 0.1664559629161399,
+      "grad_norm": Infinity,
+      "learning_rate": 9.078809101423295e-05,
+      "loss": 9.283,
+      "step": 395
+    },
+    {
+      "epoch": 0.1685630004214075,
+      "grad_norm": Infinity,
+      "learning_rate": 9.07759827008718e-05,
+      "loss": 9.0873,
+      "step": 400
+    },
+    {
+      "epoch": 0.1706700379266751,
+      "grad_norm": Infinity,
+      "learning_rate": 9.076370838143787e-05,
+      "loss": 9.1848,
+      "step": 405
+    },
+    {
+      "epoch": 0.17277707543194268,
+      "grad_norm": Infinity,
+      "learning_rate": 9.07512681162815e-05,
+      "loss": 9.1581,
+      "step": 410
+    },
+    {
+      "epoch": 0.1748841129372103,
+      "grad_norm": Infinity,
+      "learning_rate": 9.073866196656897e-05,
+      "loss": 9.3075,
+      "step": 415
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 7119,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9.199842228845937e+17,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d61848344d261f7ee72ed40e543705d4c9b47355806f2308c7db674796a9a95
+size 5624