Upload task output 5846ca31-dcde-4604-917f-3e562a84c4c9

Browse files

Files changed (13) hide show

added_tokens.json +13 -0
config.json +138 -0
generation_config.json +11 -0
loss.txt +1 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +202 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +132 -0
trainer_state.json +1606 -0
training_args.bin +3 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "<|assistant|>": 32001,
+  "<|endoftext|>": 32000,
+  "<|end|>": 32007,
+  "<|placeholder1|>": 32002,
+  "<|placeholder2|>": 32003,
+  "<|placeholder3|>": 32004,
+  "<|placeholder4|>": 32005,
+  "<|placeholder5|>": 32008,
+  "<|placeholder6|>": 32009,
+  "<|system|>": 32006,
+  "<|user|>": 32010
+}

config.json ADDED Viewed

	@@ -0,0 +1,138 @@

+{
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "modeling_phi3.Phi3ForCausalLM"
+  },
+  "bos_token_id": 1,
+  "embd_pdrop": 0.0,
+  "eos_token_id": 32000,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 131072,
+  "model_type": "phi3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "original_max_position_embeddings": 4096,
+  "pad_token_id": 32000,
+  "partial_rotary_factor": 1.0,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "long_factor": [
+      1.0700000524520874,
+      1.1200000047683716,
+      1.149999976158142,
+      1.4199999570846558,
+      1.5699999332427979,
+      1.7999999523162842,
+      2.129999876022339,
+      2.129999876022339,
+      3.009999990463257,
+      5.910000324249268,
+      6.950000286102295,
+      9.070000648498535,
+      9.930000305175781,
+      10.710000038146973,
+      11.130000114440918,
+      14.609999656677246,
+      15.409998893737793,
+      19.809999465942383,
+      37.279998779296875,
+      38.279998779296875,
+      38.599998474121094,
+      40.12000274658203,
+      46.20000457763672,
+      50.940006256103516,
+      53.66000747680664,
+      54.9373893737793,
+      56.89738845825195,
+      57.28738784790039,
+      59.98738479614258,
+      60.86738586425781,
+      60.887386322021484,
+      61.71739196777344,
+      62.91739273071289,
+      62.957393646240234,
+      63.41739273071289,
+      63.8173942565918,
+      63.83739471435547,
+      63.897396087646484,
+      63.93739700317383,
+      64.06739807128906,
+      64.11434936523438,
+      64.12435150146484,
+      64.15435028076172,
+      64.19435119628906,
+      64.24435424804688,
+      64.57435607910156,
+      64.69000244140625,
+      64.76000213623047
+    ],
+    "short_factor": [
+      1.1,
+      1.1,
+      1.1,
+      1.3000000000000003,
+      1.3500000000000003,
+      1.3500000000000003,
+      1.4000000000000004,
+      1.5500000000000005,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.000000000000001,
+      2.0500000000000007,
+      2.0500000000000007,
+      2.0500000000000007,
+      2.0500000000000007,
+      2.0500000000000007,
+      2.0500000000000007,
+      2.1000000000000005,
+      2.1000000000000005,
+      2.1500000000000004,
+      2.25,
+      2.25,
+      2.25,
+      2.25,
+      2.25,
+      2.3999999999999995,
+      2.4499999999999993,
+      2.499999999999999,
+      2.6999999999999984,
+      2.6999999999999984,
+      2.7499999999999982,
+      2.799999999999998,
+      2.8999999999999977,
+      3.049999999999997
+    ],
+    "type": "longrope"
+  },
+  "rope_theta": 10000.0,
+  "sliding_window": 262144,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3",
+  "use_cache": false,
+  "vocab_size": 32064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": [
+    32000,
+    32001,
+    32007
+  ],
+  "pad_token_id": 32000,
+  "transformers_version": "4.51.3"
+}

loss.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ 1101,1.6452035903930664

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f30dfbd12cc5435a6a703c704915b534122531eb5dde67864909155adf975e8
+size 4972489328

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d03e7dacf17aea66a7be1fd65aa364a1ee422a0029d8bd024dfae1f6001cd7d
+size 2669692552

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,202 @@

+{
+  "metadata": {
+    "total_size": 7642159104
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,132 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "32000": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32002": {
+      "content": "<|placeholder1|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32003": {
+      "content": "<|placeholder2|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32004": {
+      "content": "<|placeholder3|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32005": {
+      "content": "<|placeholder4|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32006": {
+      "content": "<|system|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32007": {
+      "content": "<|end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32008": {
+      "content": "<|placeholder5|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32009": {
+      "content": "<|placeholder6|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32010": {
+      "content": "<|user|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}{% if message['role'] == 'system' %}{{'<|system|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'user' %}{{'<|user|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'assistant' %}{{'<|assistant|>\n' + message['content'] + '<|end|>\n'}}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|assistant|>\n' }}{% else %}{{ eos_token }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1606 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9990925589836661,
+  "eval_steps": 500,
+  "global_step": 1101,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004537205081669692,
+      "grad_norm": 1.46875,
+      "learning_rate": 1.6907951020408165e-05,
+      "loss": 2.0714,
+      "step": 5
+    },
+    {
+      "epoch": 0.009074410163339383,
+      "grad_norm": 0.921875,
+      "learning_rate": 3.804288979591837e-05,
+      "loss": 1.9914,
+      "step": 10
+    },
+    {
+      "epoch": 0.013611615245009074,
+      "grad_norm": 0.85546875,
+      "learning_rate": 5.917782857142858e-05,
+      "loss": 1.9559,
+      "step": 15
+    },
+    {
+      "epoch": 0.018148820326678767,
+      "grad_norm": 0.9453125,
+      "learning_rate": 8.031276734693878e-05,
+      "loss": 1.9009,
+      "step": 20
+    },
+    {
+      "epoch": 0.022686025408348458,
+      "grad_norm": 0.890625,
+      "learning_rate": 0.000101447706122449,
+      "loss": 1.8664,
+      "step": 25
+    },
+    {
+      "epoch": 0.02722323049001815,
+      "grad_norm": 0.703125,
+      "learning_rate": 0.0001225826448979592,
+      "loss": 1.9462,
+      "step": 30
+    },
+    {
+      "epoch": 0.03176043557168784,
+      "grad_norm": 0.75390625,
+      "learning_rate": 0.0001437175836734694,
+      "loss": 1.915,
+      "step": 35
+    },
+    {
+      "epoch": 0.036297640653357534,
+      "grad_norm": 0.6953125,
+      "learning_rate": 0.00014794416201860397,
+      "loss": 1.8992,
+      "step": 40
+    },
+    {
+      "epoch": 0.04083484573502722,
+      "grad_norm": 0.73046875,
+      "learning_rate": 0.00014794249880096695,
+      "loss": 1.9069,
+      "step": 45
+    },
+    {
+      "epoch": 0.045372050816696916,
+      "grad_norm": 0.69140625,
+      "learning_rate": 0.00014793955622586344,
+      "loss": 1.9164,
+      "step": 50
+    },
+    {
+      "epoch": 0.0499092558983666,
+      "grad_norm": 0.65234375,
+      "learning_rate": 0.00014793533436115207,
+      "loss": 1.8856,
+      "step": 55
+    },
+    {
+      "epoch": 0.0544464609800363,
+      "grad_norm": 0.6796875,
+      "learning_rate": 0.0001479298333041932,
+      "loss": 1.8771,
+      "step": 60
+    },
+    {
+      "epoch": 0.05898366606170599,
+      "grad_norm": 0.65234375,
+      "learning_rate": 0.00014792305318184665,
+      "loss": 1.8856,
+      "step": 65
+    },
+    {
+      "epoch": 0.06352087114337568,
+      "grad_norm": 0.66796875,
+      "learning_rate": 0.00014791499415046867,
+      "loss": 1.8609,
+      "step": 70
+    },
+    {
+      "epoch": 0.06805807622504537,
+      "grad_norm": 0.6796875,
+      "learning_rate": 0.00014790565639590848,
+      "loss": 1.937,
+      "step": 75
+    },
+    {
+      "epoch": 0.07259528130671507,
+      "grad_norm": 0.79296875,
+      "learning_rate": 0.00014789504013350388,
+      "loss": 1.9239,
+      "step": 80
+    },
+    {
+      "epoch": 0.07713248638838476,
+      "grad_norm": 0.6171875,
+      "learning_rate": 0.00014788314560807632,
+      "loss": 1.9156,
+      "step": 85
+    },
+    {
+      "epoch": 0.08166969147005444,
+      "grad_norm": 0.63671875,
+      "learning_rate": 0.00014786997309392523,
+      "loss": 1.9013,
+      "step": 90
+    },
+    {
+      "epoch": 0.08620689655172414,
+      "grad_norm": 0.6640625,
+      "learning_rate": 0.00014785552289482183,
+      "loss": 1.8661,
+      "step": 95
+    },
+    {
+      "epoch": 0.09074410163339383,
+      "grad_norm": 0.6328125,
+      "learning_rate": 0.00014783979534400182,
+      "loss": 1.8538,
+      "step": 100
+    },
+    {
+      "epoch": 0.09528130671506352,
+      "grad_norm": 0.625,
+      "learning_rate": 0.0001478227908041581,
+      "loss": 1.8926,
+      "step": 105
+    },
+    {
+      "epoch": 0.0998185117967332,
+      "grad_norm": 0.62890625,
+      "learning_rate": 0.00014780450966743198,
+      "loss": 1.8817,
+      "step": 110
+    },
+    {
+      "epoch": 0.10435571687840291,
+      "grad_norm": 0.60546875,
+      "learning_rate": 0.00014778495235540456,
+      "loss": 1.8889,
+      "step": 115
+    },
+    {
+      "epoch": 0.1088929219600726,
+      "grad_norm": 0.62109375,
+      "learning_rate": 0.00014776411931908664,
+      "loss": 1.8341,
+      "step": 120
+    },
+    {
+      "epoch": 0.11343012704174228,
+      "grad_norm": 0.62109375,
+      "learning_rate": 0.00014774201103890853,
+      "loss": 1.8489,
+      "step": 125
+    },
+    {
+      "epoch": 0.11796733212341198,
+      "grad_norm": 0.66796875,
+      "learning_rate": 0.00014771862802470895,
+      "loss": 1.8688,
+      "step": 130
+    },
+    {
+      "epoch": 0.12250453720508167,
+      "grad_norm": 0.69140625,
+      "learning_rate": 0.00014769397081572318,
+      "loss": 1.8304,
+      "step": 135
+    },
+    {
+      "epoch": 0.12704174228675136,
+      "grad_norm": 0.62109375,
+      "learning_rate": 0.00014766803998057077,
+      "loss": 1.8114,
+      "step": 140
+    },
+    {
+      "epoch": 0.13157894736842105,
+      "grad_norm": 0.69140625,
+      "learning_rate": 0.00014764083611724224,
+      "loss": 1.8612,
+      "step": 145
+    },
+    {
+      "epoch": 0.13611615245009073,
+      "grad_norm": 0.8828125,
+      "learning_rate": 0.00014761235985308546,
+      "loss": 1.8585,
+      "step": 150
+    },
+    {
+      "epoch": 0.14065335753176045,
+      "grad_norm": 0.67578125,
+      "learning_rate": 0.00014758261184479108,
+      "loss": 1.8307,
+      "step": 155
+    },
+    {
+      "epoch": 0.14519056261343014,
+      "grad_norm": 0.6328125,
+      "learning_rate": 0.0001475515927783775,
+      "loss": 1.9006,
+      "step": 160
+    },
+    {
+      "epoch": 0.14972776769509982,
+      "grad_norm": 0.9921875,
+      "learning_rate": 0.00014751930336917481,
+      "loss": 1.8725,
+      "step": 165
+    },
+    {
+      "epoch": 0.1542649727767695,
+      "grad_norm": 0.58984375,
+      "learning_rate": 0.00014748574436180864,
+      "loss": 1.8519,
+      "step": 170
+    },
+    {
+      "epoch": 0.1588021778584392,
+      "grad_norm": 0.609375,
+      "learning_rate": 0.00014745091653018267,
+      "loss": 1.8826,
+      "step": 175
+    },
+    {
+      "epoch": 0.16333938294010888,
+      "grad_norm": 0.59765625,
+      "learning_rate": 0.00014741482067746097,
+      "loss": 1.8518,
+      "step": 180
+    },
+    {
+      "epoch": 0.16787658802177857,
+      "grad_norm": 0.61328125,
+      "learning_rate": 0.00014737745763604944,
+      "loss": 1.9203,
+      "step": 185
+    },
+    {
+      "epoch": 0.1724137931034483,
+      "grad_norm": 0.63671875,
+      "learning_rate": 0.00014733882826757655,
+      "loss": 1.849,
+      "step": 190
+    },
+    {
+      "epoch": 0.17695099818511797,
+      "grad_norm": 0.62109375,
+      "learning_rate": 0.00014729893346287354,
+      "loss": 1.8868,
+      "step": 195
+    },
+    {
+      "epoch": 0.18148820326678766,
+      "grad_norm": 0.60546875,
+      "learning_rate": 0.00014725777414195383,
+      "loss": 1.8464,
+      "step": 200
+    },
+    {
+      "epoch": 0.18602540834845735,
+      "grad_norm": 0.796875,
+      "learning_rate": 0.00014721535125399195,
+      "loss": 1.8716,
+      "step": 205
+    },
+    {
+      "epoch": 0.19056261343012704,
+      "grad_norm": 0.6171875,
+      "learning_rate": 0.0001471716657773013,
+      "loss": 1.879,
+      "step": 210
+    },
+    {
+      "epoch": 0.19509981851179672,
+      "grad_norm": 0.5625,
+      "learning_rate": 0.00014712671871931207,
+      "loss": 1.8664,
+      "step": 215
+    },
+    {
+      "epoch": 0.1996370235934664,
+      "grad_norm": 0.6171875,
+      "learning_rate": 0.00014708051111654756,
+      "loss": 1.8891,
+      "step": 220
+    },
+    {
+      "epoch": 0.20417422867513613,
+      "grad_norm": 0.55859375,
+      "learning_rate": 0.00014703304403460062,
+      "loss": 1.8699,
+      "step": 225
+    },
+    {
+      "epoch": 0.20871143375680581,
+      "grad_norm": 0.58203125,
+      "learning_rate": 0.00014698431856810878,
+      "loss": 1.7784,
+      "step": 230
+    },
+    {
+      "epoch": 0.2132486388384755,
+      "grad_norm": 0.83984375,
+      "learning_rate": 0.00014693433584072926,
+      "loss": 1.8291,
+      "step": 235
+    },
+    {
+      "epoch": 0.2177858439201452,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.00014688309700511298,
+      "loss": 1.831,
+      "step": 240
+    },
+    {
+      "epoch": 0.22232304900181488,
+      "grad_norm": 0.58984375,
+      "learning_rate": 0.00014683060324287783,
+      "loss": 1.8502,
+      "step": 245
+    },
+    {
+      "epoch": 0.22686025408348456,
+      "grad_norm": 0.5859375,
+      "learning_rate": 0.00014677685576458164,
+      "loss": 1.8986,
+      "step": 250
+    },
+    {
+      "epoch": 0.23139745916515425,
+      "grad_norm": 0.5859375,
+      "learning_rate": 0.00014672185580969416,
+      "loss": 1.7958,
+      "step": 255
+    },
+    {
+      "epoch": 0.23593466424682397,
+      "grad_norm": 0.578125,
+      "learning_rate": 0.00014666560464656842,
+      "loss": 1.8392,
+      "step": 260
+    },
+    {
+      "epoch": 0.24047186932849365,
+      "grad_norm": 0.67578125,
+      "learning_rate": 0.0001466081035724116,
+      "loss": 1.8503,
+      "step": 265
+    },
+    {
+      "epoch": 0.24500907441016334,
+      "grad_norm": 0.6015625,
+      "learning_rate": 0.00014654935391325503,
+      "loss": 1.8042,
+      "step": 270
+    },
+    {
+      "epoch": 0.24954627949183303,
+      "grad_norm": 0.6171875,
+      "learning_rate": 0.0001464893570239237,
+      "loss": 1.8489,
+      "step": 275
+    },
+    {
+      "epoch": 0.2540834845735027,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.00014642811428800486,
+      "loss": 1.786,
+      "step": 280
+    },
+    {
+      "epoch": 0.25862068965517243,
+      "grad_norm": 0.578125,
+      "learning_rate": 0.00014636562711781623,
+      "loss": 1.7963,
+      "step": 285
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 0.70703125,
+      "learning_rate": 0.00014630189695437348,
+      "loss": 1.8334,
+      "step": 290
+    },
+    {
+      "epoch": 0.2676950998185118,
+      "grad_norm": 0.515625,
+      "learning_rate": 0.00014623692526735687,
+      "loss": 1.8442,
+      "step": 295
+    },
+    {
+      "epoch": 0.27223230490018147,
+      "grad_norm": 0.57421875,
+      "learning_rate": 0.0001461707135550774,
+      "loss": 1.8511,
+      "step": 300
+    },
+    {
+      "epoch": 0.2767695099818512,
+      "grad_norm": 1.2734375,
+      "learning_rate": 0.0001461032633444423,
+      "loss": 1.8057,
+      "step": 305
+    },
+    {
+      "epoch": 0.2813067150635209,
+      "grad_norm": 0.64453125,
+      "learning_rate": 0.00014603457619091978,
+      "loss": 1.8314,
+      "step": 310
+    },
+    {
+      "epoch": 0.28584392014519056,
+      "grad_norm": 0.5703125,
+      "learning_rate": 0.00014596465367850323,
+      "loss": 1.8663,
+      "step": 315
+    },
+    {
+      "epoch": 0.29038112522686027,
+      "grad_norm": 0.58984375,
+      "learning_rate": 0.0001458934974196745,
+      "loss": 1.8317,
+      "step": 320
+    },
+    {
+      "epoch": 0.29491833030852993,
+      "grad_norm": 0.53125,
+      "learning_rate": 0.000145821109055367,
+      "loss": 1.8226,
+      "step": 325
+    },
+    {
+      "epoch": 0.29945553539019965,
+      "grad_norm": 0.55078125,
+      "learning_rate": 0.00014574749025492755,
+      "loss": 1.806,
+      "step": 330
+    },
+    {
+      "epoch": 0.3039927404718693,
+      "grad_norm": 0.703125,
+      "learning_rate": 0.0001456726427160782,
+      "loss": 1.8697,
+      "step": 335
+    },
+    {
+      "epoch": 0.308529945553539,
+      "grad_norm": 0.5859375,
+      "learning_rate": 0.00014559656816487678,
+      "loss": 1.8708,
+      "step": 340
+    },
+    {
+      "epoch": 0.31306715063520874,
+      "grad_norm": 0.64453125,
+      "learning_rate": 0.0001455192683556773,
+      "loss": 1.7742,
+      "step": 345
+    },
+    {
+      "epoch": 0.3176043557168784,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.0001454407450710894,
+      "loss": 1.8335,
+      "step": 350
+    },
+    {
+      "epoch": 0.3221415607985481,
+      "grad_norm": 0.5390625,
+      "learning_rate": 0.00014536100012193726,
+      "loss": 1.8305,
+      "step": 355
+    },
+    {
+      "epoch": 0.32667876588021777,
+      "grad_norm": 0.6953125,
+      "learning_rate": 0.0001452800353472179,
+      "loss": 1.8292,
+      "step": 360
+    },
+    {
+      "epoch": 0.3312159709618875,
+      "grad_norm": 0.53125,
+      "learning_rate": 0.00014519785261405869,
+      "loss": 1.8466,
+      "step": 365
+    },
+    {
+      "epoch": 0.33575317604355714,
+      "grad_norm": 0.53125,
+      "learning_rate": 0.00014511445381767423,
+      "loss": 1.8178,
+      "step": 370
+    },
+    {
+      "epoch": 0.34029038112522686,
+      "grad_norm": 0.5234375,
+      "learning_rate": 0.00014502984088132293,
+      "loss": 1.7921,
+      "step": 375
+    },
+    {
+      "epoch": 0.3448275862068966,
+      "grad_norm": 0.5703125,
+      "learning_rate": 0.00014494401575626225,
+      "loss": 1.8203,
+      "step": 380
+    },
+    {
+      "epoch": 0.34936479128856623,
+      "grad_norm": 0.578125,
+      "learning_rate": 0.00014485698042170404,
+      "loss": 1.7927,
+      "step": 385
+    },
+    {
+      "epoch": 0.35390199637023595,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.00014476873688476876,
+      "loss": 1.8242,
+      "step": 390
+    },
+    {
+      "epoch": 0.3584392014519056,
+      "grad_norm": 0.57421875,
+      "learning_rate": 0.0001446792871804392,
+      "loss": 1.8131,
+      "step": 395
+    },
+    {
+      "epoch": 0.3629764065335753,
+      "grad_norm": 0.546875,
+      "learning_rate": 0.00014458863337151349,
+      "loss": 1.8587,
+      "step": 400
+    },
+    {
+      "epoch": 0.367513611615245,
+      "grad_norm": 0.6640625,
+      "learning_rate": 0.0001444967775485577,
+      "loss": 1.7851,
+      "step": 405
+    },
+    {
+      "epoch": 0.3720508166969147,
+      "grad_norm": 0.55078125,
+      "learning_rate": 0.00014440372182985745,
+      "loss": 1.8071,
+      "step": 410
+    },
+    {
+      "epoch": 0.3765880217785844,
+      "grad_norm": 0.5703125,
+      "learning_rate": 0.00014430946836136918,
+      "loss": 1.7995,
+      "step": 415
+    },
+    {
+      "epoch": 0.3811252268602541,
+      "grad_norm": 0.60546875,
+      "learning_rate": 0.0001442140193166706,
+      "loss": 1.7947,
+      "step": 420
+    },
+    {
+      "epoch": 0.3856624319419238,
+      "grad_norm": 0.5546875,
+      "learning_rate": 0.00014411737689691058,
+      "loss": 1.7898,
+      "step": 425
+    },
+    {
+      "epoch": 0.39019963702359345,
+      "grad_norm": 0.81640625,
+      "learning_rate": 0.0001440195433307584,
+      "loss": 1.8306,
+      "step": 430
+    },
+    {
+      "epoch": 0.39473684210526316,
+      "grad_norm": 0.578125,
+      "learning_rate": 0.00014392052087435238,
+      "loss": 1.7914,
+      "step": 435
+    },
+    {
+      "epoch": 0.3992740471869328,
+      "grad_norm": 0.6171875,
+      "learning_rate": 0.00014382031181124774,
+      "loss": 1.8376,
+      "step": 440
+    },
+    {
+      "epoch": 0.40381125226860254,
+      "grad_norm": 0.5625,
+      "learning_rate": 0.00014371891845236406,
+      "loss": 1.7989,
+      "step": 445
+    },
+    {
+      "epoch": 0.40834845735027225,
+      "grad_norm": 0.5625,
+      "learning_rate": 0.00014361634313593197,
+      "loss": 1.8062,
+      "step": 450
+    },
+    {
+      "epoch": 0.4128856624319419,
+      "grad_norm": 0.671875,
+      "learning_rate": 0.0001435125882274392,
+      "loss": 1.831,
+      "step": 455
+    },
+    {
+      "epoch": 0.41742286751361163,
+      "grad_norm": 0.65234375,
+      "learning_rate": 0.00014340765611957598,
+      "loss": 1.7798,
+      "step": 460
+    },
+    {
+      "epoch": 0.4219600725952813,
+      "grad_norm": 0.5703125,
+      "learning_rate": 0.00014330154923217997,
+      "loss": 1.8022,
+      "step": 465
+    },
+    {
+      "epoch": 0.426497277676951,
+      "grad_norm": 0.640625,
+      "learning_rate": 0.0001431942700121804,
+      "loss": 1.8054,
+      "step": 470
+    },
+    {
+      "epoch": 0.43103448275862066,
+      "grad_norm": 0.5234375,
+      "learning_rate": 0.0001430858209335416,
+      "loss": 1.8397,
+      "step": 475
+    },
+    {
+      "epoch": 0.4355716878402904,
+      "grad_norm": 0.57421875,
+      "learning_rate": 0.00014297620449720602,
+      "loss": 1.8211,
+      "step": 480
+    },
+    {
+      "epoch": 0.4401088929219601,
+      "grad_norm": 0.65234375,
+      "learning_rate": 0.00014286542323103656,
+      "loss": 1.8092,
+      "step": 485
+    },
+    {
+      "epoch": 0.44464609800362975,
+      "grad_norm": 0.62109375,
+      "learning_rate": 0.00014275347968975818,
+      "loss": 1.8197,
+      "step": 490
+    },
+    {
+      "epoch": 0.44918330308529947,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.00014264037645489905,
+      "loss": 1.7599,
+      "step": 495
+    },
+    {
+      "epoch": 0.4537205081669691,
+      "grad_norm": 0.6015625,
+      "learning_rate": 0.0001425261161347311,
+      "loss": 1.785,
+      "step": 500
+    },
+    {
+      "epoch": 0.4537205081669691,
+      "eval_loss": 1.744194507598877,
+      "eval_runtime": 4.2905,
+      "eval_samples_per_second": 14.917,
+      "eval_steps_per_second": 14.917,
+      "step": 500
+    },
+    {
+      "epoch": 0.45825771324863884,
+      "grad_norm": 0.57421875,
+      "learning_rate": 0.00014241070136420967,
+      "loss": 1.7713,
+      "step": 505
+    },
+    {
+      "epoch": 0.4627949183303085,
+      "grad_norm": 0.57421875,
+      "learning_rate": 0.00014229413480491295,
+      "loss": 1.77,
+      "step": 510
+    },
+    {
+      "epoch": 0.4673321234119782,
+      "grad_norm": 0.59375,
+      "learning_rate": 0.00014217641914498046,
+      "loss": 1.8009,
+      "step": 515
+    },
+    {
+      "epoch": 0.47186932849364793,
+      "grad_norm": 0.671875,
+      "learning_rate": 0.00014205755709905117,
+      "loss": 1.8003,
+      "step": 520
+    },
+    {
+      "epoch": 0.4764065335753176,
+      "grad_norm": 0.78125,
+      "learning_rate": 0.00014193755140820072,
+      "loss": 1.8183,
+      "step": 525
+    },
+    {
+      "epoch": 0.4809437386569873,
+      "grad_norm": 0.55859375,
+      "learning_rate": 0.00014181640483987848,
+      "loss": 1.8192,
+      "step": 530
+    },
+    {
+      "epoch": 0.48548094373865697,
+      "grad_norm": 0.62890625,
+      "learning_rate": 0.00014169412018784347,
+      "loss": 1.7721,
+      "step": 535
+    },
+    {
+      "epoch": 0.4900181488203267,
+      "grad_norm": 0.66015625,
+      "learning_rate": 0.0001415707002721001,
+      "loss": 1.8054,
+      "step": 540
+    },
+    {
+      "epoch": 0.4945553539019964,
+      "grad_norm": 0.6328125,
+      "learning_rate": 0.000141446147938833,
+      "loss": 1.7558,
+      "step": 545
+    },
+    {
+      "epoch": 0.49909255898366606,
+      "grad_norm": 0.55078125,
+      "learning_rate": 0.00014132046606034153,
+      "loss": 1.8106,
+      "step": 550
+    },
+    {
+      "epoch": 0.5036297640653358,
+      "grad_norm": 0.5625,
+      "learning_rate": 0.0001411936575349735,
+      "loss": 1.8088,
+      "step": 555
+    },
+    {
+      "epoch": 0.5081669691470054,
+      "grad_norm": 0.54296875,
+      "learning_rate": 0.00014106572528705823,
+      "loss": 1.8421,
+      "step": 560
+    },
+    {
+      "epoch": 0.5127041742286751,
+      "grad_norm": 0.52734375,
+      "learning_rate": 0.0001409366722668392,
+      "loss": 1.8159,
+      "step": 565
+    },
+    {
+      "epoch": 0.5172413793103449,
+      "grad_norm": 0.53515625,
+      "learning_rate": 0.00014080650145040604,
+      "loss": 1.7016,
+      "step": 570
+    },
+    {
+      "epoch": 0.5217785843920145,
+      "grad_norm": 0.55078125,
+      "learning_rate": 0.00014067521583962587,
+      "loss": 1.7653,
+      "step": 575
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 0.53515625,
+      "learning_rate": 0.000140542818462074,
+      "loss": 1.7371,
+      "step": 580
+    },
+    {
+      "epoch": 0.530852994555354,
+      "grad_norm": 0.5078125,
+      "learning_rate": 0.00014040931237096425,
+      "loss": 1.7618,
+      "step": 585
+    },
+    {
+      "epoch": 0.5353901996370236,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.00014027470064507838,
+      "loss": 1.8225,
+      "step": 590
+    },
+    {
+      "epoch": 0.5399274047186933,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.00014013898638869527,
+      "loss": 1.8137,
+      "step": 595
+    },
+    {
+      "epoch": 0.5444646098003629,
+      "grad_norm": 0.6875,
+      "learning_rate": 0.00014000217273151913,
+      "loss": 1.75,
+      "step": 600
+    },
+    {
+      "epoch": 0.5490018148820327,
+      "grad_norm": 0.55078125,
+      "learning_rate": 0.00013986426282860755,
+      "loss": 1.7745,
+      "step": 605
+    },
+    {
+      "epoch": 0.5535390199637024,
+      "grad_norm": 0.5625,
+      "learning_rate": 0.00013972525986029856,
+      "loss": 1.7694,
+      "step": 610
+    },
+    {
+      "epoch": 0.558076225045372,
+      "grad_norm": 0.55078125,
+      "learning_rate": 0.00013958516703213735,
+      "loss": 1.75,
+      "step": 615
+    },
+    {
+      "epoch": 0.5626134301270418,
+      "grad_norm": 0.5546875,
+      "learning_rate": 0.00013944398757480237,
+      "loss": 1.7743,
+      "step": 620
+    },
+    {
+      "epoch": 0.5671506352087115,
+      "grad_norm": 0.49609375,
+      "learning_rate": 0.00013930172474403083,
+      "loss": 1.7893,
+      "step": 625
+    },
+    {
+      "epoch": 0.5716878402903811,
+      "grad_norm": 0.52734375,
+      "learning_rate": 0.00013915838182054354,
+      "loss": 1.7614,
+      "step": 630
+    },
+    {
+      "epoch": 0.5762250453720508,
+      "grad_norm": 0.60546875,
+      "learning_rate": 0.0001390139621099693,
+      "loss": 1.7126,
+      "step": 635
+    },
+    {
+      "epoch": 0.5807622504537205,
+      "grad_norm": 0.58203125,
+      "learning_rate": 0.0001388684689427688,
+      "loss": 1.7882,
+      "step": 640
+    },
+    {
+      "epoch": 0.5852994555353902,
+      "grad_norm": 0.55859375,
+      "learning_rate": 0.0001387219056741576,
+      "loss": 1.7766,
+      "step": 645
+    },
+    {
+      "epoch": 0.5898366606170599,
+      "grad_norm": 0.52734375,
+      "learning_rate": 0.0001385742756840288,
+      "loss": 1.7522,
+      "step": 650
+    },
+    {
+      "epoch": 0.5943738656987296,
+      "grad_norm": 0.5546875,
+      "learning_rate": 0.0001384255823768753,
+      "loss": 1.8185,
+      "step": 655
+    },
+    {
+      "epoch": 0.5989110707803993,
+      "grad_norm": 0.6640625,
+      "learning_rate": 0.00013827582918171102,
+      "loss": 1.786,
+      "step": 660
+    },
+    {
+      "epoch": 0.603448275862069,
+      "grad_norm": 0.59765625,
+      "learning_rate": 0.00013812501955199195,
+      "loss": 1.8142,
+      "step": 665
+    },
+    {
+      "epoch": 0.6079854809437386,
+      "grad_norm": 0.6015625,
+      "learning_rate": 0.00013797315696553652,
+      "loss": 1.8174,
+      "step": 670
+    },
+    {
+      "epoch": 0.6125226860254084,
+      "grad_norm": 0.53125,
+      "learning_rate": 0.00013782024492444542,
+      "loss": 1.7349,
+      "step": 675
+    },
+    {
+      "epoch": 0.617059891107078,
+      "grad_norm": 0.58203125,
+      "learning_rate": 0.0001376662869550207,
+      "loss": 1.7705,
+      "step": 680
+    },
+    {
+      "epoch": 0.6215970961887477,
+      "grad_norm": 0.5703125,
+      "learning_rate": 0.00013751128660768468,
+      "loss": 1.7593,
+      "step": 685
+    },
+    {
+      "epoch": 0.6261343012704175,
+      "grad_norm": 0.609375,
+      "learning_rate": 0.0001373552474568978,
+      "loss": 1.8741,
+      "step": 690
+    },
+    {
+      "epoch": 0.6306715063520871,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.0001371981731010764,
+      "loss": 1.7808,
+      "step": 695
+    },
+    {
+      "epoch": 0.6352087114337568,
+      "grad_norm": 0.5703125,
+      "learning_rate": 0.0001370400671625097,
+      "loss": 1.712,
+      "step": 700
+    },
+    {
+      "epoch": 0.6397459165154264,
+      "grad_norm": 1.2578125,
+      "learning_rate": 0.00013688093328727613,
+      "loss": 1.7588,
+      "step": 705
+    },
+    {
+      "epoch": 0.6442831215970962,
+      "grad_norm": 0.64453125,
+      "learning_rate": 0.00013672077514515946,
+      "loss": 1.7494,
+      "step": 710
+    },
+    {
+      "epoch": 0.6488203266787659,
+      "grad_norm": 0.59375,
+      "learning_rate": 0.00013655959642956399,
+      "loss": 1.7665,
+      "step": 715
+    },
+    {
+      "epoch": 0.6533575317604355,
+      "grad_norm": 0.54296875,
+      "learning_rate": 0.00013639740085742951,
+      "loss": 1.7562,
+      "step": 720
+    },
+    {
+      "epoch": 0.6578947368421053,
+      "grad_norm": 0.55078125,
+      "learning_rate": 0.00013623419216914545,
+      "loss": 1.7741,
+      "step": 725
+    },
+    {
+      "epoch": 0.662431941923775,
+      "grad_norm": 0.51953125,
+      "learning_rate": 0.00013606997412846474,
+      "loss": 1.7657,
+      "step": 730
+    },
+    {
+      "epoch": 0.6669691470054446,
+      "grad_norm": 0.53515625,
+      "learning_rate": 0.00013590475052241695,
+      "loss": 1.714,
+      "step": 735
+    },
+    {
+      "epoch": 0.6715063520871143,
+      "grad_norm": 0.546875,
+      "learning_rate": 0.00013573852516122104,
+      "loss": 1.7763,
+      "step": 740
+    },
+    {
+      "epoch": 0.6760435571687841,
+      "grad_norm": 0.57421875,
+      "learning_rate": 0.0001355713018781973,
+      "loss": 1.7801,
+      "step": 745
+    },
+    {
+      "epoch": 0.6805807622504537,
+      "grad_norm": 0.54296875,
+      "learning_rate": 0.00013540308452967919,
+      "loss": 1.7655,
+      "step": 750
+    },
+    {
+      "epoch": 0.6851179673321234,
+      "grad_norm": 0.62109375,
+      "learning_rate": 0.00013523387699492426,
+      "loss": 1.7433,
+      "step": 755
+    },
+    {
+      "epoch": 0.6896551724137931,
+      "grad_norm": 0.53515625,
+      "learning_rate": 0.00013506368317602475,
+      "loss": 1.8206,
+      "step": 760
+    },
+    {
+      "epoch": 0.6941923774954628,
+      "grad_norm": 0.5390625,
+      "learning_rate": 0.00013489250699781752,
+      "loss": 1.7338,
+      "step": 765
+    },
+    {
+      "epoch": 0.6987295825771325,
+      "grad_norm": 0.53125,
+      "learning_rate": 0.0001347203524077937,
+      "loss": 1.7672,
+      "step": 770
+    },
+    {
+      "epoch": 0.7032667876588021,
+      "grad_norm": 0.578125,
+      "learning_rate": 0.0001345472233760075,
+      "loss": 1.7835,
+      "step": 775
+    },
+    {
+      "epoch": 0.7078039927404719,
+      "grad_norm": 0.59765625,
+      "learning_rate": 0.0001343731238949847,
+      "loss": 1.7657,
+      "step": 780
+    },
+    {
+      "epoch": 0.7123411978221416,
+      "grad_norm": 0.60546875,
+      "learning_rate": 0.0001341980579796306,
+      "loss": 1.7414,
+      "step": 785
+    },
+    {
+      "epoch": 0.7168784029038112,
+      "grad_norm": 0.53125,
+      "learning_rate": 0.00013402202966713748,
+      "loss": 1.7147,
+      "step": 790
+    },
+    {
+      "epoch": 0.721415607985481,
+      "grad_norm": 0.498046875,
+      "learning_rate": 0.0001338450430168914,
+      "loss": 1.7195,
+      "step": 795
+    },
+    {
+      "epoch": 0.7259528130671506,
+      "grad_norm": 0.62109375,
+      "learning_rate": 0.0001336671021103786,
+      "loss": 1.7685,
+      "step": 800
+    },
+    {
+      "epoch": 0.7304900181488203,
+      "grad_norm": 0.63671875,
+      "learning_rate": 0.0001334882110510915,
+      "loss": 1.7556,
+      "step": 805
+    },
+    {
+      "epoch": 0.73502722323049,
+      "grad_norm": 0.5625,
+      "learning_rate": 0.00013330837396443391,
+      "loss": 1.7322,
+      "step": 810
+    },
+    {
+      "epoch": 0.7395644283121597,
+      "grad_norm": 0.5703125,
+      "learning_rate": 0.00013312759499762596,
+      "loss": 1.7304,
+      "step": 815
+    },
+    {
+      "epoch": 0.7441016333938294,
+      "grad_norm": 0.5390625,
+      "learning_rate": 0.0001329458783196085,
+      "loss": 1.7372,
+      "step": 820
+    },
+    {
+      "epoch": 0.7486388384754991,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.00013276322812094687,
+      "loss": 1.7411,
+      "step": 825
+    },
+    {
+      "epoch": 0.7531760435571688,
+      "grad_norm": 0.54296875,
+      "learning_rate": 0.00013257964861373438,
+      "loss": 1.791,
+      "step": 830
+    },
+    {
+      "epoch": 0.7577132486388385,
+      "grad_norm": 0.64453125,
+      "learning_rate": 0.0001323951440314951,
+      "loss": 1.7303,
+      "step": 835
+    },
+    {
+      "epoch": 0.7622504537205081,
+      "grad_norm": 0.5390625,
+      "learning_rate": 0.00013220971862908614,
+      "loss": 1.7399,
+      "step": 840
+    },
+    {
+      "epoch": 0.7667876588021778,
+      "grad_norm": 0.58203125,
+      "learning_rate": 0.00013202337668259976,
+      "loss": 1.7357,
+      "step": 845
+    },
+    {
+      "epoch": 0.7713248638838476,
+      "grad_norm": 0.5234375,
+      "learning_rate": 0.00013183612248926458,
+      "loss": 1.7571,
+      "step": 850
+    },
+    {
+      "epoch": 0.7758620689655172,
+      "grad_norm": 0.515625,
+      "learning_rate": 0.00013164796036734647,
+      "loss": 1.7881,
+      "step": 855
+    },
+    {
+      "epoch": 0.7803992740471869,
+      "grad_norm": 0.63671875,
+      "learning_rate": 0.00013145889465604913,
+      "loss": 1.7136,
+      "step": 860
+    },
+    {
+      "epoch": 0.7849364791288567,
+      "grad_norm": 0.5625,
+      "learning_rate": 0.00013126892971541387,
+      "loss": 1.7307,
+      "step": 865
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 0.6640625,
+      "learning_rate": 0.0001310780699262191,
+      "loss": 1.7888,
+      "step": 870
+    },
+    {
+      "epoch": 0.794010889292196,
+      "grad_norm": 0.5390625,
+      "learning_rate": 0.00013088631968987934,
+      "loss": 1.7088,
+      "step": 875
+    },
+    {
+      "epoch": 0.7985480943738656,
+      "grad_norm": 0.51953125,
+      "learning_rate": 0.00013069368342834368,
+      "loss": 1.796,
+      "step": 880
+    },
+    {
+      "epoch": 0.8030852994555354,
+      "grad_norm": 0.57421875,
+      "learning_rate": 0.00013050016558399384,
+      "loss": 1.708,
+      "step": 885
+    },
+    {
+      "epoch": 0.8076225045372051,
+      "grad_norm": 0.515625,
+      "learning_rate": 0.00013030577061954167,
+      "loss": 1.7503,
+      "step": 890
+    },
+    {
+      "epoch": 0.8121597096188747,
+      "grad_norm": 0.64453125,
+      "learning_rate": 0.00013011050301792632,
+      "loss": 1.7318,
+      "step": 895
+    },
+    {
+      "epoch": 0.8166969147005445,
+      "grad_norm": 0.53515625,
+      "learning_rate": 0.00012991436728221082,
+      "loss": 1.7336,
+      "step": 900
+    },
+    {
+      "epoch": 0.8212341197822142,
+      "grad_norm": 0.5078125,
+      "learning_rate": 0.00012971736793547815,
+      "loss": 1.7983,
+      "step": 905
+    },
+    {
+      "epoch": 0.8257713248638838,
+      "grad_norm": 0.52734375,
+      "learning_rate": 0.00012951950952072713,
+      "loss": 1.7139,
+      "step": 910
+    },
+    {
+      "epoch": 0.8303085299455535,
+      "grad_norm": 0.5234375,
+      "learning_rate": 0.00012932079660076738,
+      "loss": 1.7785,
+      "step": 915
+    },
+    {
+      "epoch": 0.8348457350272233,
+      "grad_norm": 0.58203125,
+      "learning_rate": 0.0001291212337581144,
+      "loss": 1.7315,
+      "step": 920
+    },
+    {
+      "epoch": 0.8393829401088929,
+      "grad_norm": 0.51171875,
+      "learning_rate": 0.00012892082559488361,
+      "loss": 1.7943,
+      "step": 925
+    },
+    {
+      "epoch": 0.8439201451905626,
+      "grad_norm": 0.59765625,
+      "learning_rate": 0.0001287195767326845,
+      "loss": 1.7686,
+      "step": 930
+    },
+    {
+      "epoch": 0.8484573502722323,
+      "grad_norm": 0.50390625,
+      "learning_rate": 0.00012851749181251373,
+      "loss": 1.7367,
+      "step": 935
+    },
+    {
+      "epoch": 0.852994555353902,
+      "grad_norm": 0.57421875,
+      "learning_rate": 0.00012831457549464847,
+      "loss": 1.7854,
+      "step": 940
+    },
+    {
+      "epoch": 0.8575317604355717,
+      "grad_norm": 0.578125,
+      "learning_rate": 0.0001281108324585386,
+      "loss": 1.76,
+      "step": 945
+    },
+    {
+      "epoch": 0.8620689655172413,
+      "grad_norm": 0.5078125,
+      "learning_rate": 0.00012790626740269897,
+      "loss": 1.6915,
+      "step": 950
+    },
+    {
+      "epoch": 0.8666061705989111,
+      "grad_norm": 0.51953125,
+      "learning_rate": 0.00012770088504460107,
+      "loss": 1.7474,
+      "step": 955
+    },
+    {
+      "epoch": 0.8711433756805808,
+      "grad_norm": 0.55859375,
+      "learning_rate": 0.00012749469012056407,
+      "loss": 1.7116,
+      "step": 960
+    },
+    {
+      "epoch": 0.8756805807622504,
+      "grad_norm": 0.50390625,
+      "learning_rate": 0.00012728768738564584,
+      "loss": 1.691,
+      "step": 965
+    },
+    {
+      "epoch": 0.8802177858439202,
+      "grad_norm": 0.52734375,
+      "learning_rate": 0.00012707988161353307,
+      "loss": 1.7683,
+      "step": 970
+    },
+    {
+      "epoch": 0.8847549909255898,
+      "grad_norm": 0.546875,
+      "learning_rate": 0.00012687127759643133,
+      "loss": 1.7294,
+      "step": 975
+    },
+    {
+      "epoch": 0.8892921960072595,
+      "grad_norm": 0.5546875,
+      "learning_rate": 0.00012666188014495442,
+      "loss": 1.7616,
+      "step": 980
+    },
+    {
+      "epoch": 0.8938294010889292,
+      "grad_norm": 0.51953125,
+      "learning_rate": 0.0001264516940880137,
+      "loss": 1.7111,
+      "step": 985
+    },
+    {
+      "epoch": 0.8983666061705989,
+      "grad_norm": 0.80859375,
+      "learning_rate": 0.00012624072427270633,
+      "loss": 1.6731,
+      "step": 990
+    },
+    {
+      "epoch": 0.9029038112522686,
+      "grad_norm": 0.57421875,
+      "learning_rate": 0.00012602897556420386,
+      "loss": 1.7093,
+      "step": 995
+    },
+    {
+      "epoch": 0.9074410163339383,
+      "grad_norm": 0.51953125,
+      "learning_rate": 0.00012581645284563981,
+      "loss": 1.7539,
+      "step": 1000
+    },
+    {
+      "epoch": 0.9074410163339383,
+      "eval_loss": 1.6703623533248901,
+      "eval_runtime": 4.0596,
+      "eval_samples_per_second": 15.765,
+      "eval_steps_per_second": 15.765,
+      "step": 1000
+    },
+    {
+      "epoch": 0.911978221415608,
+      "grad_norm": 0.515625,
+      "learning_rate": 0.00012560316101799718,
+      "loss": 1.7018,
+      "step": 1005
+    },
+    {
+      "epoch": 0.9165154264972777,
+      "grad_norm": 0.5546875,
+      "learning_rate": 0.00012538910499999527,
+      "loss": 1.7085,
+      "step": 1010
+    },
+    {
+      "epoch": 0.9210526315789473,
+      "grad_norm": 0.5703125,
+      "learning_rate": 0.0001251742897279766,
+      "loss": 1.7526,
+      "step": 1015
+    },
+    {
+      "epoch": 0.925589836660617,
+      "grad_norm": 0.54296875,
+      "learning_rate": 0.00012495872015579255,
+      "loss": 1.7121,
+      "step": 1020
+    },
+    {
+      "epoch": 0.9283121597096189,
+      "eval_loss": 1.6611651182174683,
+      "eval_runtime": 4.1505,
+      "eval_samples_per_second": 15.42,
+      "eval_steps_per_second": 15.42,
+      "step": 1023
+    },
+    {
+      "epoch": 0.9301270417422868,
+      "grad_norm": 0.5703125,
+      "learning_rate": 0.0001247424012546896,
+      "loss": 1.7569,
+      "step": 1025
+    },
+    {
+      "epoch": 0.9346642468239564,
+      "grad_norm": 0.515625,
+      "learning_rate": 0.0001245253380131944,
+      "loss": 1.7379,
+      "step": 1030
+    },
+    {
+      "epoch": 0.9392014519056261,
+      "grad_norm": 1.59375,
+      "learning_rate": 0.0001243075354369989,
+      "loss": 1.7344,
+      "step": 1035
+    },
+    {
+      "epoch": 0.9437386569872959,
+      "grad_norm": 0.65625,
+      "learning_rate": 0.00012408899854884475,
+      "loss": 1.7376,
+      "step": 1040
+    },
+    {
+      "epoch": 0.9482758620689655,
+      "grad_norm": 0.54296875,
+      "learning_rate": 0.00012386973238840757,
+      "loss": 1.7244,
+      "step": 1045
+    },
+    {
+      "epoch": 0.9528130671506352,
+      "grad_norm": 0.5234375,
+      "learning_rate": 0.0001236497420121808,
+      "loss": 1.7126,
+      "step": 1050
+    },
+    {
+      "epoch": 0.957350272232305,
+      "grad_norm": 0.494140625,
+      "learning_rate": 0.0001234290324933589,
+      "loss": 1.7429,
+      "step": 1055
+    },
+    {
+      "epoch": 0.9618874773139746,
+      "grad_norm": 0.58203125,
+      "learning_rate": 0.00012320760892172057,
+      "loss": 1.7277,
+      "step": 1060
+    },
+    {
+      "epoch": 0.9664246823956443,
+      "grad_norm": 0.52734375,
+      "learning_rate": 0.00012298547640351114,
+      "loss": 1.7246,
+      "step": 1065
+    },
+    {
+      "epoch": 0.9709618874773139,
+      "grad_norm": 0.546875,
+      "learning_rate": 0.00012276264006132504,
+      "loss": 1.6859,
+      "step": 1070
+    },
+    {
+      "epoch": 0.9754990925589837,
+      "grad_norm": 0.53515625,
+      "learning_rate": 0.0001225391050339876,
+      "loss": 1.707,
+      "step": 1075
+    },
+    {
+      "epoch": 0.9800362976406534,
+      "grad_norm": 0.515625,
+      "learning_rate": 0.00012231487647643643,
+      "loss": 1.7146,
+      "step": 1080
+    },
+    {
+      "epoch": 0.984573502722323,
+      "grad_norm": 0.5078125,
+      "learning_rate": 0.00012208995955960268,
+      "loss": 1.7443,
+      "step": 1085
+    },
+    {
+      "epoch": 0.9891107078039928,
+      "grad_norm": 0.55078125,
+      "learning_rate": 0.00012186435947029172,
+      "loss": 1.71,
+      "step": 1090
+    },
+    {
+      "epoch": 0.9936479128856625,
+      "grad_norm": 0.609375,
+      "learning_rate": 0.00012163808141106358,
+      "loss": 1.7209,
+      "step": 1095
+    },
+    {
+      "epoch": 0.9981851179673321,
+      "grad_norm": 0.52734375,
+      "learning_rate": 0.0001214111306001129,
+      "loss": 1.769,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9990925589836661,
+      "eval_loss": 1.6452035903930664,
+      "eval_runtime": 4.1352,
+      "eval_samples_per_second": 15.477,
+      "eval_steps_per_second": 15.477,
+      "step": 1101
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 3306,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.4174287097755075e+18,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f3e2a6b8c0ffd529b7fa0111e83a77715efc7ac879aee268d9f58eaf00f9f68
+size 5624