JacobLinCool

howard9199 commited on Sep 26, 2025

Commit

cb02cf4

verified ·

0 Parent(s):

Super-squash branch 'main' using huggingface_hub

Browse files

Co-authored-by: howard9199 <howard9199@users.noreply.huggingface.co>

Files changed (42) hide show

.gitattributes +36 -0
added_tokens.json +12 -0
checkpoint-13293/config.json +143 -0
checkpoint-13293/generation_config.json +10 -0
checkpoint-13293/model-00001-of-00002.safetensors +3 -0
checkpoint-13293/model-00002-of-00002.safetensors +3 -0
checkpoint-13293/model.safetensors.index.json +201 -0
checkpoint-13293/trainer_state.json +0 -0
checkpoint-13293/training_args.bin +3 -0
checkpoint-4431/config.json +143 -0
checkpoint-4431/generation_config.json +10 -0
checkpoint-4431/model-00001-of-00002.safetensors +3 -0
checkpoint-4431/model-00002-of-00002.safetensors +3 -0
checkpoint-4431/model.safetensors.index.json +201 -0
checkpoint-4431/trainer_state.json +3135 -0
checkpoint-4431/training_args.bin +3 -0
checkpoint-8862/config.json +143 -0
checkpoint-8862/generation_config.json +10 -0
checkpoint-8862/model-00001-of-00002.safetensors +3 -0
checkpoint-8862/model-00002-of-00002.safetensors +3 -0
checkpoint-8862/model.safetensors.index.json +201 -0
checkpoint-8862/trainer_state.json +0 -0
checkpoint-8862/training_args.bin +3 -0
config.json +143 -0
generation_config.json +10 -0
merges.txt +0 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +201 -0
runs/Apr01_13-43-26_f952690d2a16/events.out.tfevents.1743515006.f952690d2a16 +3 -0
runs/Apr01_13-44-23_f952690d2a16/events.out.tfevents.1743515063.f952690d2a16 +3 -0
runs/Apr01_13-46-10_f952690d2a16/events.out.tfevents.1743515171.f952690d2a16 +3 -0
runs/Apr01_13-49-28_f952690d2a16/events.out.tfevents.1743515368.f952690d2a16 +3 -0
runs/Apr01_13-50-10_f952690d2a16/events.out.tfevents.1743515410.f952690d2a16 +3 -0
runs/Apr01_13-51-48_f952690d2a16/events.out.tfevents.1743515508.f952690d2a16 +3 -0
runs/Apr01_14-12-59_f952690d2a16/events.out.tfevents.1743516780.f952690d2a16 +3 -0
runs/Apr01_16-49-22_f952690d2a16/events.out.tfevents.1743526162.f952690d2a16 +3 -0
special_tokens_map.json +30 -0
tokenizer.json +3 -0
tokenizer_config.json +112 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,36 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "<|/tool_call|>": 200026,
+  "<|/tool|>": 200024,
+  "<|assistant|>": 200019,
+  "<|end|>": 200020,
+  "<|system|>": 200022,
+  "<|tag|>": 200028,
+  "<|tool_call|>": 200025,
+  "<|tool_response|>": 200027,
+  "<|tool|>": 200023,
+  "<|user|>": 200021
+}

checkpoint-13293/config.json ADDED Viewed

	@@ -0,0 +1,143 @@

+{
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "microsoft/Phi-4-mini-instruct--configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "microsoft/Phi-4-mini-instruct--modeling_phi3.Phi3ForCausalLM",
+    "AutoTokenizer": "microsoft/Phi-4-mini-instruct--Xenova/gpt-4o"
+  },
+  "bos_token_id": 199999,
+  "embd_pdrop": 0.0,
+  "eos_token_id": 199999,
+  "full_attn_mod": 1,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "interpolate_factor": 1,
+  "lm_head_bias": false,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "phi3",
+  "num_attention_heads": 24,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "original_max_position_embeddings": 4096,
+  "pad_token_id": 199999,
+  "partial_rotary_factor": 0.75,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "long_factor": [
+      1,
+      1.118320672,
+      1.250641126,
+      1.398617824,
+      1.564103225,
+      1.74916897,
+      1.956131817,
+      2.187582649,
+      2.446418898,
+      2.735880826,
+      3.059592084,
+      3.421605075,
+      3.826451687,
+      4.279200023,
+      4.785517845,
+      5.351743533,
+      5.984965424,
+      6.693110555,
+      7.485043894,
+      8.370679318,
+      9.36110372,
+      10.4687158,
+      11.70738129,
+      13.09260651,
+      14.64173252,
+      16.37415215,
+      18.31155283,
+      20.47818807,
+      22.90118105,
+      25.61086418,
+      28.64115884,
+      32.03,
+      32.1,
+      32.13,
+      32.23,
+      32.6,
+      32.61,
+      32.64,
+      32.66,
+      32.7,
+      32.71,
+      32.93,
+      32.97,
+      33.28,
+      33.49,
+      33.5,
+      44.16,
+      47.77
+    ],
+    "short_factor": [
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0
+    ],
+    "type": "longrope"
+  },
+  "rope_theta": 10000.0,
+  "sliding_window": 262144,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.3",
+  "use_cache": true,
+  "vocab_size": 200064
+}

checkpoint-13293/generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 199999,
+  "eos_token_id": [
+    200020,
+    199999
+  ],
+  "pad_token_id": 199999,
+  "transformers_version": "4.50.3"
+}

checkpoint-13293/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a95f7cfd274cc1286e46a9d1713da4ddf9b90c02051478cc7a095e6a862b68b1
+size 4903637712

checkpoint-13293/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cdc26676eeb2fcb18b5e7aad475c8267d2a63be86e86b65f7e5b28f1a04742c6
+size 2768428504

checkpoint-13293/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,201 @@

+{
+  "metadata": {
+    "total_size": 7672043520
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

checkpoint-13293/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-13293/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:796a84fa762533861d74178663d2c947fb1915fe6d6b1fc474c454eece28dda1
+size 5432

checkpoint-4431/config.json ADDED Viewed

	@@ -0,0 +1,143 @@

+{
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "microsoft/Phi-4-mini-instruct--configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "microsoft/Phi-4-mini-instruct--modeling_phi3.Phi3ForCausalLM",
+    "AutoTokenizer": "microsoft/Phi-4-mini-instruct--Xenova/gpt-4o"
+  },
+  "bos_token_id": 199999,
+  "embd_pdrop": 0.0,
+  "eos_token_id": 199999,
+  "full_attn_mod": 1,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "interpolate_factor": 1,
+  "lm_head_bias": false,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "phi3",
+  "num_attention_heads": 24,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "original_max_position_embeddings": 4096,
+  "pad_token_id": 199999,
+  "partial_rotary_factor": 0.75,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "long_factor": [
+      1,
+      1.118320672,
+      1.250641126,
+      1.398617824,
+      1.564103225,
+      1.74916897,
+      1.956131817,
+      2.187582649,
+      2.446418898,
+      2.735880826,
+      3.059592084,
+      3.421605075,
+      3.826451687,
+      4.279200023,
+      4.785517845,
+      5.351743533,
+      5.984965424,
+      6.693110555,
+      7.485043894,
+      8.370679318,
+      9.36110372,
+      10.4687158,
+      11.70738129,
+      13.09260651,
+      14.64173252,
+      16.37415215,
+      18.31155283,
+      20.47818807,
+      22.90118105,
+      25.61086418,
+      28.64115884,
+      32.03,
+      32.1,
+      32.13,
+      32.23,
+      32.6,
+      32.61,
+      32.64,
+      32.66,
+      32.7,
+      32.71,
+      32.93,
+      32.97,
+      33.28,
+      33.49,
+      33.5,
+      44.16,
+      47.77
+    ],
+    "short_factor": [
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0
+    ],
+    "type": "longrope"
+  },
+  "rope_theta": 10000.0,
+  "sliding_window": 262144,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.3",
+  "use_cache": true,
+  "vocab_size": 200064
+}

checkpoint-4431/generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 199999,
+  "eos_token_id": [
+    200020,
+    199999
+  ],
+  "pad_token_id": 199999,
+  "transformers_version": "4.50.3"
+}

checkpoint-4431/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c808a7192fd5b4c19efbd6ce0f51e107982d44c1ecd2cc8cd7c388465ff8e87d
+size 4903637712

checkpoint-4431/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:31cca3df25611febcfc5d5d501e0a7fffd06d622c25f5354db06d5d2f3873d9b
+size 2768428504

checkpoint-4431/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,201 @@

+{
+  "metadata": {
+    "total_size": 7672043520
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

checkpoint-4431/trainer_state.json ADDED Viewed

	@@ -0,0 +1,3135 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 4431,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0022568269013766643,
+      "grad_norm": 342.0,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 6.6491,
+      "step": 10
+    },
+    {
+      "epoch": 0.0045136538027533285,
+      "grad_norm": 60.75,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 2.1305,
+      "step": 20
+    },
+    {
+      "epoch": 0.006770480704129994,
+      "grad_norm": 13.9375,
+      "learning_rate": 6e-06,
+      "loss": 0.2525,
+      "step": 30
+    },
+    {
+      "epoch": 0.009027307605506657,
+      "grad_norm": 100.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.2105,
+      "step": 40
+    },
+    {
+      "epoch": 0.011284134506883321,
+      "grad_norm": 84.5,
+      "learning_rate": 1e-05,
+      "loss": 0.0882,
+      "step": 50
+    },
+    {
+      "epoch": 0.013540961408259987,
+      "grad_norm": 0.06591796875,
+      "learning_rate": 9.992448840897079e-06,
+      "loss": 0.2672,
+      "step": 60
+    },
+    {
+      "epoch": 0.01579778830963665,
+      "grad_norm": 0.00982666015625,
+      "learning_rate": 9.984897681794156e-06,
+      "loss": 0.0005,
+      "step": 70
+    },
+    {
+      "epoch": 0.018054615211013314,
+      "grad_norm": 0.00927734375,
+      "learning_rate": 9.977346522691234e-06,
+      "loss": 0.0073,
+      "step": 80
+    },
+    {
+      "epoch": 0.020311442112389978,
+      "grad_norm": 0.0020751953125,
+      "learning_rate": 9.969795363588312e-06,
+      "loss": 0.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.022568269013766643,
+      "grad_norm": 0.0023345947265625,
+      "learning_rate": 9.96224420448539e-06,
+      "loss": 0.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.02482509591514331,
+      "grad_norm": 0.0027618408203125,
+      "learning_rate": 9.954693045382467e-06,
+      "loss": 0.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.027081922816519974,
+      "grad_norm": 0.0198974609375,
+      "learning_rate": 9.947141886279545e-06,
+      "loss": 0.0001,
+      "step": 120
+    },
+    {
+      "epoch": 0.02933874971789664,
+      "grad_norm": 0.005035400390625,
+      "learning_rate": 9.939590727176623e-06,
+      "loss": 0.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.0315955766192733,
+      "grad_norm": 0.0927734375,
+      "learning_rate": 9.9320395680737e-06,
+      "loss": 0.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.033852403520649964,
+      "grad_norm": 0.0025177001953125,
+      "learning_rate": 9.924488408970778e-06,
+      "loss": 0.6798,
+      "step": 150
+    },
+    {
+      "epoch": 0.03610923042202663,
+      "grad_norm": 0.01239013671875,
+      "learning_rate": 9.916937249867854e-06,
+      "loss": 0.216,
+      "step": 160
+    },
+    {
+      "epoch": 0.03836605732340329,
+      "grad_norm": 0.00543212890625,
+      "learning_rate": 9.909386090764932e-06,
+      "loss": 0.0005,
+      "step": 170
+    },
+    {
+      "epoch": 0.040622884224779957,
+      "grad_norm": 0.006072998046875,
+      "learning_rate": 9.901834931662012e-06,
+      "loss": 0.4586,
+      "step": 180
+    },
+    {
+      "epoch": 0.04287971112615662,
+      "grad_norm": 0.00101470947265625,
+      "learning_rate": 9.89428377255909e-06,
+      "loss": 0.0,
+      "step": 190
+    },
+    {
+      "epoch": 0.045136538027533285,
+      "grad_norm": 0.000591278076171875,
+      "learning_rate": 9.886732613456166e-06,
+      "loss": 0.0001,
+      "step": 200
+    },
+    {
+      "epoch": 0.04739336492890995,
+      "grad_norm": 0.042236328125,
+      "learning_rate": 9.879181454353243e-06,
+      "loss": 0.4003,
+      "step": 210
+    },
+    {
+      "epoch": 0.04965019183028662,
+      "grad_norm": 0.00171661376953125,
+      "learning_rate": 9.871630295250321e-06,
+      "loss": 0.0001,
+      "step": 220
+    },
+    {
+      "epoch": 0.051907018731663285,
+      "grad_norm": 0.0009918212890625,
+      "learning_rate": 9.8640791361474e-06,
+      "loss": 0.38,
+      "step": 230
+    },
+    {
+      "epoch": 0.05416384563303995,
+      "grad_norm": 0.1376953125,
+      "learning_rate": 9.856527977044477e-06,
+      "loss": 0.6111,
+      "step": 240
+    },
+    {
+      "epoch": 0.05642067253441661,
+      "grad_norm": 0.0033721923828125,
+      "learning_rate": 9.848976817941554e-06,
+      "loss": 0.3474,
+      "step": 250
+    },
+    {
+      "epoch": 0.05867749943579328,
+      "grad_norm": 2.5,
+      "learning_rate": 9.841425658838632e-06,
+      "loss": 0.0004,
+      "step": 260
+    },
+    {
+      "epoch": 0.06093432633716994,
+      "grad_norm": 0.000698089599609375,
+      "learning_rate": 9.83387449973571e-06,
+      "loss": 0.0,
+      "step": 270
+    },
+    {
+      "epoch": 0.0631911532385466,
+      "grad_norm": 0.0159912109375,
+      "learning_rate": 9.82632334063279e-06,
+      "loss": 0.0001,
+      "step": 280
+    },
+    {
+      "epoch": 0.06544798013992327,
+      "grad_norm": 0.01904296875,
+      "learning_rate": 9.818772181529865e-06,
+      "loss": 0.0,
+      "step": 290
+    },
+    {
+      "epoch": 0.06770480704129993,
+      "grad_norm": 0.00119781494140625,
+      "learning_rate": 9.811221022426943e-06,
+      "loss": 0.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.0699616339426766,
+      "grad_norm": 0.00106048583984375,
+      "learning_rate": 9.803669863324021e-06,
+      "loss": 0.0,
+      "step": 310
+    },
+    {
+      "epoch": 0.07221846084405326,
+      "grad_norm": 0.00186920166015625,
+      "learning_rate": 9.796118704221099e-06,
+      "loss": 0.2718,
+      "step": 320
+    },
+    {
+      "epoch": 0.07447528774542993,
+      "grad_norm": 17.25,
+      "learning_rate": 9.788567545118176e-06,
+      "loss": 0.0021,
+      "step": 330
+    },
+    {
+      "epoch": 0.07673211464680658,
+      "grad_norm": 0.16796875,
+      "learning_rate": 9.781016386015254e-06,
+      "loss": 0.3681,
+      "step": 340
+    },
+    {
+      "epoch": 0.07898894154818326,
+      "grad_norm": 0.041015625,
+      "learning_rate": 9.773465226912332e-06,
+      "loss": 0.2174,
+      "step": 350
+    },
+    {
+      "epoch": 0.08124576844955991,
+      "grad_norm": 0.005401611328125,
+      "learning_rate": 9.76591406780941e-06,
+      "loss": 0.0003,
+      "step": 360
+    },
+    {
+      "epoch": 0.08350259535093658,
+      "grad_norm": 0.0069580078125,
+      "learning_rate": 9.758362908706487e-06,
+      "loss": 0.0,
+      "step": 370
+    },
+    {
+      "epoch": 0.08575942225231324,
+      "grad_norm": 0.051513671875,
+      "learning_rate": 9.750811749603565e-06,
+      "loss": 0.0,
+      "step": 380
+    },
+    {
+      "epoch": 0.08801624915368991,
+      "grad_norm": 0.00099945068359375,
+      "learning_rate": 9.743260590500643e-06,
+      "loss": 0.0001,
+      "step": 390
+    },
+    {
+      "epoch": 0.09027307605506657,
+      "grad_norm": 69.0,
+      "learning_rate": 9.73570943139772e-06,
+      "loss": 0.3307,
+      "step": 400
+    },
+    {
+      "epoch": 0.09252990295644324,
+      "grad_norm": 0.047607421875,
+      "learning_rate": 9.728158272294797e-06,
+      "loss": 0.0001,
+      "step": 410
+    },
+    {
+      "epoch": 0.0947867298578199,
+      "grad_norm": 0.002288818359375,
+      "learning_rate": 9.720607113191876e-06,
+      "loss": 0.0,
+      "step": 420
+    },
+    {
+      "epoch": 0.09704355675919657,
+      "grad_norm": 0.00250244140625,
+      "learning_rate": 9.713055954088954e-06,
+      "loss": 0.0001,
+      "step": 430
+    },
+    {
+      "epoch": 0.09930038366057324,
+      "grad_norm": 0.00469970703125,
+      "learning_rate": 9.705504794986032e-06,
+      "loss": 0.0,
+      "step": 440
+    },
+    {
+      "epoch": 0.1015572105619499,
+      "grad_norm": 0.000396728515625,
+      "learning_rate": 9.697953635883108e-06,
+      "loss": 0.0001,
+      "step": 450
+    },
+    {
+      "epoch": 0.10381403746332657,
+      "grad_norm": 57.5,
+      "learning_rate": 9.690402476780186e-06,
+      "loss": 0.3762,
+      "step": 460
+    },
+    {
+      "epoch": 0.10607086436470323,
+      "grad_norm": 0.00113677978515625,
+      "learning_rate": 9.682851317677265e-06,
+      "loss": 0.0001,
+      "step": 470
+    },
+    {
+      "epoch": 0.1083276912660799,
+      "grad_norm": 0.000865936279296875,
+      "learning_rate": 9.675300158574343e-06,
+      "loss": 0.0,
+      "step": 480
+    },
+    {
+      "epoch": 0.11058451816745656,
+      "grad_norm": 0.0208740234375,
+      "learning_rate": 9.66774899947142e-06,
+      "loss": 0.3327,
+      "step": 490
+    },
+    {
+      "epoch": 0.11284134506883323,
+      "grad_norm": 0.00079345703125,
+      "learning_rate": 9.660197840368497e-06,
+      "loss": 0.0,
+      "step": 500
+    },
+    {
+      "epoch": 0.11509817197020988,
+      "grad_norm": 0.002532958984375,
+      "learning_rate": 9.652646681265574e-06,
+      "loss": 0.8702,
+      "step": 510
+    },
+    {
+      "epoch": 0.11735499887158655,
+      "grad_norm": 0.029541015625,
+      "learning_rate": 9.645095522162652e-06,
+      "loss": 0.0,
+      "step": 520
+    },
+    {
+      "epoch": 0.11961182577296321,
+      "grad_norm": 0.0025177001953125,
+      "learning_rate": 9.637544363059732e-06,
+      "loss": 0.1008,
+      "step": 530
+    },
+    {
+      "epoch": 0.12186865267433988,
+      "grad_norm": 0.00628662109375,
+      "learning_rate": 9.629993203956808e-06,
+      "loss": 0.0,
+      "step": 540
+    },
+    {
+      "epoch": 0.12412547957571654,
+      "grad_norm": 0.0291748046875,
+      "learning_rate": 9.622442044853885e-06,
+      "loss": 0.0002,
+      "step": 550
+    },
+    {
+      "epoch": 0.1263823064770932,
+      "grad_norm": 0.26171875,
+      "learning_rate": 9.614890885750963e-06,
+      "loss": 0.0001,
+      "step": 560
+    },
+    {
+      "epoch": 0.12863913337846988,
+      "grad_norm": 0.0028839111328125,
+      "learning_rate": 9.607339726648041e-06,
+      "loss": 0.0,
+      "step": 570
+    },
+    {
+      "epoch": 0.13089596027984654,
+      "grad_norm": 0.0004730224609375,
+      "learning_rate": 9.599788567545119e-06,
+      "loss": 0.0,
+      "step": 580
+    },
+    {
+      "epoch": 0.1331527871812232,
+      "grad_norm": 0.0004100799560546875,
+      "learning_rate": 9.592237408442197e-06,
+      "loss": 0.0,
+      "step": 590
+    },
+    {
+      "epoch": 0.13540961408259986,
+      "grad_norm": 0.0712890625,
+      "learning_rate": 9.584686249339274e-06,
+      "loss": 0.0,
+      "step": 600
+    },
+    {
+      "epoch": 0.13766644098397654,
+      "grad_norm": 0.0244140625,
+      "learning_rate": 9.577135090236352e-06,
+      "loss": 0.0198,
+      "step": 610
+    },
+    {
+      "epoch": 0.1399232678853532,
+      "grad_norm": 16.625,
+      "learning_rate": 9.56958393113343e-06,
+      "loss": 0.0008,
+      "step": 620
+    },
+    {
+      "epoch": 0.14218009478672985,
+      "grad_norm": 1.6796875,
+      "learning_rate": 9.562032772030508e-06,
+      "loss": 0.0001,
+      "step": 630
+    },
+    {
+      "epoch": 0.1444369216881065,
+      "grad_norm": 0.00055694580078125,
+      "learning_rate": 9.554481612927585e-06,
+      "loss": 0.0,
+      "step": 640
+    },
+    {
+      "epoch": 0.1466937485894832,
+      "grad_norm": 0.000457763671875,
+      "learning_rate": 9.546930453824663e-06,
+      "loss": 0.0,
+      "step": 650
+    },
+    {
+      "epoch": 0.14895057549085985,
+      "grad_norm": 0.001251220703125,
+      "learning_rate": 9.53937929472174e-06,
+      "loss": 0.0,
+      "step": 660
+    },
+    {
+      "epoch": 0.1512074023922365,
+      "grad_norm": 0.00077056884765625,
+      "learning_rate": 9.531828135618819e-06,
+      "loss": 0.3169,
+      "step": 670
+    },
+    {
+      "epoch": 0.15346422929361317,
+      "grad_norm": 0.00122833251953125,
+      "learning_rate": 9.524276976515896e-06,
+      "loss": 0.7091,
+      "step": 680
+    },
+    {
+      "epoch": 0.15572105619498985,
+      "grad_norm": 0.00067901611328125,
+      "learning_rate": 9.516725817412974e-06,
+      "loss": 0.0,
+      "step": 690
+    },
+    {
+      "epoch": 0.1579778830963665,
+      "grad_norm": 0.00445556640625,
+      "learning_rate": 9.50917465831005e-06,
+      "loss": 0.4241,
+      "step": 700
+    },
+    {
+      "epoch": 0.16023470999774317,
+      "grad_norm": 0.000370025634765625,
+      "learning_rate": 9.501623499207128e-06,
+      "loss": 0.0071,
+      "step": 710
+    },
+    {
+      "epoch": 0.16249153689911983,
+      "grad_norm": 0.0016326904296875,
+      "learning_rate": 9.494072340104207e-06,
+      "loss": 0.2712,
+      "step": 720
+    },
+    {
+      "epoch": 0.1647483638004965,
+      "grad_norm": 0.07470703125,
+      "learning_rate": 9.486521181001285e-06,
+      "loss": 0.0,
+      "step": 730
+    },
+    {
+      "epoch": 0.16700519070187317,
+      "grad_norm": 0.10302734375,
+      "learning_rate": 9.478970021898363e-06,
+      "loss": 0.3055,
+      "step": 740
+    },
+    {
+      "epoch": 0.16926201760324983,
+      "grad_norm": 0.032470703125,
+      "learning_rate": 9.471418862795439e-06,
+      "loss": 0.0,
+      "step": 750
+    },
+    {
+      "epoch": 0.17151884450462648,
+      "grad_norm": 0.0003681182861328125,
+      "learning_rate": 9.463867703692517e-06,
+      "loss": 0.0,
+      "step": 760
+    },
+    {
+      "epoch": 0.17377567140600317,
+      "grad_norm": 0.0004787445068359375,
+      "learning_rate": 9.456316544589596e-06,
+      "loss": 0.0,
+      "step": 770
+    },
+    {
+      "epoch": 0.17603249830737983,
+      "grad_norm": 0.0021514892578125,
+      "learning_rate": 9.448765385486674e-06,
+      "loss": 0.0003,
+      "step": 780
+    },
+    {
+      "epoch": 0.17828932520875648,
+      "grad_norm": 0.00040435791015625,
+      "learning_rate": 9.44121422638375e-06,
+      "loss": 0.0,
+      "step": 790
+    },
+    {
+      "epoch": 0.18054615211013314,
+      "grad_norm": 0.00135040283203125,
+      "learning_rate": 9.433663067280828e-06,
+      "loss": 0.0,
+      "step": 800
+    },
+    {
+      "epoch": 0.18280297901150983,
+      "grad_norm": 0.000331878662109375,
+      "learning_rate": 9.426111908177906e-06,
+      "loss": 0.0,
+      "step": 810
+    },
+    {
+      "epoch": 0.18505980591288648,
+      "grad_norm": 0.00049591064453125,
+      "learning_rate": 9.418560749074985e-06,
+      "loss": 0.0,
+      "step": 820
+    },
+    {
+      "epoch": 0.18731663281426314,
+      "grad_norm": 0.0003795623779296875,
+      "learning_rate": 9.411009589972061e-06,
+      "loss": 0.0,
+      "step": 830
+    },
+    {
+      "epoch": 0.1895734597156398,
+      "grad_norm": 0.000629425048828125,
+      "learning_rate": 9.403458430869139e-06,
+      "loss": 0.3432,
+      "step": 840
+    },
+    {
+      "epoch": 0.19183028661701648,
+      "grad_norm": 0.00048828125,
+      "learning_rate": 9.395907271766217e-06,
+      "loss": 0.0,
+      "step": 850
+    },
+    {
+      "epoch": 0.19408711351839314,
+      "grad_norm": 0.0004253387451171875,
+      "learning_rate": 9.388356112663294e-06,
+      "loss": 0.0,
+      "step": 860
+    },
+    {
+      "epoch": 0.1963439404197698,
+      "grad_norm": 0.000579833984375,
+      "learning_rate": 9.380804953560372e-06,
+      "loss": 0.0,
+      "step": 870
+    },
+    {
+      "epoch": 0.19860076732114648,
+      "grad_norm": 0.007232666015625,
+      "learning_rate": 9.37325379445745e-06,
+      "loss": 0.0,
+      "step": 880
+    },
+    {
+      "epoch": 0.20085759422252314,
+      "grad_norm": 0.003631591796875,
+      "learning_rate": 9.365702635354528e-06,
+      "loss": 0.1363,
+      "step": 890
+    },
+    {
+      "epoch": 0.2031144211238998,
+      "grad_norm": 0.003875732421875,
+      "learning_rate": 9.358151476251605e-06,
+      "loss": 0.0,
+      "step": 900
+    },
+    {
+      "epoch": 0.20537124802527645,
+      "grad_norm": 0.00830078125,
+      "learning_rate": 9.350600317148683e-06,
+      "loss": 0.0,
+      "step": 910
+    },
+    {
+      "epoch": 0.20762807492665314,
+      "grad_norm": 0.00213623046875,
+      "learning_rate": 9.343049158045761e-06,
+      "loss": 0.0,
+      "step": 920
+    },
+    {
+      "epoch": 0.2098849018280298,
+      "grad_norm": 0.0003643035888671875,
+      "learning_rate": 9.335497998942839e-06,
+      "loss": 0.0929,
+      "step": 930
+    },
+    {
+      "epoch": 0.21214172872940645,
+      "grad_norm": 0.67578125,
+      "learning_rate": 9.327946839839916e-06,
+      "loss": 0.6867,
+      "step": 940
+    },
+    {
+      "epoch": 0.2143985556307831,
+      "grad_norm": 0.0030975341796875,
+      "learning_rate": 9.320395680736994e-06,
+      "loss": 0.0005,
+      "step": 950
+    },
+    {
+      "epoch": 0.2166553825321598,
+      "grad_norm": 0.0011138916015625,
+      "learning_rate": 9.312844521634072e-06,
+      "loss": 0.3669,
+      "step": 960
+    },
+    {
+      "epoch": 0.21891220943353645,
+      "grad_norm": 71.5,
+      "learning_rate": 9.30529336253115e-06,
+      "loss": 0.2307,
+      "step": 970
+    },
+    {
+      "epoch": 0.2211690363349131,
+      "grad_norm": 0.0164794921875,
+      "learning_rate": 9.297742203428227e-06,
+      "loss": 0.0213,
+      "step": 980
+    },
+    {
+      "epoch": 0.22342586323628977,
+      "grad_norm": 0.003570556640625,
+      "learning_rate": 9.290191044325305e-06,
+      "loss": 0.0001,
+      "step": 990
+    },
+    {
+      "epoch": 0.22568269013766645,
+      "grad_norm": 0.000316619873046875,
+      "learning_rate": 9.282639885222381e-06,
+      "loss": 0.0002,
+      "step": 1000
+    },
+    {
+      "epoch": 0.2279395170390431,
+      "grad_norm": 0.0004711151123046875,
+      "learning_rate": 9.27508872611946e-06,
+      "loss": 0.0,
+      "step": 1010
+    },
+    {
+      "epoch": 0.23019634394041977,
+      "grad_norm": 0.00096893310546875,
+      "learning_rate": 9.267537567016539e-06,
+      "loss": 0.0007,
+      "step": 1020
+    },
+    {
+      "epoch": 0.23245317084179642,
+      "grad_norm": 0.005950927734375,
+      "learning_rate": 9.259986407913616e-06,
+      "loss": 0.4785,
+      "step": 1030
+    },
+    {
+      "epoch": 0.2347099977431731,
+      "grad_norm": 0.0087890625,
+      "learning_rate": 9.252435248810692e-06,
+      "loss": 0.2708,
+      "step": 1040
+    },
+    {
+      "epoch": 0.23696682464454977,
+      "grad_norm": 0.00506591796875,
+      "learning_rate": 9.24488408970777e-06,
+      "loss": 0.2259,
+      "step": 1050
+    },
+    {
+      "epoch": 0.23922365154592642,
+      "grad_norm": 0.001434326171875,
+      "learning_rate": 9.237332930604848e-06,
+      "loss": 0.0045,
+      "step": 1060
+    },
+    {
+      "epoch": 0.24148047844730308,
+      "grad_norm": 0.003143310546875,
+      "learning_rate": 9.229781771501927e-06,
+      "loss": 0.0,
+      "step": 1070
+    },
+    {
+      "epoch": 0.24373730534867977,
+      "grad_norm": 0.0025787353515625,
+      "learning_rate": 9.222230612399003e-06,
+      "loss": 0.0,
+      "step": 1080
+    },
+    {
+      "epoch": 0.24599413225005642,
+      "grad_norm": 0.0003833770751953125,
+      "learning_rate": 9.214679453296081e-06,
+      "loss": 0.0,
+      "step": 1090
+    },
+    {
+      "epoch": 0.24825095915143308,
+      "grad_norm": 0.00494384765625,
+      "learning_rate": 9.207128294193159e-06,
+      "loss": 0.0,
+      "step": 1100
+    },
+    {
+      "epoch": 0.25050778605280977,
+      "grad_norm": 0.0024566650390625,
+      "learning_rate": 9.199577135090237e-06,
+      "loss": 0.1667,
+      "step": 1110
+    },
+    {
+      "epoch": 0.2527646129541864,
+      "grad_norm": 0.00183868408203125,
+      "learning_rate": 9.192025975987314e-06,
+      "loss": 0.0001,
+      "step": 1120
+    },
+    {
+      "epoch": 0.2550214398555631,
+      "grad_norm": 0.00396728515625,
+      "learning_rate": 9.184474816884392e-06,
+      "loss": 0.0,
+      "step": 1130
+    },
+    {
+      "epoch": 0.25727826675693977,
+      "grad_norm": 0.0147705078125,
+      "learning_rate": 9.17692365778147e-06,
+      "loss": 0.0,
+      "step": 1140
+    },
+    {
+      "epoch": 0.2595350936583164,
+      "grad_norm": 0.00179290771484375,
+      "learning_rate": 9.169372498678548e-06,
+      "loss": 0.0,
+      "step": 1150
+    },
+    {
+      "epoch": 0.2617919205596931,
+      "grad_norm": 0.0025634765625,
+      "learning_rate": 9.161821339575625e-06,
+      "loss": 0.0,
+      "step": 1160
+    },
+    {
+      "epoch": 0.2640487474610697,
+      "grad_norm": 0.004486083984375,
+      "learning_rate": 9.154270180472703e-06,
+      "loss": 0.0,
+      "step": 1170
+    },
+    {
+      "epoch": 0.2663055743624464,
+      "grad_norm": 0.0001277923583984375,
+      "learning_rate": 9.146719021369781e-06,
+      "loss": 0.0,
+      "step": 1180
+    },
+    {
+      "epoch": 0.2685624012638231,
+      "grad_norm": 0.0001659393310546875,
+      "learning_rate": 9.139167862266859e-06,
+      "loss": 0.0,
+      "step": 1190
+    },
+    {
+      "epoch": 0.2708192281651997,
+      "grad_norm": 0.0002899169921875,
+      "learning_rate": 9.131616703163937e-06,
+      "loss": 0.0412,
+      "step": 1200
+    },
+    {
+      "epoch": 0.2730760550665764,
+      "grad_norm": 0.006134033203125,
+      "learning_rate": 9.124065544061014e-06,
+      "loss": 0.0,
+      "step": 1210
+    },
+    {
+      "epoch": 0.2753328819679531,
+      "grad_norm": 0.03759765625,
+      "learning_rate": 9.116514384958092e-06,
+      "loss": 0.2408,
+      "step": 1220
+    },
+    {
+      "epoch": 0.2775897088693297,
+      "grad_norm": 0.00067138671875,
+      "learning_rate": 9.10896322585517e-06,
+      "loss": 0.0,
+      "step": 1230
+    },
+    {
+      "epoch": 0.2798465357707064,
+      "grad_norm": 0.0007171630859375,
+      "learning_rate": 9.101412066752248e-06,
+      "loss": 0.0007,
+      "step": 1240
+    },
+    {
+      "epoch": 0.282103362672083,
+      "grad_norm": 0.004669189453125,
+      "learning_rate": 9.093860907649325e-06,
+      "loss": 0.3364,
+      "step": 1250
+    },
+    {
+      "epoch": 0.2843601895734597,
+      "grad_norm": 0.000713348388671875,
+      "learning_rate": 9.086309748546403e-06,
+      "loss": 0.0,
+      "step": 1260
+    },
+    {
+      "epoch": 0.2866170164748364,
+      "grad_norm": 0.0010223388671875,
+      "learning_rate": 9.078758589443481e-06,
+      "loss": 0.0,
+      "step": 1270
+    },
+    {
+      "epoch": 0.288873843376213,
+      "grad_norm": 0.002960205078125,
+      "learning_rate": 9.071207430340559e-06,
+      "loss": 0.0,
+      "step": 1280
+    },
+    {
+      "epoch": 0.2911306702775897,
+      "grad_norm": 0.00034332275390625,
+      "learning_rate": 9.063656271237635e-06,
+      "loss": 0.0,
+      "step": 1290
+    },
+    {
+      "epoch": 0.2933874971789664,
+      "grad_norm": 0.002349853515625,
+      "learning_rate": 9.056105112134712e-06,
+      "loss": 0.0,
+      "step": 1300
+    },
+    {
+      "epoch": 0.295644324080343,
+      "grad_norm": 0.00058746337890625,
+      "learning_rate": 9.048553953031792e-06,
+      "loss": 0.2488,
+      "step": 1310
+    },
+    {
+      "epoch": 0.2979011509817197,
+      "grad_norm": 0.00115966796875,
+      "learning_rate": 9.04100279392887e-06,
+      "loss": 0.0,
+      "step": 1320
+    },
+    {
+      "epoch": 0.3001579778830964,
+      "grad_norm": 0.004425048828125,
+      "learning_rate": 9.033451634825946e-06,
+      "loss": 0.2421,
+      "step": 1330
+    },
+    {
+      "epoch": 0.302414804784473,
+      "grad_norm": 0.000965118408203125,
+      "learning_rate": 9.025900475723023e-06,
+      "loss": 0.0244,
+      "step": 1340
+    },
+    {
+      "epoch": 0.3046716316858497,
+      "grad_norm": 0.0810546875,
+      "learning_rate": 9.018349316620101e-06,
+      "loss": 0.0,
+      "step": 1350
+    },
+    {
+      "epoch": 0.30692845858722634,
+      "grad_norm": 0.00732421875,
+      "learning_rate": 9.01079815751718e-06,
+      "loss": 0.0,
+      "step": 1360
+    },
+    {
+      "epoch": 0.309185285488603,
+      "grad_norm": 0.0010223388671875,
+      "learning_rate": 9.003246998414258e-06,
+      "loss": 0.0,
+      "step": 1370
+    },
+    {
+      "epoch": 0.3114421123899797,
+      "grad_norm": 0.00130462646484375,
+      "learning_rate": 8.995695839311335e-06,
+      "loss": 0.0,
+      "step": 1380
+    },
+    {
+      "epoch": 0.31369893929135634,
+      "grad_norm": 0.0004634857177734375,
+      "learning_rate": 8.988144680208412e-06,
+      "loss": 0.0,
+      "step": 1390
+    },
+    {
+      "epoch": 0.315955766192733,
+      "grad_norm": 0.0206298828125,
+      "learning_rate": 8.98059352110549e-06,
+      "loss": 0.2664,
+      "step": 1400
+    },
+    {
+      "epoch": 0.3182125930941097,
+      "grad_norm": 0.005218505859375,
+      "learning_rate": 8.973042362002568e-06,
+      "loss": 0.0,
+      "step": 1410
+    },
+    {
+      "epoch": 0.32046941999548634,
+      "grad_norm": 0.00154876708984375,
+      "learning_rate": 8.965491202899646e-06,
+      "loss": 0.1572,
+      "step": 1420
+    },
+    {
+      "epoch": 0.322726246896863,
+      "grad_norm": 0.000640869140625,
+      "learning_rate": 8.957940043796723e-06,
+      "loss": 0.0003,
+      "step": 1430
+    },
+    {
+      "epoch": 0.32498307379823965,
+      "grad_norm": 0.00119781494140625,
+      "learning_rate": 8.950388884693801e-06,
+      "loss": 0.0,
+      "step": 1440
+    },
+    {
+      "epoch": 0.32723990069961634,
+      "grad_norm": 0.0245361328125,
+      "learning_rate": 8.942837725590879e-06,
+      "loss": 0.0,
+      "step": 1450
+    },
+    {
+      "epoch": 0.329496727600993,
+      "grad_norm": 0.0004062652587890625,
+      "learning_rate": 8.935286566487957e-06,
+      "loss": 0.0,
+      "step": 1460
+    },
+    {
+      "epoch": 0.33175355450236965,
+      "grad_norm": 0.000385284423828125,
+      "learning_rate": 8.927735407385034e-06,
+      "loss": 0.0,
+      "step": 1470
+    },
+    {
+      "epoch": 0.33401038140374634,
+      "grad_norm": 0.00616455078125,
+      "learning_rate": 8.920184248282112e-06,
+      "loss": 0.0,
+      "step": 1480
+    },
+    {
+      "epoch": 0.336267208305123,
+      "grad_norm": 0.002532958984375,
+      "learning_rate": 8.91263308917919e-06,
+      "loss": 0.0,
+      "step": 1490
+    },
+    {
+      "epoch": 0.33852403520649965,
+      "grad_norm": 0.0011444091796875,
+      "learning_rate": 8.905081930076268e-06,
+      "loss": 0.0,
+      "step": 1500
+    },
+    {
+      "epoch": 0.34078086210787634,
+      "grad_norm": 0.0004138946533203125,
+      "learning_rate": 8.897530770973345e-06,
+      "loss": 0.0,
+      "step": 1510
+    },
+    {
+      "epoch": 0.34303768900925297,
+      "grad_norm": 0.000579833984375,
+      "learning_rate": 8.889979611870423e-06,
+      "loss": 0.3398,
+      "step": 1520
+    },
+    {
+      "epoch": 0.34529451591062965,
+      "grad_norm": 0.0003948211669921875,
+      "learning_rate": 8.882428452767501e-06,
+      "loss": 0.0,
+      "step": 1530
+    },
+    {
+      "epoch": 0.34755134281200634,
+      "grad_norm": 0.000247955322265625,
+      "learning_rate": 8.874877293664577e-06,
+      "loss": 0.0,
+      "step": 1540
+    },
+    {
+      "epoch": 0.34980816971338297,
+      "grad_norm": 0.000255584716796875,
+      "learning_rate": 8.867326134561656e-06,
+      "loss": 0.2765,
+      "step": 1550
+    },
+    {
+      "epoch": 0.35206499661475965,
+      "grad_norm": 0.0001964569091796875,
+      "learning_rate": 8.859774975458734e-06,
+      "loss": 0.0,
+      "step": 1560
+    },
+    {
+      "epoch": 0.35432182351613634,
+      "grad_norm": 0.00037384033203125,
+      "learning_rate": 8.852223816355812e-06,
+      "loss": 0.0,
+      "step": 1570
+    },
+    {
+      "epoch": 0.35657865041751297,
+      "grad_norm": 0.00052642822265625,
+      "learning_rate": 8.84467265725289e-06,
+      "loss": 0.0,
+      "step": 1580
+    },
+    {
+      "epoch": 0.35883547731888965,
+      "grad_norm": 0.00023555755615234375,
+      "learning_rate": 8.837121498149966e-06,
+      "loss": 0.4111,
+      "step": 1590
+    },
+    {
+      "epoch": 0.3610923042202663,
+      "grad_norm": 0.05419921875,
+      "learning_rate": 8.829570339047044e-06,
+      "loss": 0.0007,
+      "step": 1600
+    },
+    {
+      "epoch": 0.36334913112164297,
+      "grad_norm": 0.00982666015625,
+      "learning_rate": 8.822019179944123e-06,
+      "loss": 0.0,
+      "step": 1610
+    },
+    {
+      "epoch": 0.36560595802301965,
+      "grad_norm": 0.0007476806640625,
+      "learning_rate": 8.8144680208412e-06,
+      "loss": 0.0,
+      "step": 1620
+    },
+    {
+      "epoch": 0.3678627849243963,
+      "grad_norm": 0.0030059814453125,
+      "learning_rate": 8.806916861738277e-06,
+      "loss": 0.0,
+      "step": 1630
+    },
+    {
+      "epoch": 0.37011961182577297,
+      "grad_norm": 0.005889892578125,
+      "learning_rate": 8.799365702635355e-06,
+      "loss": 0.0,
+      "step": 1640
+    },
+    {
+      "epoch": 0.37237643872714965,
+      "grad_norm": 0.006927490234375,
+      "learning_rate": 8.791814543532432e-06,
+      "loss": 0.0001,
+      "step": 1650
+    },
+    {
+      "epoch": 0.3746332656285263,
+      "grad_norm": 0.00494384765625,
+      "learning_rate": 8.784263384429512e-06,
+      "loss": 0.0,
+      "step": 1660
+    },
+    {
+      "epoch": 0.37689009252990296,
+      "grad_norm": 0.00799560546875,
+      "learning_rate": 8.776712225326588e-06,
+      "loss": 0.0,
+      "step": 1670
+    },
+    {
+      "epoch": 0.3791469194312796,
+      "grad_norm": 0.0003604888916015625,
+      "learning_rate": 8.769161066223666e-06,
+      "loss": 0.0,
+      "step": 1680
+    },
+    {
+      "epoch": 0.3814037463326563,
+      "grad_norm": 66.5,
+      "learning_rate": 8.761609907120743e-06,
+      "loss": 0.651,
+      "step": 1690
+    },
+    {
+      "epoch": 0.38366057323403296,
+      "grad_norm": 0.005645751953125,
+      "learning_rate": 8.754058748017821e-06,
+      "loss": 0.0,
+      "step": 1700
+    },
+    {
+      "epoch": 0.3859174001354096,
+      "grad_norm": 0.002105712890625,
+      "learning_rate": 8.746507588914899e-06,
+      "loss": 0.0,
+      "step": 1710
+    },
+    {
+      "epoch": 0.3881742270367863,
+      "grad_norm": 0.0003948211669921875,
+      "learning_rate": 8.738956429811977e-06,
+      "loss": 0.0,
+      "step": 1720
+    },
+    {
+      "epoch": 0.39043105393816296,
+      "grad_norm": 0.0014801025390625,
+      "learning_rate": 8.731405270709054e-06,
+      "loss": 0.0,
+      "step": 1730
+    },
+    {
+      "epoch": 0.3926878808395396,
+      "grad_norm": 0.000560760498046875,
+      "learning_rate": 8.723854111606132e-06,
+      "loss": 0.0,
+      "step": 1740
+    },
+    {
+      "epoch": 0.3949447077409163,
+      "grad_norm": 0.000659942626953125,
+      "learning_rate": 8.71630295250321e-06,
+      "loss": 0.0,
+      "step": 1750
+    },
+    {
+      "epoch": 0.39720153464229296,
+      "grad_norm": 0.162109375,
+      "learning_rate": 8.708751793400288e-06,
+      "loss": 0.0,
+      "step": 1760
+    },
+    {
+      "epoch": 0.3994583615436696,
+      "grad_norm": 0.000843048095703125,
+      "learning_rate": 8.701200634297366e-06,
+      "loss": 0.1511,
+      "step": 1770
+    },
+    {
+      "epoch": 0.4017151884450463,
+      "grad_norm": 0.003631591796875,
+      "learning_rate": 8.693649475194443e-06,
+      "loss": 0.8574,
+      "step": 1780
+    },
+    {
+      "epoch": 0.4039720153464229,
+      "grad_norm": 0.004425048828125,
+      "learning_rate": 8.686098316091521e-06,
+      "loss": 0.0013,
+      "step": 1790
+    },
+    {
+      "epoch": 0.4062288422477996,
+      "grad_norm": 0.004486083984375,
+      "learning_rate": 8.678547156988599e-06,
+      "loss": 0.0002,
+      "step": 1800
+    },
+    {
+      "epoch": 0.4084856691491763,
+      "grad_norm": 0.0019683837890625,
+      "learning_rate": 8.670995997885677e-06,
+      "loss": 0.4738,
+      "step": 1810
+    },
+    {
+      "epoch": 0.4107424960505529,
+      "grad_norm": 0.01092529296875,
+      "learning_rate": 8.663444838782754e-06,
+      "loss": 0.0,
+      "step": 1820
+    },
+    {
+      "epoch": 0.4129993229519296,
+      "grad_norm": 0.0013885498046875,
+      "learning_rate": 8.655893679679832e-06,
+      "loss": 0.0,
+      "step": 1830
+    },
+    {
+      "epoch": 0.4152561498533063,
+      "grad_norm": 0.09326171875,
+      "learning_rate": 8.648342520576908e-06,
+      "loss": 0.0,
+      "step": 1840
+    },
+    {
+      "epoch": 0.4175129767546829,
+      "grad_norm": 0.01409912109375,
+      "learning_rate": 8.640791361473988e-06,
+      "loss": 0.0001,
+      "step": 1850
+    },
+    {
+      "epoch": 0.4197698036560596,
+      "grad_norm": 0.004119873046875,
+      "learning_rate": 8.633240202371065e-06,
+      "loss": 0.4574,
+      "step": 1860
+    },
+    {
+      "epoch": 0.4220266305574362,
+      "grad_norm": 0.00121307373046875,
+      "learning_rate": 8.625689043268143e-06,
+      "loss": 0.0,
+      "step": 1870
+    },
+    {
+      "epoch": 0.4242834574588129,
+      "grad_norm": 0.006103515625,
+      "learning_rate": 8.61813788416522e-06,
+      "loss": 0.0,
+      "step": 1880
+    },
+    {
+      "epoch": 0.4265402843601896,
+      "grad_norm": 0.005157470703125,
+      "learning_rate": 8.610586725062297e-06,
+      "loss": 0.0,
+      "step": 1890
+    },
+    {
+      "epoch": 0.4287971112615662,
+      "grad_norm": 0.00360107421875,
+      "learning_rate": 8.603035565959376e-06,
+      "loss": 0.715,
+      "step": 1900
+    },
+    {
+      "epoch": 0.4310539381629429,
+      "grad_norm": 0.0028076171875,
+      "learning_rate": 8.595484406856454e-06,
+      "loss": 0.0,
+      "step": 1910
+    },
+    {
+      "epoch": 0.4333107650643196,
+      "grad_norm": 0.00799560546875,
+      "learning_rate": 8.58793324775353e-06,
+      "loss": 0.0001,
+      "step": 1920
+    },
+    {
+      "epoch": 0.4355675919656962,
+      "grad_norm": 0.003265380859375,
+      "learning_rate": 8.580382088650608e-06,
+      "loss": 0.2658,
+      "step": 1930
+    },
+    {
+      "epoch": 0.4378244188670729,
+      "grad_norm": 0.00970458984375,
+      "learning_rate": 8.572830929547686e-06,
+      "loss": 0.0,
+      "step": 1940
+    },
+    {
+      "epoch": 0.44008124576844954,
+      "grad_norm": 0.1376953125,
+      "learning_rate": 8.565279770444764e-06,
+      "loss": 0.0,
+      "step": 1950
+    },
+    {
+      "epoch": 0.4423380726698262,
+      "grad_norm": 0.007568359375,
+      "learning_rate": 8.557728611341841e-06,
+      "loss": 0.0,
+      "step": 1960
+    },
+    {
+      "epoch": 0.4445948995712029,
+      "grad_norm": 0.000518798828125,
+      "learning_rate": 8.550177452238919e-06,
+      "loss": 0.0,
+      "step": 1970
+    },
+    {
+      "epoch": 0.44685172647257954,
+      "grad_norm": 0.0037841796875,
+      "learning_rate": 8.542626293135997e-06,
+      "loss": 0.0,
+      "step": 1980
+    },
+    {
+      "epoch": 0.4491085533739562,
+      "grad_norm": 0.000659942626953125,
+      "learning_rate": 8.535075134033075e-06,
+      "loss": 0.0,
+      "step": 1990
+    },
+    {
+      "epoch": 0.4513653802753329,
+      "grad_norm": 0.000308990478515625,
+      "learning_rate": 8.527523974930152e-06,
+      "loss": 0.0,
+      "step": 2000
+    },
+    {
+      "epoch": 0.45362220717670954,
+      "grad_norm": 0.00167083740234375,
+      "learning_rate": 8.51997281582723e-06,
+      "loss": 0.187,
+      "step": 2010
+    },
+    {
+      "epoch": 0.4558790340780862,
+      "grad_norm": 0.001251220703125,
+      "learning_rate": 8.512421656724308e-06,
+      "loss": 0.7379,
+      "step": 2020
+    },
+    {
+      "epoch": 0.45813586097946285,
+      "grad_norm": 0.003753662109375,
+      "learning_rate": 8.504870497621386e-06,
+      "loss": 0.0,
+      "step": 2030
+    },
+    {
+      "epoch": 0.46039268788083954,
+      "grad_norm": 0.00179290771484375,
+      "learning_rate": 8.497319338518463e-06,
+      "loss": 0.0,
+      "step": 2040
+    },
+    {
+      "epoch": 0.4626495147822162,
+      "grad_norm": 0.00034332275390625,
+      "learning_rate": 8.489768179415541e-06,
+      "loss": 0.0,
+      "step": 2050
+    },
+    {
+      "epoch": 0.46490634168359285,
+      "grad_norm": 0.0003948211669921875,
+      "learning_rate": 8.482217020312619e-06,
+      "loss": 0.0,
+      "step": 2060
+    },
+    {
+      "epoch": 0.46716316858496953,
+      "grad_norm": 0.0012359619140625,
+      "learning_rate": 8.474665861209697e-06,
+      "loss": 0.0,
+      "step": 2070
+    },
+    {
+      "epoch": 0.4694199954863462,
+      "grad_norm": 0.000896453857421875,
+      "learning_rate": 8.467114702106774e-06,
+      "loss": 0.0,
+      "step": 2080
+    },
+    {
+      "epoch": 0.47167682238772285,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.459563543003852e-06,
+      "loss": 0.0007,
+      "step": 2090
+    },
+    {
+      "epoch": 0.47393364928909953,
+      "grad_norm": 0.00017452239990234375,
+      "learning_rate": 8.45201238390093e-06,
+      "loss": 0.0,
+      "step": 2100
+    },
+    {
+      "epoch": 0.47619047619047616,
+      "grad_norm": 0.00037384033203125,
+      "learning_rate": 8.444461224798008e-06,
+      "loss": 0.0,
+      "step": 2110
+    },
+    {
+      "epoch": 0.47844730309185285,
+      "grad_norm": 0.0001983642578125,
+      "learning_rate": 8.436910065695085e-06,
+      "loss": 0.0,
+      "step": 2120
+    },
+    {
+      "epoch": 0.48070412999322953,
+      "grad_norm": 0.00189971923828125,
+      "learning_rate": 8.429358906592162e-06,
+      "loss": 0.0,
+      "step": 2130
+    },
+    {
+      "epoch": 0.48296095689460616,
+      "grad_norm": 0.0002422332763671875,
+      "learning_rate": 8.421807747489241e-06,
+      "loss": 0.0,
+      "step": 2140
+    },
+    {
+      "epoch": 0.48521778379598285,
+      "grad_norm": 0.000522613525390625,
+      "learning_rate": 8.414256588386319e-06,
+      "loss": 0.0,
+      "step": 2150
+    },
+    {
+      "epoch": 0.48747461069735953,
+      "grad_norm": 0.00021266937255859375,
+      "learning_rate": 8.406705429283396e-06,
+      "loss": 0.0,
+      "step": 2160
+    },
+    {
+      "epoch": 0.48973143759873616,
+      "grad_norm": 0.000537872314453125,
+      "learning_rate": 8.399154270180473e-06,
+      "loss": 0.0,
+      "step": 2170
+    },
+    {
+      "epoch": 0.49198826450011285,
+      "grad_norm": 0.001617431640625,
+      "learning_rate": 8.39160311107755e-06,
+      "loss": 0.6385,
+      "step": 2180
+    },
+    {
+      "epoch": 0.4942450914014895,
+      "grad_norm": 0.0020904541015625,
+      "learning_rate": 8.384051951974628e-06,
+      "loss": 0.0643,
+      "step": 2190
+    },
+    {
+      "epoch": 0.49650191830286616,
+      "grad_norm": 0.0020904541015625,
+      "learning_rate": 8.376500792871708e-06,
+      "loss": 0.0,
+      "step": 2200
+    },
+    {
+      "epoch": 0.49875874520424285,
+      "grad_norm": 0.25390625,
+      "learning_rate": 8.368949633768784e-06,
+      "loss": 0.0001,
+      "step": 2210
+    },
+    {
+      "epoch": 0.5010155721056195,
+      "grad_norm": 0.018310546875,
+      "learning_rate": 8.361398474665861e-06,
+      "loss": 0.3428,
+      "step": 2220
+    },
+    {
+      "epoch": 0.5032723990069962,
+      "grad_norm": 0.006622314453125,
+      "learning_rate": 8.353847315562939e-06,
+      "loss": 0.307,
+      "step": 2230
+    },
+    {
+      "epoch": 0.5055292259083728,
+      "grad_norm": 0.03515625,
+      "learning_rate": 8.346296156460017e-06,
+      "loss": 0.0007,
+      "step": 2240
+    },
+    {
+      "epoch": 0.5077860528097495,
+      "grad_norm": 0.0308837890625,
+      "learning_rate": 8.338744997357096e-06,
+      "loss": 0.0308,
+      "step": 2250
+    },
+    {
+      "epoch": 0.5100428797111262,
+      "grad_norm": 0.006591796875,
+      "learning_rate": 8.331193838254172e-06,
+      "loss": 0.2879,
+      "step": 2260
+    },
+    {
+      "epoch": 0.5122997066125028,
+      "grad_norm": 77.0,
+      "learning_rate": 8.32364267915125e-06,
+      "loss": 0.4258,
+      "step": 2270
+    },
+    {
+      "epoch": 0.5145565335138795,
+      "grad_norm": 0.031005859375,
+      "learning_rate": 8.316091520048328e-06,
+      "loss": 0.0502,
+      "step": 2280
+    },
+    {
+      "epoch": 0.5168133604152562,
+      "grad_norm": 0.515625,
+      "learning_rate": 8.308540360945406e-06,
+      "loss": 0.0001,
+      "step": 2290
+    },
+    {
+      "epoch": 0.5190701873166328,
+      "grad_norm": 0.01007080078125,
+      "learning_rate": 8.300989201842483e-06,
+      "loss": 0.0,
+      "step": 2300
+    },
+    {
+      "epoch": 0.5213270142180095,
+      "grad_norm": 0.01483154296875,
+      "learning_rate": 8.293438042739561e-06,
+      "loss": 0.3391,
+      "step": 2310
+    },
+    {
+      "epoch": 0.5235838411193862,
+      "grad_norm": 0.150390625,
+      "learning_rate": 8.285886883636639e-06,
+      "loss": 0.0,
+      "step": 2320
+    },
+    {
+      "epoch": 0.5258406680207628,
+      "grad_norm": 0.002288818359375,
+      "learning_rate": 8.278335724533717e-06,
+      "loss": 0.3255,
+      "step": 2330
+    },
+    {
+      "epoch": 0.5280974949221394,
+      "grad_norm": 0.00347900390625,
+      "learning_rate": 8.270784565430794e-06,
+      "loss": 0.2631,
+      "step": 2340
+    },
+    {
+      "epoch": 0.5303543218235162,
+      "grad_norm": 0.038330078125,
+      "learning_rate": 8.263233406327872e-06,
+      "loss": 0.0,
+      "step": 2350
+    },
+    {
+      "epoch": 0.5326111487248928,
+      "grad_norm": 0.01055908203125,
+      "learning_rate": 8.25568224722495e-06,
+      "loss": 0.0001,
+      "step": 2360
+    },
+    {
+      "epoch": 0.5348679756262694,
+      "grad_norm": 0.0040283203125,
+      "learning_rate": 8.248131088122028e-06,
+      "loss": 0.0,
+      "step": 2370
+    },
+    {
+      "epoch": 0.5371248025276462,
+      "grad_norm": 0.00035858154296875,
+      "learning_rate": 8.240579929019104e-06,
+      "loss": 0.0,
+      "step": 2380
+    },
+    {
+      "epoch": 0.5393816294290228,
+      "grad_norm": 0.001983642578125,
+      "learning_rate": 8.233028769916183e-06,
+      "loss": 0.0003,
+      "step": 2390
+    },
+    {
+      "epoch": 0.5416384563303994,
+      "grad_norm": 0.0002651214599609375,
+      "learning_rate": 8.225477610813261e-06,
+      "loss": 0.0,
+      "step": 2400
+    },
+    {
+      "epoch": 0.5438952832317762,
+      "grad_norm": 0.0009918212890625,
+      "learning_rate": 8.217926451710339e-06,
+      "loss": 0.0,
+      "step": 2410
+    },
+    {
+      "epoch": 0.5461521101331528,
+      "grad_norm": 0.0009613037109375,
+      "learning_rate": 8.210375292607415e-06,
+      "loss": 0.0,
+      "step": 2420
+    },
+    {
+      "epoch": 0.5484089370345294,
+      "grad_norm": 0.00107574462890625,
+      "learning_rate": 8.202824133504493e-06,
+      "loss": 0.0,
+      "step": 2430
+    },
+    {
+      "epoch": 0.5506657639359062,
+      "grad_norm": 0.0032958984375,
+      "learning_rate": 8.195272974401572e-06,
+      "loss": 0.248,
+      "step": 2440
+    },
+    {
+      "epoch": 0.5529225908372828,
+      "grad_norm": 0.0021209716796875,
+      "learning_rate": 8.18772181529865e-06,
+      "loss": 0.0,
+      "step": 2450
+    },
+    {
+      "epoch": 0.5551794177386594,
+      "grad_norm": 51.75,
+      "learning_rate": 8.180170656195728e-06,
+      "loss": 0.4205,
+      "step": 2460
+    },
+    {
+      "epoch": 0.5574362446400362,
+      "grad_norm": 0.005767822265625,
+      "learning_rate": 8.172619497092804e-06,
+      "loss": 0.0,
+      "step": 2470
+    },
+    {
+      "epoch": 0.5596930715414128,
+      "grad_norm": 0.0185546875,
+      "learning_rate": 8.165068337989881e-06,
+      "loss": 0.0,
+      "step": 2480
+    },
+    {
+      "epoch": 0.5619498984427894,
+      "grad_norm": 0.0118408203125,
+      "learning_rate": 8.15751717888696e-06,
+      "loss": 0.13,
+      "step": 2490
+    },
+    {
+      "epoch": 0.564206725344166,
+      "grad_norm": 1.375,
+      "learning_rate": 8.149966019784039e-06,
+      "loss": 0.0002,
+      "step": 2500
+    },
+    {
+      "epoch": 0.5664635522455428,
+      "grad_norm": 0.00433349609375,
+      "learning_rate": 8.142414860681115e-06,
+      "loss": 0.0,
+      "step": 2510
+    },
+    {
+      "epoch": 0.5687203791469194,
+      "grad_norm": 0.0026702880859375,
+      "learning_rate": 8.134863701578192e-06,
+      "loss": 0.0,
+      "step": 2520
+    },
+    {
+      "epoch": 0.570977206048296,
+      "grad_norm": 548.0,
+      "learning_rate": 8.12731254247527e-06,
+      "loss": 0.6147,
+      "step": 2530
+    },
+    {
+      "epoch": 0.5732340329496728,
+      "grad_norm": 0.0020904541015625,
+      "learning_rate": 8.119761383372348e-06,
+      "loss": 0.0,
+      "step": 2540
+    },
+    {
+      "epoch": 0.5754908598510494,
+      "grad_norm": 0.003387451171875,
+      "learning_rate": 8.112210224269426e-06,
+      "loss": 0.0,
+      "step": 2550
+    },
+    {
+      "epoch": 0.577747686752426,
+      "grad_norm": 0.0002536773681640625,
+      "learning_rate": 8.104659065166504e-06,
+      "loss": 0.0,
+      "step": 2560
+    },
+    {
+      "epoch": 0.5800045136538028,
+      "grad_norm": 0.0035552978515625,
+      "learning_rate": 8.097107906063581e-06,
+      "loss": 0.3707,
+      "step": 2570
+    },
+    {
+      "epoch": 0.5822613405551794,
+      "grad_norm": 0.0018157958984375,
+      "learning_rate": 8.089556746960659e-06,
+      "loss": 0.3046,
+      "step": 2580
+    },
+    {
+      "epoch": 0.584518167456556,
+      "grad_norm": 0.0078125,
+      "learning_rate": 8.082005587857737e-06,
+      "loss": 0.0,
+      "step": 2590
+    },
+    {
+      "epoch": 0.5867749943579328,
+      "grad_norm": 0.0037078857421875,
+      "learning_rate": 8.074454428754815e-06,
+      "loss": 0.3055,
+      "step": 2600
+    },
+    {
+      "epoch": 0.5890318212593094,
+      "grad_norm": 0.0150146484375,
+      "learning_rate": 8.066903269651892e-06,
+      "loss": 0.0,
+      "step": 2610
+    },
+    {
+      "epoch": 0.591288648160686,
+      "grad_norm": 0.0250244140625,
+      "learning_rate": 8.05935211054897e-06,
+      "loss": 0.0001,
+      "step": 2620
+    },
+    {
+      "epoch": 0.5935454750620628,
+      "grad_norm": 0.020751953125,
+      "learning_rate": 8.051800951446048e-06,
+      "loss": 0.0001,
+      "step": 2630
+    },
+    {
+      "epoch": 0.5958023019634394,
+      "grad_norm": 0.00372314453125,
+      "learning_rate": 8.044249792343126e-06,
+      "loss": 0.2485,
+      "step": 2640
+    },
+    {
+      "epoch": 0.598059128864816,
+      "grad_norm": 0.001800537109375,
+      "learning_rate": 8.036698633240203e-06,
+      "loss": 0.0,
+      "step": 2650
+    },
+    {
+      "epoch": 0.6003159557661928,
+      "grad_norm": 83.0,
+      "learning_rate": 8.029147474137281e-06,
+      "loss": 0.3156,
+      "step": 2660
+    },
+    {
+      "epoch": 0.6025727826675694,
+      "grad_norm": 0.007720947265625,
+      "learning_rate": 8.021596315034359e-06,
+      "loss": 0.0,
+      "step": 2670
+    },
+    {
+      "epoch": 0.604829609568946,
+      "grad_norm": 0.001373291015625,
+      "learning_rate": 8.014045155931437e-06,
+      "loss": 0.0002,
+      "step": 2680
+    },
+    {
+      "epoch": 0.6070864364703227,
+      "grad_norm": 0.0008087158203125,
+      "learning_rate": 8.006493996828514e-06,
+      "loss": 0.0,
+      "step": 2690
+    },
+    {
+      "epoch": 0.6093432633716994,
+      "grad_norm": 0.0030059814453125,
+      "learning_rate": 7.998942837725592e-06,
+      "loss": 0.0,
+      "step": 2700
+    },
+    {
+      "epoch": 0.611600090273076,
+      "grad_norm": 0.0016021728515625,
+      "learning_rate": 7.99139167862267e-06,
+      "loss": 0.0,
+      "step": 2710
+    },
+    {
+      "epoch": 0.6138569171744527,
+      "grad_norm": 0.0036468505859375,
+      "learning_rate": 7.983840519519746e-06,
+      "loss": 0.0014,
+      "step": 2720
+    },
+    {
+      "epoch": 0.6161137440758294,
+      "grad_norm": 0.0003185272216796875,
+      "learning_rate": 7.976289360416824e-06,
+      "loss": 0.0,
+      "step": 2730
+    },
+    {
+      "epoch": 0.618370570977206,
+      "grad_norm": 0.008056640625,
+      "learning_rate": 7.968738201313903e-06,
+      "loss": 0.0,
+      "step": 2740
+    },
+    {
+      "epoch": 0.6206273978785827,
+      "grad_norm": 0.00103759765625,
+      "learning_rate": 7.961187042210981e-06,
+      "loss": 0.0,
+      "step": 2750
+    },
+    {
+      "epoch": 0.6228842247799594,
+      "grad_norm": 132.0,
+      "learning_rate": 7.953635883108057e-06,
+      "loss": 0.3156,
+      "step": 2760
+    },
+    {
+      "epoch": 0.625141051681336,
+      "grad_norm": 0.024658203125,
+      "learning_rate": 7.946084724005135e-06,
+      "loss": 0.0,
+      "step": 2770
+    },
+    {
+      "epoch": 0.6273978785827127,
+      "grad_norm": 0.000629425048828125,
+      "learning_rate": 7.938533564902213e-06,
+      "loss": 0.0,
+      "step": 2780
+    },
+    {
+      "epoch": 0.6296547054840894,
+      "grad_norm": 0.00897216796875,
+      "learning_rate": 7.930982405799292e-06,
+      "loss": 0.0,
+      "step": 2790
+    },
+    {
+      "epoch": 0.631911532385466,
+      "grad_norm": 0.007354736328125,
+      "learning_rate": 7.923431246696368e-06,
+      "loss": 0.0,
+      "step": 2800
+    },
+    {
+      "epoch": 0.6341683592868427,
+      "grad_norm": 0.0037841796875,
+      "learning_rate": 7.915880087593446e-06,
+      "loss": 0.0001,
+      "step": 2810
+    },
+    {
+      "epoch": 0.6364251861882194,
+      "grad_norm": 0.0036163330078125,
+      "learning_rate": 7.908328928490524e-06,
+      "loss": 0.0,
+      "step": 2820
+    },
+    {
+      "epoch": 0.638682013089596,
+      "grad_norm": 0.00250244140625,
+      "learning_rate": 7.900777769387601e-06,
+      "loss": 0.0,
+      "step": 2830
+    },
+    {
+      "epoch": 0.6409388399909727,
+      "grad_norm": 0.00173187255859375,
+      "learning_rate": 7.893226610284679e-06,
+      "loss": 0.0,
+      "step": 2840
+    },
+    {
+      "epoch": 0.6431956668923493,
+      "grad_norm": 0.0004520416259765625,
+      "learning_rate": 7.885675451181757e-06,
+      "loss": 0.0,
+      "step": 2850
+    },
+    {
+      "epoch": 0.645452493793726,
+      "grad_norm": 0.00021457672119140625,
+      "learning_rate": 7.878124292078835e-06,
+      "loss": 0.0,
+      "step": 2860
+    },
+    {
+      "epoch": 0.6477093206951027,
+      "grad_norm": 0.0004405975341796875,
+      "learning_rate": 7.870573132975912e-06,
+      "loss": 0.0,
+      "step": 2870
+    },
+    {
+      "epoch": 0.6499661475964793,
+      "grad_norm": 0.00045013427734375,
+      "learning_rate": 7.86302197387299e-06,
+      "loss": 0.0,
+      "step": 2880
+    },
+    {
+      "epoch": 0.652222974497856,
+      "grad_norm": 0.000522613525390625,
+      "learning_rate": 7.855470814770068e-06,
+      "loss": 0.0,
+      "step": 2890
+    },
+    {
+      "epoch": 0.6544798013992327,
+      "grad_norm": 0.00029754638671875,
+      "learning_rate": 7.847919655667146e-06,
+      "loss": 0.3409,
+      "step": 2900
+    },
+    {
+      "epoch": 0.6567366283006093,
+      "grad_norm": 0.00372314453125,
+      "learning_rate": 7.840368496564223e-06,
+      "loss": 0.1273,
+      "step": 2910
+    },
+    {
+      "epoch": 0.658993455201986,
+      "grad_norm": 0.005401611328125,
+      "learning_rate": 7.832817337461301e-06,
+      "loss": 0.2191,
+      "step": 2920
+    },
+    {
+      "epoch": 0.6612502821033627,
+      "grad_norm": 47.25,
+      "learning_rate": 7.825266178358379e-06,
+      "loss": 0.2522,
+      "step": 2930
+    },
+    {
+      "epoch": 0.6635071090047393,
+      "grad_norm": 0.018310546875,
+      "learning_rate": 7.817715019255457e-06,
+      "loss": 0.0982,
+      "step": 2940
+    },
+    {
+      "epoch": 0.665763935906116,
+      "grad_norm": 0.001220703125,
+      "learning_rate": 7.810163860152535e-06,
+      "loss": 0.0001,
+      "step": 2950
+    },
+    {
+      "epoch": 0.6680207628074927,
+      "grad_norm": 0.001495361328125,
+      "learning_rate": 7.802612701049612e-06,
+      "loss": 0.1024,
+      "step": 2960
+    },
+    {
+      "epoch": 0.6702775897088693,
+      "grad_norm": 0.005401611328125,
+      "learning_rate": 7.795061541946688e-06,
+      "loss": 0.0001,
+      "step": 2970
+    },
+    {
+      "epoch": 0.672534416610246,
+      "grad_norm": 0.0035858154296875,
+      "learning_rate": 7.787510382843768e-06,
+      "loss": 0.0,
+      "step": 2980
+    },
+    {
+      "epoch": 0.6747912435116227,
+      "grad_norm": 0.0654296875,
+      "learning_rate": 7.779959223740846e-06,
+      "loss": 0.0,
+      "step": 2990
+    },
+    {
+      "epoch": 0.6770480704129993,
+      "grad_norm": 0.002838134765625,
+      "learning_rate": 7.772408064637923e-06,
+      "loss": 0.0,
+      "step": 3000
+    },
+    {
+      "epoch": 0.6793048973143759,
+      "grad_norm": 0.001068115234375,
+      "learning_rate": 7.764856905535e-06,
+      "loss": 0.1202,
+      "step": 3010
+    },
+    {
+      "epoch": 0.6815617242157527,
+      "grad_norm": 0.0078125,
+      "learning_rate": 7.757305746432077e-06,
+      "loss": 0.2662,
+      "step": 3020
+    },
+    {
+      "epoch": 0.6838185511171293,
+      "grad_norm": 0.002227783203125,
+      "learning_rate": 7.749754587329157e-06,
+      "loss": 0.3129,
+      "step": 3030
+    },
+    {
+      "epoch": 0.6860753780185059,
+      "grad_norm": 0.00093841552734375,
+      "learning_rate": 7.742203428226234e-06,
+      "loss": 0.0,
+      "step": 3040
+    },
+    {
+      "epoch": 0.6883322049198827,
+      "grad_norm": 0.00162506103515625,
+      "learning_rate": 7.73465226912331e-06,
+      "loss": 0.0,
+      "step": 3050
+    },
+    {
+      "epoch": 0.6905890318212593,
+      "grad_norm": 0.0113525390625,
+      "learning_rate": 7.727101110020388e-06,
+      "loss": 0.0,
+      "step": 3060
+    },
+    {
+      "epoch": 0.6928458587226359,
+      "grad_norm": 0.0042724609375,
+      "learning_rate": 7.719549950917466e-06,
+      "loss": 0.0,
+      "step": 3070
+    },
+    {
+      "epoch": 0.6951026856240127,
+      "grad_norm": 0.00174713134765625,
+      "learning_rate": 7.711998791814544e-06,
+      "loss": 0.0001,
+      "step": 3080
+    },
+    {
+      "epoch": 0.6973595125253893,
+      "grad_norm": 0.0021820068359375,
+      "learning_rate": 7.704447632711621e-06,
+      "loss": 0.0,
+      "step": 3090
+    },
+    {
+      "epoch": 0.6996163394267659,
+      "grad_norm": 0.00016307830810546875,
+      "learning_rate": 7.6968964736087e-06,
+      "loss": 0.0,
+      "step": 3100
+    },
+    {
+      "epoch": 0.7018731663281427,
+      "grad_norm": 0.0008544921875,
+      "learning_rate": 7.689345314505777e-06,
+      "loss": 0.0868,
+      "step": 3110
+    },
+    {
+      "epoch": 0.7041299932295193,
+      "grad_norm": 0.00162506103515625,
+      "learning_rate": 7.681794155402855e-06,
+      "loss": 0.0,
+      "step": 3120
+    },
+    {
+      "epoch": 0.7063868201308959,
+      "grad_norm": 0.83984375,
+      "learning_rate": 7.674242996299933e-06,
+      "loss": 0.0001,
+      "step": 3130
+    },
+    {
+      "epoch": 0.7086436470322727,
+      "grad_norm": 0.00021266937255859375,
+      "learning_rate": 7.66669183719701e-06,
+      "loss": 0.0,
+      "step": 3140
+    },
+    {
+      "epoch": 0.7109004739336493,
+      "grad_norm": 0.000926971435546875,
+      "learning_rate": 7.659140678094088e-06,
+      "loss": 0.0,
+      "step": 3150
+    },
+    {
+      "epoch": 0.7131573008350259,
+      "grad_norm": 2.515625,
+      "learning_rate": 7.651589518991166e-06,
+      "loss": 0.0004,
+      "step": 3160
+    },
+    {
+      "epoch": 0.7154141277364027,
+      "grad_norm": 0.0029144287109375,
+      "learning_rate": 7.644038359888244e-06,
+      "loss": 0.0,
+      "step": 3170
+    },
+    {
+      "epoch": 0.7176709546377793,
+      "grad_norm": 62.5,
+      "learning_rate": 7.636487200785321e-06,
+      "loss": 0.3018,
+      "step": 3180
+    },
+    {
+      "epoch": 0.7199277815391559,
+      "grad_norm": 0.0005950927734375,
+      "learning_rate": 7.628936041682399e-06,
+      "loss": 0.0,
+      "step": 3190
+    },
+    {
+      "epoch": 0.7221846084405326,
+      "grad_norm": 0.00054168701171875,
+      "learning_rate": 7.621384882579477e-06,
+      "loss": 0.0,
+      "step": 3200
+    },
+    {
+      "epoch": 0.7244414353419093,
+      "grad_norm": 0.00701904296875,
+      "learning_rate": 7.613833723476555e-06,
+      "loss": 0.0,
+      "step": 3210
+    },
+    {
+      "epoch": 0.7266982622432859,
+      "grad_norm": 41.75,
+      "learning_rate": 7.6062825643736315e-06,
+      "loss": 0.2809,
+      "step": 3220
+    },
+    {
+      "epoch": 0.7289550891446626,
+      "grad_norm": 0.0018463134765625,
+      "learning_rate": 7.598731405270709e-06,
+      "loss": 0.0,
+      "step": 3230
+    },
+    {
+      "epoch": 0.7312119160460393,
+      "grad_norm": 0.0024261474609375,
+      "learning_rate": 7.591180246167788e-06,
+      "loss": 0.0,
+      "step": 3240
+    },
+    {
+      "epoch": 0.7334687429474159,
+      "grad_norm": 0.0032501220703125,
+      "learning_rate": 7.583629087064866e-06,
+      "loss": 0.0,
+      "step": 3250
+    },
+    {
+      "epoch": 0.7357255698487926,
+      "grad_norm": 0.0016326904296875,
+      "learning_rate": 7.5760779279619426e-06,
+      "loss": 0.0,
+      "step": 3260
+    },
+    {
+      "epoch": 0.7379823967501693,
+      "grad_norm": 0.000629425048828125,
+      "learning_rate": 7.56852676885902e-06,
+      "loss": 0.0,
+      "step": 3270
+    },
+    {
+      "epoch": 0.7402392236515459,
+      "grad_norm": 0.0022735595703125,
+      "learning_rate": 7.560975609756098e-06,
+      "loss": 0.0,
+      "step": 3280
+    },
+    {
+      "epoch": 0.7424960505529226,
+      "grad_norm": 0.00193023681640625,
+      "learning_rate": 7.553424450653176e-06,
+      "loss": 0.0,
+      "step": 3290
+    },
+    {
+      "epoch": 0.7447528774542993,
+      "grad_norm": 0.00144195556640625,
+      "learning_rate": 7.545873291550253e-06,
+      "loss": 0.4039,
+      "step": 3300
+    },
+    {
+      "epoch": 0.7470097043556759,
+      "grad_norm": 0.006134033203125,
+      "learning_rate": 7.538322132447331e-06,
+      "loss": 0.0,
+      "step": 3310
+    },
+    {
+      "epoch": 0.7492665312570526,
+      "grad_norm": 0.0037384033203125,
+      "learning_rate": 7.530770973344409e-06,
+      "loss": 0.0,
+      "step": 3320
+    },
+    {
+      "epoch": 0.7515233581584293,
+      "grad_norm": 0.0028228759765625,
+      "learning_rate": 7.523219814241487e-06,
+      "loss": 0.0,
+      "step": 3330
+    },
+    {
+      "epoch": 0.7537801850598059,
+      "grad_norm": 0.0038604736328125,
+      "learning_rate": 7.515668655138565e-06,
+      "loss": 0.0,
+      "step": 3340
+    },
+    {
+      "epoch": 0.7560370119611826,
+      "grad_norm": 0.00151824951171875,
+      "learning_rate": 7.5081174960356416e-06,
+      "loss": 0.0,
+      "step": 3350
+    },
+    {
+      "epoch": 0.7582938388625592,
+      "grad_norm": 0.0002689361572265625,
+      "learning_rate": 7.500566336932719e-06,
+      "loss": 0.0,
+      "step": 3360
+    },
+    {
+      "epoch": 0.7605506657639359,
+      "grad_norm": 0.000316619873046875,
+      "learning_rate": 7.493015177829798e-06,
+      "loss": 0.0,
+      "step": 3370
+    },
+    {
+      "epoch": 0.7628074926653126,
+      "grad_norm": 0.00106048583984375,
+      "learning_rate": 7.485464018726876e-06,
+      "loss": 0.0,
+      "step": 3380
+    },
+    {
+      "epoch": 0.7650643195666892,
+      "grad_norm": 0.00186920166015625,
+      "learning_rate": 7.477912859623953e-06,
+      "loss": 0.0,
+      "step": 3390
+    },
+    {
+      "epoch": 0.7673211464680659,
+      "grad_norm": 0.00110626220703125,
+      "learning_rate": 7.47036170052103e-06,
+      "loss": 0.0,
+      "step": 3400
+    },
+    {
+      "epoch": 0.7695779733694426,
+      "grad_norm": 0.0007781982421875,
+      "learning_rate": 7.462810541418108e-06,
+      "loss": 0.0,
+      "step": 3410
+    },
+    {
+      "epoch": 0.7718348002708192,
+      "grad_norm": 0.000652313232421875,
+      "learning_rate": 7.455259382315187e-06,
+      "loss": 0.4836,
+      "step": 3420
+    },
+    {
+      "epoch": 0.7740916271721959,
+      "grad_norm": 0.002777099609375,
+      "learning_rate": 7.447708223212264e-06,
+      "loss": 0.0,
+      "step": 3430
+    },
+    {
+      "epoch": 0.7763484540735726,
+      "grad_norm": 0.002410888671875,
+      "learning_rate": 7.440157064109341e-06,
+      "loss": 0.0,
+      "step": 3440
+    },
+    {
+      "epoch": 0.7786052809749492,
+      "grad_norm": 0.0023345947265625,
+      "learning_rate": 7.432605905006419e-06,
+      "loss": 0.0,
+      "step": 3450
+    },
+    {
+      "epoch": 0.7808621078763259,
+      "grad_norm": 0.000885009765625,
+      "learning_rate": 7.425054745903497e-06,
+      "loss": 0.0,
+      "step": 3460
+    },
+    {
+      "epoch": 0.7831189347777026,
+      "grad_norm": 0.001190185546875,
+      "learning_rate": 7.417503586800574e-06,
+      "loss": 0.0,
+      "step": 3470
+    },
+    {
+      "epoch": 0.7853757616790792,
+      "grad_norm": 0.00164794921875,
+      "learning_rate": 7.409952427697652e-06,
+      "loss": 0.3779,
+      "step": 3480
+    },
+    {
+      "epoch": 0.7876325885804559,
+      "grad_norm": 0.0024871826171875,
+      "learning_rate": 7.40240126859473e-06,
+      "loss": 0.3797,
+      "step": 3490
+    },
+    {
+      "epoch": 0.7898894154818326,
+      "grad_norm": 0.0009002685546875,
+      "learning_rate": 7.394850109491808e-06,
+      "loss": 0.0,
+      "step": 3500
+    },
+    {
+      "epoch": 0.7921462423832092,
+      "grad_norm": 0.00145721435546875,
+      "learning_rate": 7.387298950388885e-06,
+      "loss": 0.0,
+      "step": 3510
+    },
+    {
+      "epoch": 0.7944030692845859,
+      "grad_norm": 0.00035858154296875,
+      "learning_rate": 7.379747791285963e-06,
+      "loss": 0.3298,
+      "step": 3520
+    },
+    {
+      "epoch": 0.7966598961859626,
+      "grad_norm": 0.000583648681640625,
+      "learning_rate": 7.37219663218304e-06,
+      "loss": 0.0,
+      "step": 3530
+    },
+    {
+      "epoch": 0.7989167230873392,
+      "grad_norm": 0.0028228759765625,
+      "learning_rate": 7.364645473080119e-06,
+      "loss": 0.187,
+      "step": 3540
+    },
+    {
+      "epoch": 0.8011735499887158,
+      "grad_norm": 0.01263427734375,
+      "learning_rate": 7.357094313977197e-06,
+      "loss": 0.2544,
+      "step": 3550
+    },
+    {
+      "epoch": 0.8034303768900926,
+      "grad_norm": 0.01226806640625,
+      "learning_rate": 7.349543154874274e-06,
+      "loss": 0.0001,
+      "step": 3560
+    },
+    {
+      "epoch": 0.8056872037914692,
+      "grad_norm": 0.00079345703125,
+      "learning_rate": 7.3419919957713514e-06,
+      "loss": 0.0,
+      "step": 3570
+    },
+    {
+      "epoch": 0.8079440306928458,
+      "grad_norm": 0.291015625,
+      "learning_rate": 7.334440836668429e-06,
+      "loss": 0.0001,
+      "step": 3580
+    },
+    {
+      "epoch": 0.8102008575942226,
+      "grad_norm": 0.0021514892578125,
+      "learning_rate": 7.326889677565508e-06,
+      "loss": 0.0,
+      "step": 3590
+    },
+    {
+      "epoch": 0.8124576844955992,
+      "grad_norm": 0.0004634857177734375,
+      "learning_rate": 7.319338518462584e-06,
+      "loss": 0.0,
+      "step": 3600
+    },
+    {
+      "epoch": 0.8147145113969758,
+      "grad_norm": 0.001800537109375,
+      "learning_rate": 7.3117873593596625e-06,
+      "loss": 0.0,
+      "step": 3610
+    },
+    {
+      "epoch": 0.8169713382983526,
+      "grad_norm": 0.0024871826171875,
+      "learning_rate": 7.30423620025674e-06,
+      "loss": 0.0,
+      "step": 3620
+    },
+    {
+      "epoch": 0.8192281651997292,
+      "grad_norm": 0.00119781494140625,
+      "learning_rate": 7.296685041153818e-06,
+      "loss": 0.0,
+      "step": 3630
+    },
+    {
+      "epoch": 0.8214849921011058,
+      "grad_norm": 0.000629425048828125,
+      "learning_rate": 7.289133882050895e-06,
+      "loss": 0.0,
+      "step": 3640
+    },
+    {
+      "epoch": 0.8237418190024826,
+      "grad_norm": 0.000797271728515625,
+      "learning_rate": 7.281582722947973e-06,
+      "loss": 0.3255,
+      "step": 3650
+    },
+    {
+      "epoch": 0.8259986459038592,
+      "grad_norm": 0.0008392333984375,
+      "learning_rate": 7.274031563845051e-06,
+      "loss": 0.0036,
+      "step": 3660
+    },
+    {
+      "epoch": 0.8282554728052358,
+      "grad_norm": 0.00164794921875,
+      "learning_rate": 7.266480404742129e-06,
+      "loss": 0.0,
+      "step": 3670
+    },
+    {
+      "epoch": 0.8305122997066126,
+      "grad_norm": 0.00012874603271484375,
+      "learning_rate": 7.258929245639206e-06,
+      "loss": 0.0,
+      "step": 3680
+    },
+    {
+      "epoch": 0.8327691266079892,
+      "grad_norm": 0.000461578369140625,
+      "learning_rate": 7.251378086536284e-06,
+      "loss": 0.3065,
+      "step": 3690
+    },
+    {
+      "epoch": 0.8350259535093658,
+      "grad_norm": 57.75,
+      "learning_rate": 7.2438269274333615e-06,
+      "loss": 0.3243,
+      "step": 3700
+    },
+    {
+      "epoch": 0.8372827804107424,
+      "grad_norm": 0.0020599365234375,
+      "learning_rate": 7.236275768330439e-06,
+      "loss": 0.0,
+      "step": 3710
+    },
+    {
+      "epoch": 0.8395396073121192,
+      "grad_norm": 0.0155029296875,
+      "learning_rate": 7.228724609227516e-06,
+      "loss": 0.0,
+      "step": 3720
+    },
+    {
+      "epoch": 0.8417964342134958,
+      "grad_norm": 0.005401611328125,
+      "learning_rate": 7.221173450124595e-06,
+      "loss": 0.0,
+      "step": 3730
+    },
+    {
+      "epoch": 0.8440532611148724,
+      "grad_norm": 0.0025634765625,
+      "learning_rate": 7.2136222910216725e-06,
+      "loss": 0.0,
+      "step": 3740
+    },
+    {
+      "epoch": 0.8463100880162492,
+      "grad_norm": 0.003143310546875,
+      "learning_rate": 7.20607113191875e-06,
+      "loss": 0.0,
+      "step": 3750
+    },
+    {
+      "epoch": 0.8485669149176258,
+      "grad_norm": 0.00994873046875,
+      "learning_rate": 7.198519972815828e-06,
+      "loss": 0.0,
+      "step": 3760
+    },
+    {
+      "epoch": 0.8508237418190024,
+      "grad_norm": 0.0191650390625,
+      "learning_rate": 7.190968813712905e-06,
+      "loss": 0.0,
+      "step": 3770
+    },
+    {
+      "epoch": 0.8530805687203792,
+      "grad_norm": 0.00024318695068359375,
+      "learning_rate": 7.1834176546099836e-06,
+      "loss": 0.0001,
+      "step": 3780
+    },
+    {
+      "epoch": 0.8553373956217558,
+      "grad_norm": 0.0035247802734375,
+      "learning_rate": 7.175866495507061e-06,
+      "loss": 0.208,
+      "step": 3790
+    },
+    {
+      "epoch": 0.8575942225231324,
+      "grad_norm": 0.0002269744873046875,
+      "learning_rate": 7.168315336404139e-06,
+      "loss": 0.0,
+      "step": 3800
+    },
+    {
+      "epoch": 0.8598510494245092,
+      "grad_norm": 0.00250244140625,
+      "learning_rate": 7.160764177301216e-06,
+      "loss": 0.3297,
+      "step": 3810
+    },
+    {
+      "epoch": 0.8621078763258858,
+      "grad_norm": 0.00150299072265625,
+      "learning_rate": 7.153213018198294e-06,
+      "loss": 0.0,
+      "step": 3820
+    },
+    {
+      "epoch": 0.8643647032272624,
+      "grad_norm": 0.00274658203125,
+      "learning_rate": 7.1456618590953715e-06,
+      "loss": 0.0,
+      "step": 3830
+    },
+    {
+      "epoch": 0.8666215301286392,
+      "grad_norm": 0.00262451171875,
+      "learning_rate": 7.13811069999245e-06,
+      "loss": 0.0033,
+      "step": 3840
+    },
+    {
+      "epoch": 0.8688783570300158,
+      "grad_norm": 0.002197265625,
+      "learning_rate": 7.130559540889527e-06,
+      "loss": 0.0441,
+      "step": 3850
+    },
+    {
+      "epoch": 0.8711351839313924,
+      "grad_norm": 0.031982421875,
+      "learning_rate": 7.123008381786605e-06,
+      "loss": 0.0,
+      "step": 3860
+    },
+    {
+      "epoch": 0.8733920108327691,
+      "grad_norm": 0.00469970703125,
+      "learning_rate": 7.1154572226836826e-06,
+      "loss": 0.0,
+      "step": 3870
+    },
+    {
+      "epoch": 0.8756488377341458,
+      "grad_norm": 0.00164794921875,
+      "learning_rate": 7.10790606358076e-06,
+      "loss": 0.0,
+      "step": 3880
+    },
+    {
+      "epoch": 0.8779056646355224,
+      "grad_norm": 0.00125885009765625,
+      "learning_rate": 7.100354904477837e-06,
+      "loss": 0.0,
+      "step": 3890
+    },
+    {
+      "epoch": 0.8801624915368991,
+      "grad_norm": 0.003814697265625,
+      "learning_rate": 7.092803745374916e-06,
+      "loss": 0.0,
+      "step": 3900
+    },
+    {
+      "epoch": 0.8824193184382758,
+      "grad_norm": 0.01007080078125,
+      "learning_rate": 7.085252586271994e-06,
+      "loss": 0.0,
+      "step": 3910
+    },
+    {
+      "epoch": 0.8846761453396524,
+      "grad_norm": 0.000579833984375,
+      "learning_rate": 7.077701427169071e-06,
+      "loss": 0.0,
+      "step": 3920
+    },
+    {
+      "epoch": 0.8869329722410291,
+      "grad_norm": 0.00848388671875,
+      "learning_rate": 7.070150268066148e-06,
+      "loss": 0.0,
+      "step": 3930
+    },
+    {
+      "epoch": 0.8891897991424058,
+      "grad_norm": 0.00054931640625,
+      "learning_rate": 7.062599108963226e-06,
+      "loss": 0.0,
+      "step": 3940
+    },
+    {
+      "epoch": 0.8914466260437824,
+      "grad_norm": 0.000835418701171875,
+      "learning_rate": 7.055047949860304e-06,
+      "loss": 0.0,
+      "step": 3950
+    },
+    {
+      "epoch": 0.8937034529451591,
+      "grad_norm": 0.00048828125,
+      "learning_rate": 7.047496790757382e-06,
+      "loss": 0.0,
+      "step": 3960
+    },
+    {
+      "epoch": 0.8959602798465358,
+      "grad_norm": 0.00023365020751953125,
+      "learning_rate": 7.039945631654459e-06,
+      "loss": 0.0,
+      "step": 3970
+    },
+    {
+      "epoch": 0.8982171067479124,
+      "grad_norm": 0.00335693359375,
+      "learning_rate": 7.032394472551537e-06,
+      "loss": 0.0,
+      "step": 3980
+    },
+    {
+      "epoch": 0.9004739336492891,
+      "grad_norm": 0.00014400482177734375,
+      "learning_rate": 7.024843313448615e-06,
+      "loss": 0.0,
+      "step": 3990
+    },
+    {
+      "epoch": 0.9027307605506658,
+      "grad_norm": 0.0002613067626953125,
+      "learning_rate": 7.017292154345693e-06,
+      "loss": 0.0,
+      "step": 4000
+    },
+    {
+      "epoch": 0.9049875874520424,
+      "grad_norm": 0.00043487548828125,
+      "learning_rate": 7.009740995242771e-06,
+      "loss": 0.0,
+      "step": 4010
+    },
+    {
+      "epoch": 0.9072444143534191,
+      "grad_norm": 0.318359375,
+      "learning_rate": 7.002189836139847e-06,
+      "loss": 0.0,
+      "step": 4020
+    },
+    {
+      "epoch": 0.9095012412547958,
+      "grad_norm": 0.00089263916015625,
+      "learning_rate": 6.994638677036926e-06,
+      "loss": 0.0,
+      "step": 4030
+    },
+    {
+      "epoch": 0.9117580681561724,
+      "grad_norm": 0.000247955322265625,
+      "learning_rate": 6.987087517934004e-06,
+      "loss": 0.0,
+      "step": 4040
+    },
+    {
+      "epoch": 0.9140148950575491,
+      "grad_norm": 0.00011873245239257812,
+      "learning_rate": 6.979536358831081e-06,
+      "loss": 0.0,
+      "step": 4050
+    },
+    {
+      "epoch": 0.9162717219589257,
+      "grad_norm": 0.00018978118896484375,
+      "learning_rate": 6.971985199728158e-06,
+      "loss": 0.0,
+      "step": 4060
+    },
+    {
+      "epoch": 0.9185285488603024,
+      "grad_norm": 0.0001049041748046875,
+      "learning_rate": 6.964434040625236e-06,
+      "loss": 0.3925,
+      "step": 4070
+    },
+    {
+      "epoch": 0.9207853757616791,
+      "grad_norm": 0.0002918243408203125,
+      "learning_rate": 6.956882881522315e-06,
+      "loss": 0.0,
+      "step": 4080
+    },
+    {
+      "epoch": 0.9230422026630557,
+      "grad_norm": 0.000255584716796875,
+      "learning_rate": 6.9493317224193925e-06,
+      "loss": 0.0,
+      "step": 4090
+    },
+    {
+      "epoch": 0.9252990295644324,
+      "grad_norm": 0.0001773834228515625,
+      "learning_rate": 6.941780563316469e-06,
+      "loss": 0.0,
+      "step": 4100
+    },
+    {
+      "epoch": 0.9275558564658091,
+      "grad_norm": 0.0087890625,
+      "learning_rate": 6.934229404213547e-06,
+      "loss": 0.3115,
+      "step": 4110
+    },
+    {
+      "epoch": 0.9298126833671857,
+      "grad_norm": 0.00093841552734375,
+      "learning_rate": 6.926678245110625e-06,
+      "loss": 0.086,
+      "step": 4120
+    },
+    {
+      "epoch": 0.9320695102685624,
+      "grad_norm": 0.000865936279296875,
+      "learning_rate": 6.9191270860077035e-06,
+      "loss": 0.0488,
+      "step": 4130
+    },
+    {
+      "epoch": 0.9343263371699391,
+      "grad_norm": 0.00144195556640625,
+      "learning_rate": 6.9115759269047796e-06,
+      "loss": 0.0,
+      "step": 4140
+    },
+    {
+      "epoch": 0.9365831640713157,
+      "grad_norm": 0.00823974609375,
+      "learning_rate": 6.904024767801858e-06,
+      "loss": 0.0,
+      "step": 4150
+    },
+    {
+      "epoch": 0.9388399909726924,
+      "grad_norm": 0.001922607421875,
+      "learning_rate": 6.896473608698936e-06,
+      "loss": 0.0,
+      "step": 4160
+    },
+    {
+      "epoch": 0.9410968178740691,
+      "grad_norm": 0.00102996826171875,
+      "learning_rate": 6.888922449596014e-06,
+      "loss": 0.0,
+      "step": 4170
+    },
+    {
+      "epoch": 0.9433536447754457,
+      "grad_norm": 0.000972747802734375,
+      "learning_rate": 6.881371290493091e-06,
+      "loss": 0.0,
+      "step": 4180
+    },
+    {
+      "epoch": 0.9456104716768224,
+      "grad_norm": 53.5,
+      "learning_rate": 6.873820131390168e-06,
+      "loss": 0.1112,
+      "step": 4190
+    },
+    {
+      "epoch": 0.9478672985781991,
+      "grad_norm": 0.00390625,
+      "learning_rate": 6.866268972287247e-06,
+      "loss": 0.4043,
+      "step": 4200
+    },
+    {
+      "epoch": 0.9501241254795757,
+      "grad_norm": 0.0021514892578125,
+      "learning_rate": 6.858717813184325e-06,
+      "loss": 0.0001,
+      "step": 4210
+    },
+    {
+      "epoch": 0.9523809523809523,
+      "grad_norm": 0.00074005126953125,
+      "learning_rate": 6.8511666540814025e-06,
+      "loss": 0.3612,
+      "step": 4220
+    },
+    {
+      "epoch": 0.9546377792823291,
+      "grad_norm": 0.002044677734375,
+      "learning_rate": 6.843615494978479e-06,
+      "loss": 0.0,
+      "step": 4230
+    },
+    {
+      "epoch": 0.9568946061837057,
+      "grad_norm": 0.0120849609375,
+      "learning_rate": 6.836064335875557e-06,
+      "loss": 0.2291,
+      "step": 4240
+    },
+    {
+      "epoch": 0.9591514330850823,
+      "grad_norm": 0.004669189453125,
+      "learning_rate": 6.828513176772635e-06,
+      "loss": 0.0,
+      "step": 4250
+    },
+    {
+      "epoch": 0.9614082599864591,
+      "grad_norm": 0.00494384765625,
+      "learning_rate": 6.8209620176697136e-06,
+      "loss": 0.0,
+      "step": 4260
+    },
+    {
+      "epoch": 0.9636650868878357,
+      "grad_norm": 0.00072479248046875,
+      "learning_rate": 6.8134108585667905e-06,
+      "loss": 0.0,
+      "step": 4270
+    },
+    {
+      "epoch": 0.9659219137892123,
+      "grad_norm": 0.005584716796875,
+      "learning_rate": 6.805859699463868e-06,
+      "loss": 0.0,
+      "step": 4280
+    },
+    {
+      "epoch": 0.9681787406905891,
+      "grad_norm": 0.0017242431640625,
+      "learning_rate": 6.798308540360946e-06,
+      "loss": 0.0,
+      "step": 4290
+    },
+    {
+      "epoch": 0.9704355675919657,
+      "grad_norm": 0.005035400390625,
+      "learning_rate": 6.790757381258024e-06,
+      "loss": 0.0,
+      "step": 4300
+    },
+    {
+      "epoch": 0.9726923944933423,
+      "grad_norm": 0.001739501953125,
+      "learning_rate": 6.783206222155101e-06,
+      "loss": 0.2294,
+      "step": 4310
+    },
+    {
+      "epoch": 0.9749492213947191,
+      "grad_norm": 0.000492095947265625,
+      "learning_rate": 6.775655063052179e-06,
+      "loss": 0.0,
+      "step": 4320
+    },
+    {
+      "epoch": 0.9772060482960957,
+      "grad_norm": 0.004486083984375,
+      "learning_rate": 6.768103903949257e-06,
+      "loss": 0.0,
+      "step": 4330
+    },
+    {
+      "epoch": 0.9794628751974723,
+      "grad_norm": 0.000896453857421875,
+      "learning_rate": 6.760552744846335e-06,
+      "loss": 0.0,
+      "step": 4340
+    },
+    {
+      "epoch": 0.9817197020988491,
+      "grad_norm": 0.01055908203125,
+      "learning_rate": 6.753001585743412e-06,
+      "loss": 0.0,
+      "step": 4350
+    },
+    {
+      "epoch": 0.9839765290002257,
+      "grad_norm": 0.00104522705078125,
+      "learning_rate": 6.7454504266404895e-06,
+      "loss": 0.1874,
+      "step": 4360
+    },
+    {
+      "epoch": 0.9862333559016023,
+      "grad_norm": 0.00069427490234375,
+      "learning_rate": 6.737899267537567e-06,
+      "loss": 0.0005,
+      "step": 4370
+    },
+    {
+      "epoch": 0.988490182802979,
+      "grad_norm": 0.030517578125,
+      "learning_rate": 6.730348108434646e-06,
+      "loss": 0.0,
+      "step": 4380
+    },
+    {
+      "epoch": 0.9907470097043557,
+      "grad_norm": 0.028076171875,
+      "learning_rate": 6.722796949331723e-06,
+      "loss": 0.0001,
+      "step": 4390
+    },
+    {
+      "epoch": 0.9930038366057323,
+      "grad_norm": 0.007171630859375,
+      "learning_rate": 6.7152457902288005e-06,
+      "loss": 0.0,
+      "step": 4400
+    },
+    {
+      "epoch": 0.995260663507109,
+      "grad_norm": 0.00023746490478515625,
+      "learning_rate": 6.707694631125878e-06,
+      "loss": 0.0,
+      "step": 4410
+    },
+    {
+      "epoch": 0.9975174904084857,
+      "grad_norm": 0.00061798095703125,
+      "learning_rate": 6.700143472022956e-06,
+      "loss": 0.0,
+      "step": 4420
+    },
+    {
+      "epoch": 0.9997743173098623,
+      "grad_norm": 0.01312255859375,
+      "learning_rate": 6.692592312920035e-06,
+      "loss": 0.0,
+      "step": 4430
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 13293,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.6972535855683584e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-4431/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:796a84fa762533861d74178663d2c947fb1915fe6d6b1fc474c454eece28dda1
+size 5432

checkpoint-8862/config.json ADDED Viewed

	@@ -0,0 +1,143 @@

+{
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "microsoft/Phi-4-mini-instruct--configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "microsoft/Phi-4-mini-instruct--modeling_phi3.Phi3ForCausalLM",
+    "AutoTokenizer": "microsoft/Phi-4-mini-instruct--Xenova/gpt-4o"
+  },
+  "bos_token_id": 199999,
+  "embd_pdrop": 0.0,
+  "eos_token_id": 199999,
+  "full_attn_mod": 1,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "interpolate_factor": 1,
+  "lm_head_bias": false,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "phi3",
+  "num_attention_heads": 24,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "original_max_position_embeddings": 4096,
+  "pad_token_id": 199999,
+  "partial_rotary_factor": 0.75,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "long_factor": [
+      1,
+      1.118320672,
+      1.250641126,
+      1.398617824,
+      1.564103225,
+      1.74916897,
+      1.956131817,
+      2.187582649,
+      2.446418898,
+      2.735880826,
+      3.059592084,
+      3.421605075,
+      3.826451687,
+      4.279200023,
+      4.785517845,
+      5.351743533,
+      5.984965424,
+      6.693110555,
+      7.485043894,
+      8.370679318,
+      9.36110372,
+      10.4687158,
+      11.70738129,
+      13.09260651,
+      14.64173252,
+      16.37415215,
+      18.31155283,
+      20.47818807,
+      22.90118105,
+      25.61086418,
+      28.64115884,
+      32.03,
+      32.1,
+      32.13,
+      32.23,
+      32.6,
+      32.61,
+      32.64,
+      32.66,
+      32.7,
+      32.71,
+      32.93,
+      32.97,
+      33.28,
+      33.49,
+      33.5,
+      44.16,
+      47.77
+    ],
+    "short_factor": [
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0
+    ],
+    "type": "longrope"
+  },
+  "rope_theta": 10000.0,
+  "sliding_window": 262144,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.3",
+  "use_cache": true,
+  "vocab_size": 200064
+}

checkpoint-8862/generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 199999,
+  "eos_token_id": [
+    200020,
+    199999
+  ],
+  "pad_token_id": 199999,
+  "transformers_version": "4.50.3"
+}

checkpoint-8862/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1a6804823fdc84def31c7d9d2a60c886bf340a48e43efda825b4678bdcc71d3
+size 4903637712

checkpoint-8862/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:475fb050a7dc94e91a93458888bf3a126a0b68cf81379f5d3df3c9bc6408a1e9
+size 2768428504

checkpoint-8862/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,201 @@

+{
+  "metadata": {
+    "total_size": 7672043520
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

checkpoint-8862/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-8862/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:796a84fa762533861d74178663d2c947fb1915fe6d6b1fc474c454eece28dda1
+size 5432

config.json ADDED Viewed

	@@ -0,0 +1,143 @@

+{
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "microsoft/Phi-4-mini-instruct--configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "microsoft/Phi-4-mini-instruct--modeling_phi3.Phi3ForCausalLM",
+    "AutoTokenizer": "microsoft/Phi-4-mini-instruct--Xenova/gpt-4o"
+  },
+  "bos_token_id": 199999,
+  "embd_pdrop": 0.0,
+  "eos_token_id": 199999,
+  "full_attn_mod": 1,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "interpolate_factor": 1,
+  "lm_head_bias": false,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "phi3",
+  "num_attention_heads": 24,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "original_max_position_embeddings": 4096,
+  "pad_token_id": 199999,
+  "partial_rotary_factor": 0.75,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "long_factor": [
+      1,
+      1.118320672,
+      1.250641126,
+      1.398617824,
+      1.564103225,
+      1.74916897,
+      1.956131817,
+      2.187582649,
+      2.446418898,
+      2.735880826,
+      3.059592084,
+      3.421605075,
+      3.826451687,
+      4.279200023,
+      4.785517845,
+      5.351743533,
+      5.984965424,
+      6.693110555,
+      7.485043894,
+      8.370679318,
+      9.36110372,
+      10.4687158,
+      11.70738129,
+      13.09260651,
+      14.64173252,
+      16.37415215,
+      18.31155283,
+      20.47818807,
+      22.90118105,
+      25.61086418,
+      28.64115884,
+      32.03,
+      32.1,
+      32.13,
+      32.23,
+      32.6,
+      32.61,
+      32.64,
+      32.66,
+      32.7,
+      32.71,
+      32.93,
+      32.97,
+      33.28,
+      33.49,
+      33.5,
+      44.16,
+      47.77
+    ],
+    "short_factor": [
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0,
+      1.0
+    ],
+    "type": "longrope"
+  },
+  "rope_theta": 10000.0,
+  "sliding_window": 262144,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.3",
+  "use_cache": true,
+  "vocab_size": 200064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 199999,
+  "eos_token_id": [
+    200020,
+    199999
+  ],
+  "pad_token_id": 199999,
+  "transformers_version": "4.50.3"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a95f7cfd274cc1286e46a9d1713da4ddf9b90c02051478cc7a095e6a862b68b1
+size 4903637712

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cdc26676eeb2fcb18b5e7aad475c8267d2a63be86e86b65f7e5b28f1a04742c6
+size 2768428504

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,201 @@

+{
+  "metadata": {
+    "total_size": 7672043520
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

runs/Apr01_13-43-26_f952690d2a16/events.out.tfevents.1743515006.f952690d2a16 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d09a29762515c8994be02c5ae41f02b6f8681d274f769db93947272c71bd09d
+size 7012

runs/Apr01_13-44-23_f952690d2a16/events.out.tfevents.1743515063.f952690d2a16 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:207b031dcdd6fa6daf9da37b8ad8250c6a25456bacbdd8ec4b262f277358aec5
+size 7012

runs/Apr01_13-46-10_f952690d2a16/events.out.tfevents.1743515171.f952690d2a16 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d63596c1d0c5a80f8055560400da8a12d3121ba415b70f0cb3f8894d6bee463
+size 7012

runs/Apr01_13-49-28_f952690d2a16/events.out.tfevents.1743515368.f952690d2a16 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dde4011baf09a123ff1ad6e2fb750ef706e22723fdc70714c150770e9744f3c3
+size 7012

runs/Apr01_13-50-10_f952690d2a16/events.out.tfevents.1743515410.f952690d2a16 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6085bfb7715bc5cc623fc4e1237aa5596ef326d4c063f96259f3b6dd92c3e590
+size 7012

runs/Apr01_13-51-48_f952690d2a16/events.out.tfevents.1743515508.f952690d2a16 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30851a41d54c8b930e7aacb138ed7c63725010cba5e8d18ee708b6347bad41b0
+size 7634

runs/Apr01_14-12-59_f952690d2a16/events.out.tfevents.1743516780.f952690d2a16 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58cc608fa4f77290bd633c29d0ea8ab3952478c91f387509b72ffc6abe57f6a0
+size 287738

runs/Apr01_16-49-22_f952690d2a16/events.out.tfevents.1743526162.f952690d2a16 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83e689e78440c6fc5089e76f75e8a3f3b4c19d2086551406d6eb29ba34a1186e
+size 7013

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:382cc235b56c725945e149cc25f191da667c836655efd0857b004320e90e91ea
+size 15524095

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "199999": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "200018": {
+      "content": "<|endofprompt|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "200019": {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "200020": {
+      "content": "<|end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "200021": {
+      "content": "<|user|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "200022": {
+      "content": "<|system|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "200023": {
+      "content": "<|tool|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "200024": {
+      "content": "<|/tool|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "200025": {
+      "content": "<|tool_call|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "200026": {
+      "content": "<|/tool_call|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "200027": {
+      "content": "<|tool_response|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "200028": {
+      "content": "<|tag|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "chat_template": "{% for message in messages %}{% if message['role'] == 'system' and 'tools' in message and message['tools'] is not none %}{{ '<|' + message['role'] + '|>' + message['content'] + '<|tool|>' + message['tools'] + '<|/tool|>' + '<|end|>' }}{% else %}{{ '<|' + message['role'] + '|>' + message['content'] + '<|end|>' }}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|assistant|>' }}{% else %}{{ eos_token }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:796a84fa762533861d74178663d2c947fb1915fe6d6b1fc474c454eece28dda1
+size 5432

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff