Training in progress, step 150, checkpoint

Browse files

Files changed (14) hide show

last-checkpoint/README.md +1 -1
last-checkpoint/adapter_config.json +8 -6
last-checkpoint/adapter_model.safetensors +2 -2
last-checkpoint/added_tokens.json +25 -0
last-checkpoint/merges.txt +0 -0
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/special_tokens_map.json +17 -16
last-checkpoint/tokenizer.json +2 -2
last-checkpoint/tokenizer_config.json +192 -19
last-checkpoint/trainer_state.json +72 -1993
last-checkpoint/training_args.bin +1 -1
last-checkpoint/vocab.json +0 -0

last-checkpoint/README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-base_model: unsloth/mistral-7b-v0.2-bnb-4bit
 library_name: peft
 ---

 ---
+base_model: unsloth/qwen2.5-coder-7b-instruct-bnb-4bit
 library_name: peft
 ---

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "alpha_pattern": {},
   "auto_mapping": null,
-  "base_model_name_or_path": "unsloth/mistral-7b-v0.2-bnb-4bit",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
@@ -10,20 +10,22 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 8,
-  "lora_dropout": 0.3,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": [
     "lm_head"
   ],
   "peft_type": "LORA",
-  "r": 4,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

 {
   "alpha_pattern": {},
   "auto_mapping": null,
+  "base_model_name_or_path": "unsloth/qwen2.5-coder-7b-instruct-bnb-4bit",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": [
     "lm_head"
   ],
   "peft_type": "LORA",
+  "r": 16,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "k_proj",
+    "o_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f56b62afafa33dfd8b1b6e3a3a411c40052a60f2cb9cba1520f9aa1fb083e197
-size 268976704

 version https://git-lfs.github.com/spec/v1
+oid sha256:78a35c9bf56b6958852618a347794d9a07c38e3b73b92ca4134c852aefbb9cfc
+size 1130395064

last-checkpoint/added_tokens.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|PAD_TOKEN|>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

last-checkpoint/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3257b4060bbcffa20dbf50b84dbc274de04161f8b3aaf73ab5e72522e67c58d3
-size 538028282

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe92dd1c86c461ff4f15941bc89ffc7980c15094911a2c40b4a2e40b4b1ebcf0
+size 2260919034

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3b41a1419a7ce1114729ad2a7f33c993b3e0b261358e0b7b2af1aa3a7bbb747
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:41fbcdbe5adca339cf0181ba6260a02997afeb1893f4a69f7f561564f16dc030
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a7f437771301009dca72a1d84c876c60a7a5bf93817926c530198c7bc53364b
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:4216529ab9188af81d4b0557210a4eede3dcd97c58f39c0c7aa7cf54242dd254
 size 1256

last-checkpoint/special_tokens_map.json CHANGED Viewed

@@ -1,27 +1,28 @@
 {
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
   "eos_token": {
-    "content": "</s>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

 {
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
   "eos_token": {
+    "content": "<|im_end|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
+    "content": "<|PAD_TOKEN|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

last-checkpoint/tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2699839c243202a04a90537576fc719283f638e90fe80feb469888275289575
-size 3505751

 version https://git-lfs.github.com/spec/v1
+oid sha256:fab42efe8d17406525a9154b728cf9e957629a8ed7ce997770efdd71128c6a1a
+size 11422086

last-checkpoint/tokenizer_config.json CHANGED Viewed

@@ -1,26 +1,185 @@
 {
-  "add_bos_token": true,
-  "add_eos_token": false,
-  "add_prefix_space": true,
   "added_tokens_decoder": {
-    "0": {
-      "content": "<unk>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "1": {
-      "content": "<s>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "2": {
-      "content": "</s>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -28,17 +187,31 @@
       "special": true
     }
   },
-  "bos_token": "<s>",
   "clean_up_tokenization_spaces": false,
-  "eos_token": "</s>",
   "extra_special_tokens": {},
-  "legacy": true,
-  "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "<unk>",
   "padding_side": "left",
-  "sp_model_kwargs": {},
-  "spaces_between_special_tokens": false,
-  "tokenizer_class": "LlamaTokenizer",
-  "unk_token": "<unk>",
-  "use_default_system_prompt": false
 }

 {
+  "add_bos_token": false,
+  "add_prefix_space": false,
   "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "151644": {
+      "content": "<|im_start|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<|PAD_TOKEN|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     }
   },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- messages[0]['content'] }}\n    {%- else %}\n        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}\n    {%- endif %}\n    {{- \"\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0]['content'] + '<|im_end|>\\n' }}\n    {%- else %}\n        {{- '<|im_start|>system\\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) or (message.role == \"assistant\" and not message.tool_calls) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {{- '<|im_start|>' + message.role }}\n        {%- if message.content %}\n            {{- '\\n' + message.content }}\n        {%- endif %}\n        {%- for tool_call in message.tool_calls %}\n            {%- if tool_call.function is defined %}\n                {%- set tool_call = tool_call.function %}\n            {%- endif %}\n            {{- '\\n<tool_call>\\n{\"name\": \"' }}\n            {{- tool_call.name }}\n            {{- '\", \"arguments\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- '}\\n</tool_call>' }}\n        {%- endfor %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}\n",
   "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
   "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|PAD_TOKEN|>",
   "padding_side": "left",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
 }

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,2052 +1,131 @@
 {
-  "best_metric": 0.6792302131652832,
-  "best_model_checkpoint": "./output/checkpoint-750",
-  "epoch": 9.44055944055944,
   "eval_steps": 150,
-  "global_step": 2700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03496503496503497,
-      "grad_norm": 16.180435180664062,
-      "learning_rate": 2.9999999999999984e-06,
-      "loss": 0.6729,
       "step": 10
     },
     {
-      "epoch": 0.06993006993006994,
-      "grad_norm": 17.6674861907959,
-      "learning_rate": 5.999999999999997e-06,
-      "loss": 0.7485,
       "step": 20
     },
     {
-      "epoch": 0.1048951048951049,
-      "grad_norm": 21.324867248535156,
-      "learning_rate": 8.999999999999993e-06,
-      "loss": 0.7391,
       "step": 30
     },
     {
-      "epoch": 0.13986013986013987,
-      "grad_norm": 17.68355941772461,
-      "learning_rate": 1.1999999999999994e-05,
-      "loss": 0.533,
       "step": 40
     },
     {
-      "epoch": 0.17482517482517482,
-      "grad_norm": 19.983943939208984,
-      "learning_rate": 1.499999999999999e-05,
-      "loss": 0.5843,
       "step": 50
     },
     {
-      "epoch": 0.2097902097902098,
-      "grad_norm": 10.12471866607666,
-      "learning_rate": 1.7999999999999987e-05,
-      "loss": 0.7979,
       "step": 60
     },
     {
-      "epoch": 0.24475524475524477,
-      "grad_norm": 18.6708984375,
-      "learning_rate": 2.0999999999999985e-05,
-      "loss": 0.683,
       "step": 70
     },
     {
-      "epoch": 0.27972027972027974,
-      "grad_norm": 21.57349395751953,
-      "learning_rate": 2.3999999999999987e-05,
-      "loss": 0.7798,
       "step": 80
     },
     {
-      "epoch": 0.3146853146853147,
-      "grad_norm": 12.475003242492676,
-      "learning_rate": 2.6999999999999982e-05,
-      "loss": 0.7242,
       "step": 90
     },
     {
-      "epoch": 0.34965034965034963,
-      "grad_norm": 14.752897262573242,
-      "learning_rate": 2.999999999999998e-05,
-      "loss": 0.8674,
       "step": 100
     },
     {
-      "epoch": 0.38461538461538464,
-      "grad_norm": 11.63265323638916,
-      "learning_rate": 2.999969170437547e-05,
-      "loss": 0.5374,
       "step": 110
     },
     {
-      "epoch": 0.4195804195804196,
-      "grad_norm": 31.700468063354492,
-      "learning_rate": 2.999876683017477e-05,
-      "loss": 0.705,
       "step": 120
     },
     {
-      "epoch": 0.45454545454545453,
-      "grad_norm": 12.862920761108398,
-      "learning_rate": 2.999722541541583e-05,
-      "loss": 0.6963,
       "step": 130
     },
     {
-      "epoch": 0.48951048951048953,
-      "grad_norm": 42.59748077392578,
-      "learning_rate": 2.9995067523460178e-05,
-      "loss": 0.6837,
       "step": 140
     },
     {
-      "epoch": 0.5244755244755245,
-      "grad_norm": 10.075207710266113,
-      "learning_rate": 2.99922932430103e-05,
-      "loss": 0.5468,
       "step": 150
     },
     {
-      "epoch": 0.5244755244755245,
-      "eval_loss": 0.7486817240715027,
-      "eval_runtime": 5.5115,
-      "eval_samples_per_second": 11.612,
-      "eval_steps_per_second": 11.612,
       "step": 150
-    },
-    {
-      "epoch": 0.5594405594405595,
-      "grad_norm": 17.550865173339844,
-      "learning_rate": 2.9988902688105994e-05,
-      "loss": 0.7207,
-      "step": 160
-    },
-    {
-      "epoch": 0.5944055944055944,
-      "grad_norm": 23.878662109375,
-      "learning_rate": 2.9984895998119703e-05,
-      "loss": 0.6694,
-      "step": 170
-    },
-    {
-      "epoch": 0.6293706293706294,
-      "grad_norm": 17.137025833129883,
-      "learning_rate": 2.9980273337750747e-05,
-      "loss": 0.6492,
-      "step": 180
-    },
-    {
-      "epoch": 0.6643356643356644,
-      "grad_norm": 24.956979751586914,
-      "learning_rate": 2.9975034897018594e-05,
-      "loss": 0.6865,
-      "step": 190
-    },
-    {
-      "epoch": 0.6993006993006993,
-      "grad_norm": 12.822979927062988,
-      "learning_rate": 2.9969180891255026e-05,
-      "loss": 0.7537,
-      "step": 200
-    },
-    {
-      "epoch": 0.7342657342657343,
-      "grad_norm": 14.994546890258789,
-      "learning_rate": 2.996271156109529e-05,
-      "loss": 0.53,
-      "step": 210
-    },
-    {
-      "epoch": 0.7692307692307693,
-      "grad_norm": 16.125471115112305,
-      "learning_rate": 2.995562717246821e-05,
-      "loss": 0.7043,
-      "step": 220
-    },
-    {
-      "epoch": 0.8041958041958042,
-      "grad_norm": 16.887327194213867,
-      "learning_rate": 2.9947928016585252e-05,
-      "loss": 0.6479,
-      "step": 230
-    },
-    {
-      "epoch": 0.8391608391608392,
-      "grad_norm": 12.033827781677246,
-      "learning_rate": 2.993961440992857e-05,
-      "loss": 0.5412,
-      "step": 240
-    },
-    {
-      "epoch": 0.8741258741258742,
-      "grad_norm": 12.485661506652832,
-      "learning_rate": 2.9930686694237954e-05,
-      "loss": 0.5907,
-      "step": 250
-    },
-    {
-      "epoch": 0.9090909090909091,
-      "grad_norm": 18.46721076965332,
-      "learning_rate": 2.992114523649684e-05,
-      "loss": 0.8215,
-      "step": 260
-    },
-    {
-      "epoch": 0.9440559440559441,
-      "grad_norm": 15.521458625793457,
-      "learning_rate": 2.9910990428917184e-05,
-      "loss": 0.5217,
-      "step": 270
-    },
-    {
-      "epoch": 0.9790209790209791,
-      "grad_norm": 23.15575408935547,
-      "learning_rate": 2.9900222688923354e-05,
-      "loss": 0.7436,
-      "step": 280
-    },
-    {
-      "epoch": 1.013986013986014,
-      "grad_norm": 11.568449974060059,
-      "learning_rate": 2.9888842459134957e-05,
-      "loss": 0.5377,
-      "step": 290
-    },
-    {
-      "epoch": 1.048951048951049,
-      "grad_norm": 14.441850662231445,
-      "learning_rate": 2.987685020734867e-05,
-      "loss": 0.5759,
-      "step": 300
-    },
-    {
-      "epoch": 1.048951048951049,
-      "eval_loss": 0.7050026059150696,
-      "eval_runtime": 5.3871,
-      "eval_samples_per_second": 11.88,
-      "eval_steps_per_second": 11.88,
-      "step": 300
-    },
-    {
-      "epoch": 1.083916083916084,
-      "grad_norm": 14.990555763244629,
-      "learning_rate": 2.9864246426519002e-05,
-      "loss": 0.5357,
-      "step": 310
-    },
-    {
-      "epoch": 1.118881118881119,
-      "grad_norm": 12.700815200805664,
-      "learning_rate": 2.985103163473801e-05,
-      "loss": 0.4844,
-      "step": 320
-    },
-    {
-      "epoch": 1.1538461538461537,
-      "grad_norm": 26.03995704650879,
-      "learning_rate": 2.9837206375214023e-05,
-      "loss": 0.6256,
-      "step": 330
-    },
-    {
-      "epoch": 1.1888111888111887,
-      "grad_norm": 14.494388580322266,
-      "learning_rate": 2.9822771216249316e-05,
-      "loss": 0.5045,
-      "step": 340
-    },
-    {
-      "epoch": 1.2237762237762237,
-      "grad_norm": 4.644023895263672,
-      "learning_rate": 2.9807726751216736e-05,
-      "loss": 0.5306,
-      "step": 350
-    },
-    {
-      "epoch": 1.2587412587412588,
-      "grad_norm": 17.606008529663086,
-      "learning_rate": 2.9792073598535302e-05,
-      "loss": 0.6347,
-      "step": 360
-    },
-    {
-      "epoch": 1.2937062937062938,
-      "grad_norm": 18.099464416503906,
-      "learning_rate": 2.9775812401644833e-05,
-      "loss": 0.5037,
-      "step": 370
-    },
-    {
-      "epoch": 1.3286713286713288,
-      "grad_norm": 17.8880558013916,
-      "learning_rate": 2.9758943828979424e-05,
-      "loss": 0.5738,
-      "step": 380
-    },
-    {
-      "epoch": 1.3636363636363638,
-      "grad_norm": 14.929105758666992,
-      "learning_rate": 2.9741468573940037e-05,
-      "loss": 0.7208,
-      "step": 390
-    },
-    {
-      "epoch": 1.3986013986013985,
-      "grad_norm": 21.71738624572754,
-      "learning_rate": 2.972338735486596e-05,
-      "loss": 0.5441,
-      "step": 400
-    },
-    {
-      "epoch": 1.4335664335664335,
-      "grad_norm": 15.354290008544922,
-      "learning_rate": 2.970470091500529e-05,
-      "loss": 0.4544,
-      "step": 410
-    },
-    {
-      "epoch": 1.4685314685314685,
-      "grad_norm": 19.556142807006836,
-      "learning_rate": 2.9685410022484374e-05,
-      "loss": 0.5871,
-      "step": 420
-    },
-    {
-      "epoch": 1.5034965034965035,
-      "grad_norm": 11.594173431396484,
-      "learning_rate": 2.9665515470276253e-05,
-      "loss": 0.6366,
-      "step": 430
-    },
-    {
-      "epoch": 1.5384615384615383,
-      "grad_norm": 14.30229663848877,
-      "learning_rate": 2.9645018076168043e-05,
-      "loss": 0.6079,
-      "step": 440
-    },
-    {
-      "epoch": 1.5734265734265733,
-      "grad_norm": 17.306808471679688,
-      "learning_rate": 2.9623918682727335e-05,
-      "loss": 0.4741,
-      "step": 450
-    },
-    {
-      "epoch": 1.5734265734265733,
-      "eval_loss": 0.695993185043335,
-      "eval_runtime": 5.7672,
-      "eval_samples_per_second": 11.097,
-      "eval_steps_per_second": 11.097,
-      "step": 450
-    },
-    {
-      "epoch": 1.6083916083916083,
-      "grad_norm": 23.68806266784668,
-      "learning_rate": 2.9602218157267552e-05,
-      "loss": 0.5325,
-      "step": 460
-    },
-    {
-      "epoch": 1.6433566433566433,
-      "grad_norm": 15.258186340332031,
-      "learning_rate": 2.95799173918123e-05,
-      "loss": 0.5714,
-      "step": 470
-    },
-    {
-      "epoch": 1.6783216783216783,
-      "grad_norm": 10.936037063598633,
-      "learning_rate": 2.9557017303058703e-05,
-      "loss": 0.5293,
-      "step": 480
-    },
-    {
-      "epoch": 1.7132867132867133,
-      "grad_norm": 18.107650756835938,
-      "learning_rate": 2.953351883233971e-05,
-      "loss": 0.5159,
-      "step": 490
-    },
-    {
-      "epoch": 1.7482517482517483,
-      "grad_norm": 23.29376792907715,
-      "learning_rate": 2.9509422945585423e-05,
-      "loss": 0.6026,
-      "step": 500
-    },
-    {
-      "epoch": 1.7832167832167833,
-      "grad_norm": 12.05435562133789,
-      "learning_rate": 2.9484730633283364e-05,
-      "loss": 0.4782,
-      "step": 510
-    },
-    {
-      "epoch": 1.8181818181818183,
-      "grad_norm": 21.805150985717773,
-      "learning_rate": 2.945944291043778e-05,
-      "loss": 0.6525,
-      "step": 520
-    },
-    {
-      "epoch": 1.8531468531468531,
-      "grad_norm": 11.176011085510254,
-      "learning_rate": 2.9433560816527912e-05,
-      "loss": 0.6669,
-      "step": 530
-    },
-    {
-      "epoch": 1.8881118881118881,
-      "grad_norm": 13.804393768310547,
-      "learning_rate": 2.940708541546527e-05,
-      "loss": 0.6876,
-      "step": 540
-    },
-    {
-      "epoch": 1.9230769230769231,
-      "grad_norm": 13.416976928710938,
-      "learning_rate": 2.9380017795549888e-05,
-      "loss": 0.4839,
-      "step": 550
-    },
-    {
-      "epoch": 1.958041958041958,
-      "grad_norm": 11.667569160461426,
-      "learning_rate": 2.935235906942561e-05,
-      "loss": 0.5205,
-      "step": 560
-    },
-    {
-      "epoch": 1.993006993006993,
-      "grad_norm": 30.873056411743164,
-      "learning_rate": 2.9324110374034337e-05,
-      "loss": 0.5271,
-      "step": 570
-    },
-    {
-      "epoch": 2.027972027972028,
-      "grad_norm": 13.170394897460938,
-      "learning_rate": 2.929527287056929e-05,
-      "loss": 0.3298,
-      "step": 580
-    },
-    {
-      "epoch": 2.062937062937063,
-      "grad_norm": 9.41249942779541,
-      "learning_rate": 2.9265847744427285e-05,
-      "loss": 0.4833,
-      "step": 590
-    },
-    {
-      "epoch": 2.097902097902098,
-      "grad_norm": 20.784318923950195,
-      "learning_rate": 2.923583620516001e-05,
-      "loss": 0.5354,
-      "step": 600
-    },
-    {
-      "epoch": 2.097902097902098,
-      "eval_loss": 0.6886742115020752,
-      "eval_runtime": 5.7912,
-      "eval_samples_per_second": 11.051,
-      "eval_steps_per_second": 11.051,
-      "step": 600
-    },
-    {
-      "epoch": 2.132867132867133,
-      "grad_norm": 16.683345794677734,
-      "learning_rate": 2.92052394864243e-05,
-      "loss": 0.4066,
-      "step": 610
-    },
-    {
-      "epoch": 2.167832167832168,
-      "grad_norm": 11.515765190124512,
-      "learning_rate": 2.917405884593142e-05,
-      "loss": 0.3847,
-      "step": 620
-    },
-    {
-      "epoch": 2.202797202797203,
-      "grad_norm": 16.18233299255371,
-      "learning_rate": 2.9142295565395373e-05,
-      "loss": 0.4465,
-      "step": 630
-    },
-    {
-      "epoch": 2.237762237762238,
-      "grad_norm": 12.035266876220703,
-      "learning_rate": 2.910995095048022e-05,
-      "loss": 0.461,
-      "step": 640
-    },
-    {
-      "epoch": 2.2727272727272725,
-      "grad_norm": 10.977869033813477,
-      "learning_rate": 2.9077026330746387e-05,
-      "loss": 0.465,
-      "step": 650
-    },
-    {
-      "epoch": 2.3076923076923075,
-      "grad_norm": 20.465116500854492,
-      "learning_rate": 2.904352305959604e-05,
-      "loss": 0.4204,
-      "step": 660
-    },
-    {
-      "epoch": 2.3426573426573425,
-      "grad_norm": 12.585354804992676,
-      "learning_rate": 2.900944251421743e-05,
-      "loss": 0.4709,
-      "step": 670
-    },
-    {
-      "epoch": 2.3776223776223775,
-      "grad_norm": 23.60915756225586,
-      "learning_rate": 2.8974786095528292e-05,
-      "loss": 0.4938,
-      "step": 680
-    },
-    {
-      "epoch": 2.4125874125874125,
-      "grad_norm": 18.205228805541992,
-      "learning_rate": 2.893955522811826e-05,
-      "loss": 0.432,
-      "step": 690
-    },
-    {
-      "epoch": 2.4475524475524475,
-      "grad_norm": 11.574105262756348,
-      "learning_rate": 2.8903751360190307e-05,
-      "loss": 0.4723,
-      "step": 700
-    },
-    {
-      "epoch": 2.4825174825174825,
-      "grad_norm": 17.412702560424805,
-      "learning_rate": 2.8867375963501203e-05,
-      "loss": 0.4697,
-      "step": 710
-    },
-    {
-      "epoch": 2.5174825174825175,
-      "grad_norm": 15.148882865905762,
-      "learning_rate": 2.883043053330104e-05,
-      "loss": 0.3637,
-      "step": 720
-    },
-    {
-      "epoch": 2.5524475524475525,
-      "grad_norm": 13.45967960357666,
-      "learning_rate": 2.8792916588271745e-05,
-      "loss": 0.3917,
-      "step": 730
-    },
-    {
-      "epoch": 2.5874125874125875,
-      "grad_norm": 22.990352630615234,
-      "learning_rate": 2.875483567046466e-05,
-      "loss": 0.4405,
-      "step": 740
-    },
-    {
-      "epoch": 2.6223776223776225,
-      "grad_norm": 14.59798526763916,
-      "learning_rate": 2.871618934523717e-05,
-      "loss": 0.5114,
-      "step": 750
-    },
-    {
-      "epoch": 2.6223776223776225,
-      "eval_loss": 0.6792302131652832,
-      "eval_runtime": 5.3969,
-      "eval_samples_per_second": 11.859,
-      "eval_steps_per_second": 11.859,
-      "step": 750
-    },
-    {
-      "epoch": 2.6573426573426575,
-      "grad_norm": 23.738746643066406,
-      "learning_rate": 2.8676979201188336e-05,
-      "loss": 0.5102,
-      "step": 760
-    },
-    {
-      "epoch": 2.6923076923076925,
-      "grad_norm": 14.146129608154297,
-      "learning_rate": 2.8637206850093607e-05,
-      "loss": 0.4697,
-      "step": 770
-    },
-    {
-      "epoch": 2.7272727272727275,
-      "grad_norm": 13.48592758178711,
-      "learning_rate": 2.8596873926838552e-05,
-      "loss": 0.5079,
-      "step": 780
-    },
-    {
-      "epoch": 2.762237762237762,
-      "grad_norm": 15.442709922790527,
-      "learning_rate": 2.8555982089351683e-05,
-      "loss": 0.5034,
-      "step": 790
-    },
-    {
-      "epoch": 2.797202797202797,
-      "grad_norm": 17.767261505126953,
-      "learning_rate": 2.8514533018536265e-05,
-      "loss": 0.3573,
-      "step": 800
-    },
-    {
-      "epoch": 2.832167832167832,
-      "grad_norm": 15.318553924560547,
-      "learning_rate": 2.8472528418201266e-05,
-      "loss": 0.5365,
-      "step": 810
-    },
-    {
-      "epoch": 2.867132867132867,
-      "grad_norm": 9.855380058288574,
-      "learning_rate": 2.842997001499128e-05,
-      "loss": 0.527,
-      "step": 820
-    },
-    {
-      "epoch": 2.902097902097902,
-      "grad_norm": 9.013484954833984,
-      "learning_rate": 2.838685955831557e-05,
-      "loss": 0.3378,
-      "step": 830
-    },
-    {
-      "epoch": 2.937062937062937,
-      "grad_norm": 36.93981170654297,
-      "learning_rate": 2.834319882027616e-05,
-      "loss": 0.7142,
-      "step": 840
-    },
-    {
-      "epoch": 2.972027972027972,
-      "grad_norm": 10.132364273071289,
-      "learning_rate": 2.8298989595594986e-05,
-      "loss": 0.553,
-      "step": 850
-    },
-    {
-      "epoch": 3.006993006993007,
-      "grad_norm": 6.798361778259277,
-      "learning_rate": 2.8254233701540112e-05,
-      "loss": 0.374,
-      "step": 860
-    },
-    {
-      "epoch": 3.041958041958042,
-      "grad_norm": 20.141143798828125,
-      "learning_rate": 2.820893297785105e-05,
-      "loss": 0.3313,
-      "step": 870
-    },
-    {
-      "epoch": 3.076923076923077,
-      "grad_norm": 11.781057357788086,
-      "learning_rate": 2.8163089286663127e-05,
-      "loss": 0.415,
-      "step": 880
-    },
-    {
-      "epoch": 3.111888111888112,
-      "grad_norm": 6.8686604499816895,
-      "learning_rate": 2.8116704512430917e-05,
-      "loss": 0.3106,
-      "step": 890
-    },
-    {
-      "epoch": 3.1468531468531467,
-      "grad_norm": 6.8011674880981445,
-      "learning_rate": 2.8069780561850824e-05,
-      "loss": 0.4021,
-      "step": 900
-    },
-    {
-      "epoch": 3.1468531468531467,
-      "eval_loss": 0.6804107427597046,
-      "eval_runtime": 5.482,
-      "eval_samples_per_second": 11.675,
-      "eval_steps_per_second": 11.675,
-      "step": 900
-    },
-    {
-      "epoch": 3.1818181818181817,
-      "grad_norm": 10.609955787658691,
-      "learning_rate": 2.802231936378266e-05,
-      "loss": 0.4309,
-      "step": 910
-    },
-    {
-      "epoch": 3.2167832167832167,
-      "grad_norm": 12.568284034729004,
-      "learning_rate": 2.7974322869170385e-05,
-      "loss": 0.5405,
-      "step": 920
-    },
-    {
-      "epoch": 3.2517482517482517,
-      "grad_norm": 10.24028205871582,
-      "learning_rate": 2.7925793050961907e-05,
-      "loss": 0.4015,
-      "step": 930
-    },
-    {
-      "epoch": 3.2867132867132867,
-      "grad_norm": 26.025440216064453,
-      "learning_rate": 2.7876731904027973e-05,
-      "loss": 0.4744,
-      "step": 940
-    },
-    {
-      "epoch": 3.3216783216783217,
-      "grad_norm": 5.4463582038879395,
-      "learning_rate": 2.7827141445080176e-05,
-      "loss": 0.3603,
-      "step": 950
-    },
-    {
-      "epoch": 3.3566433566433567,
-      "grad_norm": 17.8033504486084,
-      "learning_rate": 2.7777023712588047e-05,
-      "loss": 0.3492,
-      "step": 960
-    },
-    {
-      "epoch": 3.3916083916083917,
-      "grad_norm": 14.276956558227539,
-      "learning_rate": 2.772638076669527e-05,
-      "loss": 0.4004,
-      "step": 970
-    },
-    {
-      "epoch": 3.4265734265734267,
-      "grad_norm": 13.117759704589844,
-      "learning_rate": 2.7675214689135002e-05,
-      "loss": 0.4456,
-      "step": 980
-    },
-    {
-      "epoch": 3.4615384615384617,
-      "grad_norm": 15.448287010192871,
-      "learning_rate": 2.762352758314428e-05,
-      "loss": 0.3232,
-      "step": 990
-    },
-    {
-      "epoch": 3.4965034965034967,
-      "grad_norm": 13.702083587646484,
-      "learning_rate": 2.757132157337759e-05,
-      "loss": 0.4483,
-      "step": 1000
-    },
-    {
-      "epoch": 3.5314685314685317,
-      "grad_norm": 11.251469612121582,
-      "learning_rate": 2.751859880581952e-05,
-      "loss": 0.3263,
-      "step": 1010
-    },
-    {
-      "epoch": 3.5664335664335667,
-      "grad_norm": 17.5662841796875,
-      "learning_rate": 2.746536144769654e-05,
-      "loss": 0.4312,
-      "step": 1020
-    },
-    {
-      "epoch": 3.6013986013986012,
-      "grad_norm": 15.075780868530273,
-      "learning_rate": 2.741161168738793e-05,
-      "loss": 0.4887,
-      "step": 1030
-    },
-    {
-      "epoch": 3.6363636363636362,
-      "grad_norm": 13.685576438903809,
-      "learning_rate": 2.7357351734335802e-05,
-      "loss": 0.2859,
-      "step": 1040
-    },
-    {
-      "epoch": 3.6713286713286712,
-      "grad_norm": 8.514018058776855,
-      "learning_rate": 2.730258381895432e-05,
-      "loss": 0.2317,
-      "step": 1050
-    },
-    {
-      "epoch": 3.6713286713286712,
-      "eval_loss": 0.682501494884491,
-      "eval_runtime": 5.4306,
-      "eval_samples_per_second": 11.785,
-      "eval_steps_per_second": 11.785,
-      "step": 1050
-    },
-    {
-      "epoch": 3.7062937062937062,
-      "grad_norm": 12.129782676696777,
-      "learning_rate": 1.365129190947716e-06,
-      "loss": 0.447,
-      "step": 1060
-    },
-    {
-      "epoch": 3.7412587412587412,
-      "grad_norm": 16.233694076538086,
-      "learning_rate": 2.730258381895432e-06,
-      "loss": 0.3503,
-      "step": 1070
-    },
-    {
-      "epoch": 3.7762237762237763,
-      "grad_norm": 20.50456428527832,
-      "learning_rate": 4.095387572843148e-06,
-      "loss": 0.3355,
-      "step": 1080
-    },
-    {
-      "epoch": 3.8111888111888113,
-      "grad_norm": 5.729248523712158,
-      "learning_rate": 5.460516763790864e-06,
-      "loss": 0.4045,
-      "step": 1090
-    },
-    {
-      "epoch": 3.8461538461538463,
-      "grad_norm": 20.16579818725586,
-      "learning_rate": 6.82564595473858e-06,
-      "loss": 0.4228,
-      "step": 1100
-    },
-    {
-      "epoch": 3.8811188811188813,
-      "grad_norm": 8.82602596282959,
-      "learning_rate": 8.190775145686295e-06,
-      "loss": 0.3125,
-      "step": 1110
-    },
-    {
-      "epoch": 3.916083916083916,
-      "grad_norm": 12.37415885925293,
-      "learning_rate": 9.555904336634011e-06,
-      "loss": 0.4757,
-      "step": 1120
-    },
-    {
-      "epoch": 3.951048951048951,
-      "grad_norm": 9.278702735900879,
-      "learning_rate": 1.0921033527581728e-05,
-      "loss": 0.2989,
-      "step": 1130
-    },
-    {
-      "epoch": 3.986013986013986,
-      "grad_norm": 9.90930461883545,
-      "learning_rate": 1.2286162718529444e-05,
-      "loss": 0.3974,
-      "step": 1140
-    },
-    {
-      "epoch": 4.020979020979021,
-      "grad_norm": 10.056645393371582,
-      "learning_rate": 1.365129190947716e-05,
-      "loss": 0.3608,
-      "step": 1150
-    },
-    {
-      "epoch": 4.055944055944056,
-      "grad_norm": 7.33254337310791,
-      "learning_rate": 1.3651151621691673e-05,
-      "loss": 0.339,
-      "step": 1160
-    },
-    {
-      "epoch": 4.090909090909091,
-      "grad_norm": 24.452014923095703,
-      "learning_rate": 1.3650730764101896e-05,
-      "loss": 0.3583,
-      "step": 1170
-    },
-    {
-      "epoch": 4.125874125874126,
-      "grad_norm": 7.368541240692139,
-      "learning_rate": 1.3650029354007634e-05,
-      "loss": 0.2664,
-      "step": 1180
-    },
-    {
-      "epoch": 4.160839160839161,
-      "grad_norm": 22.197839736938477,
-      "learning_rate": 1.364904742024111e-05,
-      "loss": 0.4509,
-      "step": 1190
-    },
-    {
-      "epoch": 4.195804195804196,
-      "grad_norm": 9.575596809387207,
-      "learning_rate": 1.3647785003165774e-05,
-      "loss": 0.3067,
-      "step": 1200
-    },
-    {
-      "epoch": 4.195804195804196,
-      "eval_loss": 0.6809002757072449,
-      "eval_runtime": 5.4517,
-      "eval_samples_per_second": 11.74,
-      "eval_steps_per_second": 11.74,
-      "step": 1200
-    },
-    {
-      "epoch": 4.230769230769231,
-      "grad_norm": 10.897104263305664,
-      "learning_rate": 1.364624215467465e-05,
-      "loss": 0.4448,
-      "step": 1210
-    },
-    {
-      "epoch": 4.265734265734266,
-      "grad_norm": 10.724977493286133,
-      "learning_rate": 1.3644418938188194e-05,
-      "loss": 0.2332,
-      "step": 1220
-    },
-    {
-      "epoch": 4.300699300699301,
-      "grad_norm": 19.249921798706055,
-      "learning_rate": 1.3642315428651695e-05,
-      "loss": 0.314,
-      "step": 1230
-    },
-    {
-      "epoch": 4.335664335664336,
-      "grad_norm": 5.301750183105469,
-      "learning_rate": 1.363993171253219e-05,
-      "loss": 0.3981,
-      "step": 1240
-    },
-    {
-      "epoch": 4.370629370629371,
-      "grad_norm": 7.834229946136475,
-      "learning_rate": 1.3637267887814916e-05,
-      "loss": 0.3859,
-      "step": 1250
-    },
-    {
-      "epoch": 4.405594405594406,
-      "grad_norm": 9.660653114318848,
-      "learning_rate": 1.3634324063999272e-05,
-      "loss": 0.3121,
-      "step": 1260
-    },
-    {
-      "epoch": 4.440559440559441,
-      "grad_norm": 10.212327003479004,
-      "learning_rate": 1.3631100362094322e-05,
-      "loss": 0.3114,
-      "step": 1270
-    },
-    {
-      "epoch": 4.475524475524476,
-      "grad_norm": 7.464266300201416,
-      "learning_rate": 1.362759691461383e-05,
-      "loss": 0.297,
-      "step": 1280
-    },
-    {
-      "epoch": 4.510489510489511,
-      "grad_norm": 10.588373184204102,
-      "learning_rate": 1.3623813865570797e-05,
-      "loss": 0.2884,
-      "step": 1290
-    },
-    {
-      "epoch": 4.545454545454545,
-      "grad_norm": 5.730044364929199,
-      "learning_rate": 1.3619751370471551e-05,
-      "loss": 0.3567,
-      "step": 1300
-    },
-    {
-      "epoch": 4.58041958041958,
-      "grad_norm": 19.52901268005371,
-      "learning_rate": 1.3615409596309355e-05,
-      "loss": 0.2881,
-      "step": 1310
-    },
-    {
-      "epoch": 4.615384615384615,
-      "grad_norm": 3.7794055938720703,
-      "learning_rate": 1.361078872155754e-05,
-      "loss": 0.3635,
-      "step": 1320
-    },
-    {
-      "epoch": 4.65034965034965,
-      "grad_norm": 4.951632499694824,
-      "learning_rate": 1.3605888936162167e-05,
-      "loss": 0.3109,
-      "step": 1330
-    },
-    {
-      "epoch": 4.685314685314685,
-      "grad_norm": 10.017960548400879,
-      "learning_rate": 1.3600710441534224e-05,
-      "loss": 0.2436,
-      "step": 1340
-    },
-    {
-      "epoch": 4.72027972027972,
-      "grad_norm": 16.66628646850586,
-      "learning_rate": 1.359525345054134e-05,
-      "loss": 0.3864,
-      "step": 1350
-    },
-    {
-      "epoch": 4.72027972027972,
-      "eval_loss": 0.6838909983634949,
-      "eval_runtime": 5.4678,
-      "eval_samples_per_second": 11.705,
-      "eval_steps_per_second": 11.705,
-      "step": 1350
-    },
-    {
-      "epoch": 4.755244755244755,
-      "grad_norm": 9.737703323364258,
-      "learning_rate": 1.3589518187499044e-05,
-      "loss": 0.3225,
-      "step": 1360
-    },
-    {
-      "epoch": 4.79020979020979,
-      "grad_norm": 15.640142440795898,
-      "learning_rate": 1.3583504888161534e-05,
-      "loss": 0.2717,
-      "step": 1370
-    },
-    {
-      "epoch": 4.825174825174825,
-      "grad_norm": 10.82050895690918,
-      "learning_rate": 1.3577213799711993e-05,
-      "loss": 0.3008,
-      "step": 1380
-    },
-    {
-      "epoch": 4.86013986013986,
-      "grad_norm": 15.912845611572266,
-      "learning_rate": 1.3570645180752428e-05,
-      "loss": 0.2563,
-      "step": 1390
-    },
-    {
-      "epoch": 4.895104895104895,
-      "grad_norm": 7.422889232635498,
-      "learning_rate": 1.3563799301293039e-05,
-      "loss": 0.3438,
-      "step": 1400
-    },
-    {
-      "epoch": 4.93006993006993,
-      "grad_norm": 10.84676742553711,
-      "learning_rate": 1.355667644274111e-05,
-      "loss": 0.2496,
-      "step": 1410
-    },
-    {
-      "epoch": 4.965034965034965,
-      "grad_norm": 11.794937133789062,
-      "learning_rate": 1.3549276897889468e-05,
-      "loss": 0.4524,
-      "step": 1420
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 10.1076078414917,
-      "learning_rate": 1.3541600970904412e-05,
-      "loss": 0.3511,
-      "step": 1430
-    },
-    {
-      "epoch": 5.034965034965035,
-      "grad_norm": 6.803938865661621,
-      "learning_rate": 1.3533648977313237e-05,
-      "loss": 0.2687,
-      "step": 1440
-    },
-    {
-      "epoch": 5.06993006993007,
-      "grad_norm": 7.840601444244385,
-      "learning_rate": 1.3525421243991256e-05,
-      "loss": 0.373,
-      "step": 1450
-    },
-    {
-      "epoch": 5.104895104895105,
-      "grad_norm": 22.30022621154785,
-      "learning_rate": 1.3516918109148357e-05,
-      "loss": 0.3071,
-      "step": 1460
-    },
-    {
-      "epoch": 5.13986013986014,
-      "grad_norm": 17.0526180267334,
-      "learning_rate": 1.3508139922315113e-05,
-      "loss": 0.3202,
-      "step": 1470
-    },
-    {
-      "epoch": 5.174825174825175,
-      "grad_norm": 6.399594306945801,
-      "learning_rate": 1.34990870443284e-05,
-      "loss": 0.1617,
-      "step": 1480
-    },
-    {
-      "epoch": 5.20979020979021,
-      "grad_norm": 13.202977180480957,
-      "learning_rate": 1.3489759847316573e-05,
-      "loss": 0.3732,
-      "step": 1490
-    },
-    {
-      "epoch": 5.244755244755245,
-      "grad_norm": 17.730331420898438,
-      "learning_rate": 1.3480158714684173e-05,
-      "loss": 0.3192,
-      "step": 1500
-    },
-    {
-      "epoch": 5.244755244755245,
-      "eval_loss": 0.6989673972129822,
-      "eval_runtime": 5.5352,
-      "eval_samples_per_second": 11.562,
-      "eval_steps_per_second": 11.562,
-      "step": 1500
-    },
-    {
-      "epoch": 5.27972027972028,
-      "grad_norm": 52.83620834350586,
-      "learning_rate": 6.740079357342087e-07,
-      "loss": 0.4347,
-      "step": 1510
-    },
-    {
-      "epoch": 5.314685314685315,
-      "grad_norm": 13.815258979797363,
-      "learning_rate": 1.3480158714684174e-06,
-      "loss": 0.2398,
-      "step": 1520
-    },
-    {
-      "epoch": 5.34965034965035,
-      "grad_norm": 9.805350303649902,
-      "learning_rate": 2.022023807202626e-06,
-      "loss": 0.3022,
-      "step": 1530
-    },
-    {
-      "epoch": 5.384615384615385,
-      "grad_norm": 12.087991714477539,
-      "learning_rate": 2.696031742936835e-06,
-      "loss": 0.2382,
-      "step": 1540
-    },
-    {
-      "epoch": 5.41958041958042,
-      "grad_norm": 8.947698593139648,
-      "learning_rate": 3.3700396786710433e-06,
-      "loss": 0.2632,
-      "step": 1550
-    },
-    {
-      "epoch": 5.454545454545454,
-      "grad_norm": 13.196881294250488,
-      "learning_rate": 4.044047614405252e-06,
-      "loss": 0.3315,
-      "step": 1560
-    },
-    {
-      "epoch": 5.489510489510489,
-      "grad_norm": 9.41542911529541,
-      "learning_rate": 4.71805555013946e-06,
-      "loss": 0.2862,
-      "step": 1570
-    },
-    {
-      "epoch": 5.524475524475524,
-      "grad_norm": 13.778592109680176,
-      "learning_rate": 5.39206348587367e-06,
-      "loss": 0.2527,
-      "step": 1580
-    },
-    {
-      "epoch": 5.559440559440559,
-      "grad_norm": 5.95212984085083,
-      "learning_rate": 6.066071421607878e-06,
-      "loss": 0.3325,
-      "step": 1590
-    },
-    {
-      "epoch": 5.594405594405594,
-      "grad_norm": 14.649141311645508,
-      "learning_rate": 6.7400793573420866e-06,
-      "loss": 0.3249,
-      "step": 1600
-    },
-    {
-      "epoch": 5.629370629370629,
-      "grad_norm": 14.40283489227295,
-      "learning_rate": 6.740010092776263e-06,
-      "loss": 0.3323,
-      "step": 1610
-    },
-    {
-      "epoch": 5.664335664335664,
-      "grad_norm": 24.079910278320312,
-      "learning_rate": 6.739802301925987e-06,
-      "loss": 0.3388,
-      "step": 1620
-    },
-    {
-      "epoch": 5.699300699300699,
-      "grad_norm": 8.163803100585938,
-      "learning_rate": 6.739455993332726e-06,
-      "loss": 0.2671,
-      "step": 1630
-    },
-    {
-      "epoch": 5.734265734265734,
-      "grad_norm": 6.428587913513184,
-      "learning_rate": 6.73897118123187e-06,
-      "loss": 0.2697,
-      "step": 1640
-    },
-    {
-      "epoch": 5.769230769230769,
-      "grad_norm": 13.600237846374512,
-      "learning_rate": 6.738347885552146e-06,
-      "loss": 0.2119,
-      "step": 1650
-    },
-    {
-      "epoch": 5.769230769230769,
-      "eval_loss": 0.6929482817649841,
-      "eval_runtime": 5.408,
-      "eval_samples_per_second": 11.834,
-      "eval_steps_per_second": 11.834,
-      "step": 1650
-    },
-    {
-      "epoch": 5.804195804195804,
-      "grad_norm": 15.782163619995117,
-      "learning_rate": 6.737586131914798e-06,
-      "loss": 0.2109,
-      "step": 1660
-    },
-    {
-      "epoch": 5.839160839160839,
-      "grad_norm": 5.466376781463623,
-      "learning_rate": 6.736685951632536e-06,
-      "loss": 0.2627,
-      "step": 1670
-    },
-    {
-      "epoch": 5.874125874125874,
-      "grad_norm": 20.662796020507812,
-      "learning_rate": 6.7356473817082425e-06,
-      "loss": 0.3293,
-      "step": 1680
-    },
-    {
-      "epoch": 5.909090909090909,
-      "grad_norm": 10.718391418457031,
-      "learning_rate": 6.734470464833461e-06,
-      "loss": 0.2461,
-      "step": 1690
-    },
-    {
-      "epoch": 5.944055944055944,
-      "grad_norm": 20.616153717041016,
-      "learning_rate": 6.733155249386635e-06,
-      "loss": 0.2833,
-      "step": 1700
-    },
-    {
-      "epoch": 5.979020979020979,
-      "grad_norm": 11.193328857421875,
-      "learning_rate": 6.731701789431119e-06,
-      "loss": 0.3295,
-      "step": 1710
-    },
-    {
-      "epoch": 6.013986013986014,
-      "grad_norm": 17.947956085205078,
-      "learning_rate": 6.73011014471296e-06,
-      "loss": 0.3172,
-      "step": 1720
-    },
-    {
-      "epoch": 6.048951048951049,
-      "grad_norm": 22.818161010742188,
-      "learning_rate": 6.728380380658438e-06,
-      "loss": 0.3279,
-      "step": 1730
-    },
-    {
-      "epoch": 6.083916083916084,
-      "grad_norm": 7.237072944641113,
-      "learning_rate": 6.726512568371378e-06,
-      "loss": 0.2883,
-      "step": 1740
-    },
-    {
-      "epoch": 6.118881118881119,
-      "grad_norm": 11.877559661865234,
-      "learning_rate": 6.724506784630227e-06,
-      "loss": 0.308,
-      "step": 1750
-    },
-    {
-      "epoch": 6.153846153846154,
-      "grad_norm": 7.487149715423584,
-      "learning_rate": 6.7223631118849e-06,
-      "loss": 0.2349,
-      "step": 1760
-    },
-    {
-      "epoch": 6.188811188811189,
-      "grad_norm": 8.094034194946289,
-      "learning_rate": 6.720081638253386e-06,
-      "loss": 0.3345,
-      "step": 1770
-    },
-    {
-      "epoch": 6.223776223776224,
-      "grad_norm": 9.092995643615723,
-      "learning_rate": 6.717662457518131e-06,
-      "loss": 0.2765,
-      "step": 1780
-    },
-    {
-      "epoch": 6.258741258741258,
-      "grad_norm": 12.7426176071167,
-      "learning_rate": 6.715105669122178e-06,
-      "loss": 0.219,
-      "step": 1790
-    },
-    {
-      "epoch": 6.293706293706293,
-      "grad_norm": 12.268411636352539,
-      "learning_rate": 6.712411378165085e-06,
-      "loss": 0.245,
-      "step": 1800
-    },
-    {
-      "epoch": 6.293706293706293,
-      "eval_loss": 0.6965098977088928,
-      "eval_runtime": 5.433,
-      "eval_samples_per_second": 11.78,
-      "eval_steps_per_second": 11.78,
-      "step": 1800
-    },
-    {
-      "epoch": 6.328671328671328,
-      "grad_norm": 7.888387680053711,
-      "learning_rate": 6.709579695398601e-06,
-      "loss": 0.2562,
-      "step": 1810
-    },
-    {
-      "epoch": 6.363636363636363,
-      "grad_norm": 7.875286102294922,
-      "learning_rate": 6.706610737222113e-06,
-      "loss": 0.2944,
-      "step": 1820
-    },
-    {
-      "epoch": 6.398601398601398,
-      "grad_norm": 7.031346797943115,
-      "learning_rate": 6.703504625677862e-06,
-      "loss": 0.2429,
-      "step": 1830
-    },
-    {
-      "epoch": 6.433566433566433,
-      "grad_norm": 6.460575103759766,
-      "learning_rate": 6.70026148844593e-06,
-      "loss": 0.258,
-      "step": 1840
-    },
-    {
-      "epoch": 6.468531468531468,
-      "grad_norm": 14.718223571777344,
-      "learning_rate": 6.696881458838985e-06,
-      "loss": 0.3136,
-      "step": 1850
-    },
-    {
-      "epoch": 6.503496503496503,
-      "grad_norm": 9.787906646728516,
-      "learning_rate": 6.693364675796803e-06,
-      "loss": 0.2644,
-      "step": 1860
-    },
-    {
-      "epoch": 6.538461538461538,
-      "grad_norm": 15.591919898986816,
-      "learning_rate": 6.689711283880565e-06,
-      "loss": 0.322,
-      "step": 1870
-    },
-    {
-      "epoch": 6.573426573426573,
-      "grad_norm": 9.265682220458984,
-      "learning_rate": 6.685921433266901e-06,
-      "loss": 0.3452,
-      "step": 1880
-    },
-    {
-      "epoch": 6.608391608391608,
-      "grad_norm": 11.823332786560059,
-      "learning_rate": 6.681995279741726e-06,
-      "loss": 0.301,
-      "step": 1890
-    },
-    {
-      "epoch": 6.643356643356643,
-      "grad_norm": 40.379150390625,
-      "learning_rate": 6.677932984693833e-06,
-      "loss": 0.2843,
-      "step": 1900
-    },
-    {
-      "epoch": 6.678321678321678,
-      "grad_norm": 14.873003005981445,
-      "learning_rate": 6.673734715108263e-06,
-      "loss": 0.2179,
-      "step": 1910
-    },
-    {
-      "epoch": 6.713286713286713,
-      "grad_norm": 10.106959342956543,
-      "learning_rate": 6.669400643559431e-06,
-      "loss": 0.2102,
-      "step": 1920
-    },
-    {
-      "epoch": 6.748251748251748,
-      "grad_norm": 13.115974426269531,
-      "learning_rate": 6.664930948204048e-06,
-      "loss": 0.2349,
-      "step": 1930
-    },
-    {
-      "epoch": 6.783216783216783,
-      "grad_norm": 10.651406288146973,
-      "learning_rate": 6.660325812773779e-06,
-      "loss": 0.3099,
-      "step": 1940
-    },
-    {
-      "epoch": 6.818181818181818,
-      "grad_norm": 20.88200569152832,
-      "learning_rate": 6.655585426567707e-06,
-      "loss": 0.2866,
-      "step": 1950
-    },
-    {
-      "epoch": 6.818181818181818,
-      "eval_loss": 0.6974838972091675,
-      "eval_runtime": 5.4412,
-      "eval_samples_per_second": 11.762,
-      "eval_steps_per_second": 11.762,
-      "step": 1950
-    },
-    {
-      "epoch": 6.853146853146853,
-      "grad_norm": 11.113102912902832,
-      "learning_rate": 3.3277927132838535e-07,
-      "loss": 0.2691,
-      "step": 1960
-    },
-    {
-      "epoch": 6.888111888111888,
-      "grad_norm": 12.720255851745605,
-      "learning_rate": 6.655585426567707e-07,
-      "loss": 0.2406,
-      "step": 1970
-    },
-    {
-      "epoch": 6.923076923076923,
-      "grad_norm": 5.015578269958496,
-      "learning_rate": 9.98337813985156e-07,
-      "loss": 0.2339,
-      "step": 1980
-    },
-    {
-      "epoch": 6.958041958041958,
-      "grad_norm": 14.693328857421875,
-      "learning_rate": 1.3311170853135414e-06,
-      "loss": 0.2724,
-      "step": 1990
-    },
-    {
-      "epoch": 6.993006993006993,
-      "grad_norm": 14.348461151123047,
-      "learning_rate": 1.6638963566419267e-06,
-      "loss": 0.2537,
-      "step": 2000
-    },
-    {
-      "epoch": 7.027972027972028,
-      "grad_norm": 9.5806303024292,
-      "learning_rate": 1.996675627970312e-06,
-      "loss": 0.2226,
-      "step": 2010
-    },
-    {
-      "epoch": 7.062937062937063,
-      "grad_norm": 11.463421821594238,
-      "learning_rate": 2.329454899298697e-06,
-      "loss": 0.264,
-      "step": 2020
-    },
-    {
-      "epoch": 7.0979020979020975,
-      "grad_norm": 16.207624435424805,
-      "learning_rate": 2.662234170627083e-06,
-      "loss": 0.2492,
-      "step": 2030
-    },
-    {
-      "epoch": 7.1328671328671325,
-      "grad_norm": 11.598509788513184,
-      "learning_rate": 2.995013441955468e-06,
-      "loss": 0.3486,
-      "step": 2040
-    },
-    {
-      "epoch": 7.1678321678321675,
-      "grad_norm": 11.6201810836792,
-      "learning_rate": 3.3277927132838533e-06,
-      "loss": 0.2353,
-      "step": 2050
-    },
-    {
-      "epoch": 7.2027972027972025,
-      "grad_norm": 18.30818748474121,
-      "learning_rate": 3.327758515152761e-06,
-      "loss": 0.1996,
-      "step": 2060
-    },
-    {
-      "epoch": 7.2377622377622375,
-      "grad_norm": 16.372011184692383,
-      "learning_rate": 3.327655922165234e-06,
-      "loss": 0.2892,
-      "step": 2070
-    },
-    {
-      "epoch": 7.2727272727272725,
-      "grad_norm": 13.199930191040039,
-      "learning_rate": 3.327484938538469e-06,
-      "loss": 0.3681,
-      "step": 2080
-    },
-    {
-      "epoch": 7.3076923076923075,
-      "grad_norm": 14.532537460327148,
-      "learning_rate": 3.3272455713009334e-06,
-      "loss": 0.1764,
-      "step": 2090
-    },
-    {
-      "epoch": 7.3426573426573425,
-      "grad_norm": 10.235544204711914,
-      "learning_rate": 3.326937830292076e-06,
-      "loss": 0.3104,
-      "step": 2100
-    },
-    {
-      "epoch": 7.3426573426573425,
-      "eval_loss": 0.7017927765846252,
-      "eval_runtime": 5.43,
-      "eval_samples_per_second": 11.786,
-      "eval_steps_per_second": 11.786,
-      "step": 2100
-    },
-    {
-      "epoch": 7.3776223776223775,
-      "grad_norm": 11.722810745239258,
-      "learning_rate": 3.3265617281619253e-06,
-      "loss": 0.3426,
-      "step": 2110
-    },
-    {
-      "epoch": 7.4125874125874125,
-      "grad_norm": 10.100516319274902,
-      "learning_rate": 3.326117280370566e-06,
-      "loss": 0.2169,
-      "step": 2120
-    },
-    {
-      "epoch": 7.4475524475524475,
-      "grad_norm": 9.289050102233887,
-      "learning_rate": 3.325604505187506e-06,
-      "loss": 0.2244,
-      "step": 2130
-    },
-    {
-      "epoch": 7.4825174825174825,
-      "grad_norm": 4.566373825073242,
-      "learning_rate": 3.3250234236909255e-06,
-      "loss": 0.1558,
-      "step": 2140
-    },
-    {
-      "epoch": 7.5174825174825175,
-      "grad_norm": 15.955838203430176,
-      "learning_rate": 3.324374059766808e-06,
-      "loss": 0.2828,
-      "step": 2150
-    },
-    {
-      "epoch": 7.5524475524475525,
-      "grad_norm": 2.7527740001678467,
-      "learning_rate": 3.3236564401079615e-06,
-      "loss": 0.2772,
-      "step": 2160
-    },
-    {
-      "epoch": 7.5874125874125875,
-      "grad_norm": 11.847249031066895,
-      "learning_rate": 3.322870594212919e-06,
-      "loss": 0.2531,
-      "step": 2170
-    },
-    {
-      "epoch": 7.6223776223776225,
-      "grad_norm": 11.005929946899414,
-      "learning_rate": 3.3220165543847277e-06,
-      "loss": 0.3826,
-      "step": 2180
-    },
-    {
-      "epoch": 7.6573426573426575,
-      "grad_norm": 8.029391288757324,
-      "learning_rate": 3.3210943557296204e-06,
-      "loss": 0.2823,
-      "step": 2190
-    },
-    {
-      "epoch": 7.6923076923076925,
-      "grad_norm": 7.657909870147705,
-      "learning_rate": 3.3201040361555703e-06,
-      "loss": 0.23,
-      "step": 2200
-    },
-    {
-      "epoch": 7.7272727272727275,
-      "grad_norm": 15.844249725341797,
-      "learning_rate": 3.3190456363707377e-06,
-      "loss": 0.258,
-      "step": 2210
-    },
-    {
-      "epoch": 7.7622377622377625,
-      "grad_norm": 8.142477035522461,
-      "learning_rate": 3.3179191998817917e-06,
-      "loss": 0.2407,
-      "step": 2220
-    },
-    {
-      "epoch": 7.7972027972027975,
-      "grad_norm": 18.25770378112793,
-      "learning_rate": 3.3167247729921246e-06,
-      "loss": 0.2807,
-      "step": 2230
-    },
-    {
-      "epoch": 7.8321678321678325,
-      "grad_norm": 13.97754192352295,
-      "learning_rate": 3.315462404799947e-06,
-      "loss": 0.2449,
-      "step": 2240
-    },
-    {
-      "epoch": 7.867132867132867,
-      "grad_norm": 12.67829418182373,
-      "learning_rate": 3.314132147196272e-06,
-      "loss": 0.2594,
-      "step": 2250
-    },
-    {
-      "epoch": 7.867132867132867,
-      "eval_loss": 0.7046529054641724,
-      "eval_runtime": 5.4467,
-      "eval_samples_per_second": 11.75,
-      "eval_steps_per_second": 11.75,
-      "step": 2250
-    },
-    {
-      "epoch": 7.902097902097902,
-      "grad_norm": 4.242758750915527,
-      "learning_rate": 1.657066073598136e-07,
-      "loss": 0.2084,
-      "step": 2260
-    },
-    {
-      "epoch": 7.937062937062937,
-      "grad_norm": 9.143125534057617,
-      "learning_rate": 3.314132147196272e-07,
-      "loss": 0.1923,
-      "step": 2270
-    },
-    {
-      "epoch": 7.972027972027972,
-      "grad_norm": 10.585535049438477,
-      "learning_rate": 4.971198220794408e-07,
-      "loss": 0.204,
-      "step": 2280
-    },
-    {
-      "epoch": 8.006993006993007,
-      "grad_norm": 10.469385147094727,
-      "learning_rate": 6.628264294392544e-07,
-      "loss": 0.3009,
-      "step": 2290
-    },
-    {
-      "epoch": 8.041958041958042,
-      "grad_norm": 7.694136142730713,
-      "learning_rate": 8.28533036799068e-07,
-      "loss": 0.2215,
-      "step": 2300
-    },
-    {
-      "epoch": 8.076923076923077,
-      "grad_norm": 7.215337753295898,
-      "learning_rate": 9.942396441588815e-07,
-      "loss": 0.1923,
-      "step": 2310
-    },
-    {
-      "epoch": 8.111888111888112,
-      "grad_norm": 15.670652389526367,
-      "learning_rate": 1.159946251518695e-06,
-      "loss": 0.2335,
-      "step": 2320
-    },
-    {
-      "epoch": 8.146853146853147,
-      "grad_norm": 12.610808372497559,
-      "learning_rate": 1.3256528588785089e-06,
-      "loss": 0.3092,
-      "step": 2330
-    },
-    {
-      "epoch": 8.181818181818182,
-      "grad_norm": 20.136999130249023,
-      "learning_rate": 1.4913594662383224e-06,
-      "loss": 0.2475,
-      "step": 2340
-    },
-    {
-      "epoch": 8.216783216783217,
-      "grad_norm": 7.424393177032471,
-      "learning_rate": 1.657066073598136e-06,
-      "loss": 0.183,
-      "step": 2350
-    },
-    {
-      "epoch": 8.251748251748252,
-      "grad_norm": 12.980989456176758,
-      "learning_rate": 1.6570490447241355e-06,
-      "loss": 0.2455,
-      "step": 2360
-    },
-    {
-      "epoch": 8.286713286713287,
-      "grad_norm": 13.760506629943848,
-      "learning_rate": 1.6569979588021245e-06,
-      "loss": 0.2709,
-      "step": 2370
-    },
-    {
-      "epoch": 8.321678321678322,
-      "grad_norm": 6.805473804473877,
-      "learning_rate": 1.6569128179320452e-06,
-      "loss": 0.2012,
-      "step": 2380
-    },
-    {
-      "epoch": 8.356643356643357,
-      "grad_norm": 6.797975063323975,
-      "learning_rate": 1.656793625613705e-06,
-      "loss": 0.208,
-      "step": 2390
-    },
-    {
-      "epoch": 8.391608391608392,
-      "grad_norm": 24.712387084960938,
-      "learning_rate": 1.6566403867466338e-06,
-      "loss": 0.3556,
-      "step": 2400
-    },
-    {
-      "epoch": 8.391608391608392,
-      "eval_loss": 0.7055321931838989,
-      "eval_runtime": 5.3773,
-      "eval_samples_per_second": 11.902,
-      "eval_steps_per_second": 11.902,
-      "step": 2400
-    },
-    {
-      "epoch": 8.426573426573427,
-      "grad_norm": 15.138517379760742,
-      "learning_rate": 1.6564531076298806e-06,
-      "loss": 0.2524,
-      "step": 2410
-    },
-    {
-      "epoch": 8.461538461538462,
-      "grad_norm": 12.319635391235352,
-      "learning_rate": 1.656231795961757e-06,
-      "loss": 0.1701,
-      "step": 2420
-    },
-    {
-      "epoch": 8.496503496503497,
-      "grad_norm": 11.40451431274414,
-      "learning_rate": 1.6559764608395181e-06,
-      "loss": 0.1976,
-      "step": 2430
-    },
-    {
-      "epoch": 8.531468531468532,
-      "grad_norm": 6.014434337615967,
-      "learning_rate": 1.6556871127589914e-06,
-      "loss": 0.2757,
-      "step": 2440
-    },
-    {
-      "epoch": 8.566433566433567,
-      "grad_norm": 11.623228073120117,
-      "learning_rate": 1.6553637636141427e-06,
-      "loss": 0.225,
-      "step": 2450
-    },
-    {
-      "epoch": 8.601398601398602,
-      "grad_norm": 16.436216354370117,
-      "learning_rate": 1.6550064266965894e-06,
-      "loss": 0.2616,
-      "step": 2460
-    },
-    {
-      "epoch": 8.636363636363637,
-      "grad_norm": 3.8843276500701904,
-      "learning_rate": 1.654615116695052e-06,
-      "loss": 0.2325,
-      "step": 2470
-    },
-    {
-      "epoch": 8.671328671328672,
-      "grad_norm": 12.226479530334473,
-      "learning_rate": 1.6541898496947524e-06,
-      "loss": 0.3145,
-      "step": 2480
-    },
-    {
-      "epoch": 8.706293706293707,
-      "grad_norm": 20.737321853637695,
-      "learning_rate": 1.6537306431767512e-06,
-      "loss": 0.3799,
-      "step": 2490
-    },
-    {
-      "epoch": 8.741258741258742,
-      "grad_norm": 8.938512802124023,
-      "learning_rate": 1.6532375160172298e-06,
-      "loss": 0.2303,
-      "step": 2500
-    },
-    {
-      "epoch": 8.776223776223777,
-      "grad_norm": 18.450578689575195,
-      "learning_rate": 1.652710488486714e-06,
-      "loss": 0.2347,
-      "step": 2510
-    },
-    {
-      "epoch": 8.811188811188812,
-      "grad_norm": 3.751770496368408,
-      "learning_rate": 1.6521495822492419e-06,
-      "loss": 0.3062,
-      "step": 2520
-    },
-    {
-      "epoch": 8.846153846153847,
-      "grad_norm": 10.544769287109375,
-      "learning_rate": 1.6515548203614717e-06,
-      "loss": 0.2331,
-      "step": 2530
-    },
-    {
-      "epoch": 8.881118881118882,
-      "grad_norm": 20.1557559967041,
-      "learning_rate": 1.650926227271735e-06,
-      "loss": 0.2732,
-      "step": 2540
-    },
-    {
-      "epoch": 8.916083916083917,
-      "grad_norm": 16.894678115844727,
-      "learning_rate": 1.6502638288190317e-06,
-      "loss": 0.3163,
-      "step": 2550
-    },
-    {
-      "epoch": 8.916083916083917,
-      "eval_loss": 0.70442795753479,
-      "eval_runtime": 5.4147,
-      "eval_samples_per_second": 11.82,
-      "eval_steps_per_second": 11.82,
-      "step": 2550
-    },
-    {
-      "epoch": 8.951048951048952,
-      "grad_norm": 10.007589340209961,
-      "learning_rate": 1.649567652231968e-06,
-      "loss": 0.2869,
-      "step": 2560
-    },
-    {
-      "epoch": 8.986013986013987,
-      "grad_norm": 9.064579963684082,
-      "learning_rate": 1.6488377261276365e-06,
-      "loss": 0.3091,
-      "step": 2570
-    },
-    {
-      "epoch": 9.020979020979022,
-      "grad_norm": 11.941916465759277,
-      "learning_rate": 1.6480740805104402e-06,
-      "loss": 0.303,
-      "step": 2580
-    },
-    {
-      "epoch": 9.055944055944057,
-      "grad_norm": 10.506561279296875,
-      "learning_rate": 1.6472767467708597e-06,
-      "loss": 0.3275,
-      "step": 2590
-    },
-    {
-      "epoch": 9.090909090909092,
-      "grad_norm": 5.165719985961914,
-      "learning_rate": 1.6464457576841624e-06,
-      "loss": 0.3021,
-      "step": 2600
-    },
-    {
-      "epoch": 9.125874125874127,
-      "grad_norm": 15.611152648925781,
-      "learning_rate": 1.6455811474090539e-06,
-      "loss": 0.198,
-      "step": 2610
-    },
-    {
-      "epoch": 9.16083916083916,
-      "grad_norm": 10.496397018432617,
-      "learning_rate": 1.6446829514862772e-06,
-      "loss": 0.1879,
-      "step": 2620
-    },
-    {
-      "epoch": 9.195804195804195,
-      "grad_norm": 10.941329002380371,
-      "learning_rate": 1.6437512068371481e-06,
-      "loss": 0.1579,
-      "step": 2630
-    },
-    {
-      "epoch": 9.23076923076923,
-      "grad_norm": 6.740403652191162,
-      "learning_rate": 1.6427859517620401e-06,
-      "loss": 0.2877,
-      "step": 2640
-    },
-    {
-      "epoch": 9.265734265734265,
-      "grad_norm": 10.660934448242188,
-      "learning_rate": 1.6417872259388084e-06,
-      "loss": 0.3105,
-      "step": 2650
-    },
-    {
-      "epoch": 9.3006993006993,
-      "grad_norm": 12.463582992553711,
-      "learning_rate": 1.6407550704211601e-06,
-      "loss": 0.3788,
-      "step": 2660
-    },
-    {
-      "epoch": 9.335664335664335,
-      "grad_norm": 15.10091781616211,
-      "learning_rate": 1.6396895276369656e-06,
-      "loss": 0.2632,
-      "step": 2670
-    },
-    {
-      "epoch": 9.37062937062937,
-      "grad_norm": 15.757782936096191,
-      "learning_rate": 1.6385906413865154e-06,
-      "loss": 0.2933,
-      "step": 2680
-    },
-    {
-      "epoch": 9.405594405594405,
-      "grad_norm": 6.034332752227783,
-      "learning_rate": 1.6374584568407192e-06,
-      "loss": 0.2493,
-      "step": 2690
-    },
-    {
-      "epoch": 9.44055944055944,
-      "grad_norm": 8.291542053222656,
-      "learning_rate": 1.6362930205392493e-06,
-      "loss": 0.2736,
-      "step": 2700
-    },
-    {
-      "epoch": 9.44055944055944,
-      "eval_loss": 0.7050421833992004,
-      "eval_runtime": 5.3694,
-      "eval_samples_per_second": 11.919,
-      "eval_steps_per_second": 11.919,
-      "step": 2700
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 18,
   "save_steps": 150,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -2060,8 +139,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.475745395708723e+16,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.851840853691101,
+  "best_model_checkpoint": "./output/checkpoint-150",
+  "epoch": 0.19157088122605365,
   "eval_steps": 150,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01277139208173691,
+      "grad_norm": 4.169848918914795,
+      "learning_rate": 3.4694137880813836e-06,
+      "loss": 1.5133,
       "step": 10
     },
     {
+      "epoch": 0.02554278416347382,
+      "grad_norm": 4.01235294342041,
+      "learning_rate": 6.938827576162767e-06,
+      "loss": 1.4784,
       "step": 20
     },
     {
+      "epoch": 0.038314176245210725,
+      "grad_norm": 4.190587043762207,
+      "learning_rate": 1.0408241364244149e-05,
+      "loss": 1.4826,
       "step": 30
     },
     {
+      "epoch": 0.05108556832694764,
+      "grad_norm": 4.053359031677246,
+      "learning_rate": 1.3877655152325534e-05,
+      "loss": 1.4692,
       "step": 40
     },
     {
+      "epoch": 0.06385696040868455,
+      "grad_norm": 3.621781349182129,
+      "learning_rate": 1.7347068940406916e-05,
+      "loss": 1.4071,
       "step": 50
     },
     {
+      "epoch": 0.07662835249042145,
+      "grad_norm": 3.5056958198547363,
+      "learning_rate": 2.0816482728488298e-05,
+      "loss": 1.3342,
       "step": 60
     },
     {
+      "epoch": 0.08939974457215837,
+      "grad_norm": 3.9697868824005127,
+      "learning_rate": 2.428589651656968e-05,
+      "loss": 1.4,
       "step": 70
     },
     {
+      "epoch": 0.10217113665389528,
+      "grad_norm": 4.204615592956543,
+      "learning_rate": 2.775531030465107e-05,
+      "loss": 1.4064,
       "step": 80
     },
     {
+      "epoch": 0.11494252873563218,
+      "grad_norm": 4.627971172332764,
+      "learning_rate": 3.122472409273245e-05,
+      "loss": 1.6121,
       "step": 90
     },
     {
+      "epoch": 0.1277139208173691,
+      "grad_norm": 4.687252521514893,
+      "learning_rate": 3.469413788081383e-05,
+      "loss": 1.8409,
       "step": 100
     },
     {
+      "epoch": 0.140485312899106,
+      "grad_norm": 4.754763126373291,
+      "learning_rate": 3.4693781345783675e-05,
+      "loss": 1.7964,
       "step": 110
     },
     {
+      "epoch": 0.1532567049808429,
+      "grad_norm": 4.089818477630615,
+      "learning_rate": 3.469271175534895e-05,
+      "loss": 1.855,
       "step": 120
     },
     {
+      "epoch": 0.16602809706257982,
+      "grad_norm": 4.230756759643555,
+      "learning_rate": 3.469092915347635e-05,
+      "loss": 1.7698,
       "step": 130
     },
     {
+      "epoch": 0.17879948914431673,
+      "grad_norm": 3.6243300437927246,
+      "learning_rate": 3.468843361344164e-05,
+      "loss": 1.7402,
       "step": 140
     },
     {
+      "epoch": 0.19157088122605365,
+      "grad_norm": 3.6760964393615723,
+      "learning_rate": 3.46852252378267e-05,
+      "loss": 1.8524,
       "step": 150
     },
     {
+      "epoch": 0.19157088122605365,
+      "eval_loss": 1.851840853691101,
+      "eval_runtime": 44.0581,
+      "eval_samples_per_second": 11.349,
+      "eval_steps_per_second": 11.349,
       "step": 150
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
   "save_steps": 150,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.6492029466902528e+16,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a0d5bba2c9918c620fba2221cb48c4a965010d48cc94b490be628c47019c308
 size 5496

 version https://git-lfs.github.com/spec/v1
+oid sha256:c167a5959afcf2631a587e2c79af9dc4334a99f07862c928036bfa576ad08c6b
 size 5496

last-checkpoint/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff