Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

.gitattributes +1 -0
added_tokens.json +28 -0
config.json +30 -0
generation_config.json +13 -0
merges.txt +0 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scaler.pt +3 -0
scheduler.pt +3 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +240 -0
trainer_state.json +1436 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 28,
+  "model_type": "qwen3",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.51.3"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6feec19be08a1cb6bdaaeb1ef10313b0ff034b95ddd1cfb172570ba0a9d5f44
+size 2384234968

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d38ba7f28d2ff254e5b07c7271ab61ac92dc9e13aff554bfc0ea905d47468c7a
+size 4768663315

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7063580a565cb4ab0c1d36b25d817a35a16d1f21f4a993a9f25cdba6efadcb9d
+size 14645

scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41b34dcd0cff02c6ffc7608e693c2a196add41da5739504686225043c01447c4
+size 1383

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cb65c15636c55bd9e5006387a80459708278556b496f4197710f6f74c0b6424
+size 1465

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08a6b43b5f875be3dd0696ffbcfdcc45541445e127f83a2bd28f4ebdbdb60340
+size 11422750

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0].role == 'system' %}\n        {{- messages[0].content + '\\n\\n' }}\n    {%- endif %}\n    {{- \"# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0].role == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0].content + '<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}\n{%- for message in messages[::-1] %}\n    {%- set index = (messages|length - 1) - loop.index0 %}\n    {%- if ns.multi_step_tool and message.role == \"user\" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}\n        {%- set ns.multi_step_tool = false %}\n        {%- set ns.last_query_index = index %}\n    {%- endif %}\n{%- endfor %}\n{%- for message in messages %}\n    {%- if message.content is string %}\n        {%- set content = message.content %}\n    {%- else %}\n        {%- set content = '' %}\n    {%- endif %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) %}\n        {{- '<|im_start|>' + message.role + '\\n' + content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {%- set reasoning_content = '' %}\n        {%- if message.reasoning_content is string %}\n            {%- set reasoning_content = message.reasoning_content %}\n        {%- else %}\n            {%- if '</think>' in content %}\n                {%- set reasoning_content = content.split('</think>')[0].rstrip('\\n').split('<think>')[-1].lstrip('\\n') %}\n                {%- set content = content.split('</think>')[-1].lstrip('\\n') %}\n            {%- endif %}\n        {%- endif %}\n        {%- if loop.index0 > ns.last_query_index %}\n            {%- if loop.last or (not loop.last and reasoning_content) %}\n                {{- '<|im_start|>' + message.role + '\\n<think>\\n' + reasoning_content.strip('\\n') + '\\n</think>\\n\\n' + content.lstrip('\\n') }}\n            {%- else %}\n                {{- '<|im_start|>' + message.role + '\\n' + content }}\n            {%- endif %}\n        {%- else %}\n            {{- '<|im_start|>' + message.role + '\\n' + content }}\n        {%- endif %}\n        {%- if message.tool_calls %}\n            {%- for tool_call in message.tool_calls %}\n                {%- if (loop.first and content) or (not loop.first) %}\n                    {{- '\\n' }}\n                {%- endif %}\n                {%- if tool_call.function %}\n                    {%- set tool_call = tool_call.function %}\n                {%- endif %}\n                {{- '<tool_call>\\n{\"name\": \"' }}\n                {{- tool_call.name }}\n                {{- '\", \"arguments\": ' }}\n                {%- if tool_call.arguments is string %}\n                    {{- tool_call.arguments }}\n                {%- else %}\n                    {{- tool_call.arguments | tojson }}\n                {%- endif %}\n                {{- '}\\n</tool_call>' }}\n            {%- endfor %}\n        {%- endif %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if loop.first or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n    {%- if enable_thinking is defined and enable_thinking is false %}\n        {{- '<think>\\n\\n</think>\\n\\n' }}\n    {%- endif %}\n{%- endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1436 @@

+{
+  "best_global_step": 9908,
+  "best_metric": 1.7954870462417603,
+  "best_model_checkpoint": "./mcqa_qwen3_letter_final/checkpoint-9908",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 9908,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.010092854259184497,
+      "grad_norm": 31.45309066772461,
+      "learning_rate": 9.081735620585268e-07,
+      "loss": 2.6792,
+      "step": 50
+    },
+    {
+      "epoch": 0.020185708518368994,
+      "grad_norm": 29.842939376831055,
+      "learning_rate": 1.9172552976791123e-06,
+      "loss": 2.3336,
+      "step": 100
+    },
+    {
+      "epoch": 0.030278562777553492,
+      "grad_norm": 25.984067916870117,
+      "learning_rate": 2.926337033299698e-06,
+      "loss": 2.1298,
+      "step": 150
+    },
+    {
+      "epoch": 0.04037141703673799,
+      "grad_norm": 21.91876983642578,
+      "learning_rate": 3.935418768920283e-06,
+      "loss": 2.0582,
+      "step": 200
+    },
+    {
+      "epoch": 0.050464271295922486,
+      "grad_norm": 18.466697692871094,
+      "learning_rate": 4.944500504540869e-06,
+      "loss": 1.9876,
+      "step": 250
+    },
+    {
+      "epoch": 0.060557125555106985,
+      "grad_norm": 23.480918884277344,
+      "learning_rate": 5.953582240161454e-06,
+      "loss": 1.9532,
+      "step": 300
+    },
+    {
+      "epoch": 0.07064997981429148,
+      "grad_norm": 20.459003448486328,
+      "learning_rate": 6.962663975782039e-06,
+      "loss": 1.9739,
+      "step": 350
+    },
+    {
+      "epoch": 0.08074283407347597,
+      "grad_norm": 21.53769302368164,
+      "learning_rate": 7.971745711402625e-06,
+      "loss": 1.9591,
+      "step": 400
+    },
+    {
+      "epoch": 0.09083568833266048,
+      "grad_norm": 19.838491439819336,
+      "learning_rate": 8.98082744702321e-06,
+      "loss": 1.9862,
+      "step": 450
+    },
+    {
+      "epoch": 0.10092854259184497,
+      "grad_norm": 14.181418418884277,
+      "learning_rate": 9.989909182643795e-06,
+      "loss": 1.9422,
+      "step": 500
+    },
+    {
+      "epoch": 0.11102139685102948,
+      "grad_norm": 17.275489807128906,
+      "learning_rate": 1.0998990918264381e-05,
+      "loss": 1.9537,
+      "step": 550
+    },
+    {
+      "epoch": 0.12111425111021397,
+      "grad_norm": 23.366567611694336,
+      "learning_rate": 1.2008072653884966e-05,
+      "loss": 1.9305,
+      "step": 600
+    },
+    {
+      "epoch": 0.13120710536939847,
+      "grad_norm": 17.37462043762207,
+      "learning_rate": 1.301715438950555e-05,
+      "loss": 1.9227,
+      "step": 650
+    },
+    {
+      "epoch": 0.14129995962858297,
+      "grad_norm": 18.20924186706543,
+      "learning_rate": 1.4026236125126136e-05,
+      "loss": 1.9499,
+      "step": 700
+    },
+    {
+      "epoch": 0.15139281388776746,
+      "grad_norm": 15.593676567077637,
+      "learning_rate": 1.503531786074672e-05,
+      "loss": 1.9175,
+      "step": 750
+    },
+    {
+      "epoch": 0.16148566814695195,
+      "grad_norm": 16.923185348510742,
+      "learning_rate": 1.6044399596367305e-05,
+      "loss": 1.9491,
+      "step": 800
+    },
+    {
+      "epoch": 0.17157852240613647,
+      "grad_norm": 16.0386905670166,
+      "learning_rate": 1.7053481331987892e-05,
+      "loss": 1.9246,
+      "step": 850
+    },
+    {
+      "epoch": 0.18167137666532096,
+      "grad_norm": 15.55115032196045,
+      "learning_rate": 1.806256306760848e-05,
+      "loss": 1.9162,
+      "step": 900
+    },
+    {
+      "epoch": 0.19176423092450545,
+      "grad_norm": 19.219303131103516,
+      "learning_rate": 1.9071644803229064e-05,
+      "loss": 1.9408,
+      "step": 950
+    },
+    {
+      "epoch": 0.20185708518368994,
+      "grad_norm": 22.23096466064453,
+      "learning_rate": 1.999102837277111e-05,
+      "loss": 1.9427,
+      "step": 1000
+    },
+    {
+      "epoch": 0.21194993944287444,
+      "grad_norm": 14.07517147064209,
+      "learning_rate": 1.9878883032410005e-05,
+      "loss": 1.9638,
+      "step": 1050
+    },
+    {
+      "epoch": 0.22204279370205895,
+      "grad_norm": 17.114988327026367,
+      "learning_rate": 1.9766737692048896e-05,
+      "loss": 1.9503,
+      "step": 1100
+    },
+    {
+      "epoch": 0.23213564796124345,
+      "grad_norm": 14.243387222290039,
+      "learning_rate": 1.965459235168779e-05,
+      "loss": 1.9495,
+      "step": 1150
+    },
+    {
+      "epoch": 0.24222850222042794,
+      "grad_norm": 12.465641021728516,
+      "learning_rate": 1.954244701132668e-05,
+      "loss": 1.9259,
+      "step": 1200
+    },
+    {
+      "epoch": 0.25232135647961246,
+      "grad_norm": 11.812984466552734,
+      "learning_rate": 1.9430301670965574e-05,
+      "loss": 1.9725,
+      "step": 1250
+    },
+    {
+      "epoch": 0.26241421073879695,
+      "grad_norm": 12.729921340942383,
+      "learning_rate": 1.9318156330604464e-05,
+      "loss": 1.9252,
+      "step": 1300
+    },
+    {
+      "epoch": 0.27250706499798144,
+      "grad_norm": 15.226152420043945,
+      "learning_rate": 1.920601099024336e-05,
+      "loss": 1.8983,
+      "step": 1350
+    },
+    {
+      "epoch": 0.28259991925716593,
+      "grad_norm": 11.439791679382324,
+      "learning_rate": 1.909386564988225e-05,
+      "loss": 1.9063,
+      "step": 1400
+    },
+    {
+      "epoch": 0.2926927735163504,
+      "grad_norm": 19.441160202026367,
+      "learning_rate": 1.8981720309521143e-05,
+      "loss": 1.9032,
+      "step": 1450
+    },
+    {
+      "epoch": 0.3027856277755349,
+      "grad_norm": 13.702200889587402,
+      "learning_rate": 1.8869574969160033e-05,
+      "loss": 1.886,
+      "step": 1500
+    },
+    {
+      "epoch": 0.3128784820347194,
+      "grad_norm": 13.252537727355957,
+      "learning_rate": 1.8757429628798924e-05,
+      "loss": 1.938,
+      "step": 1550
+    },
+    {
+      "epoch": 0.3229713362939039,
+      "grad_norm": 13.876880645751953,
+      "learning_rate": 1.8645284288437818e-05,
+      "loss": 1.7923,
+      "step": 1600
+    },
+    {
+      "epoch": 0.3330641905530884,
+      "grad_norm": 13.790823936462402,
+      "learning_rate": 1.853313894807671e-05,
+      "loss": 1.8618,
+      "step": 1650
+    },
+    {
+      "epoch": 0.34315704481227294,
+      "grad_norm": 12.250268936157227,
+      "learning_rate": 1.8420993607715602e-05,
+      "loss": 1.8595,
+      "step": 1700
+    },
+    {
+      "epoch": 0.35324989907145743,
+      "grad_norm": 11.78331470489502,
+      "learning_rate": 1.8308848267354492e-05,
+      "loss": 1.8957,
+      "step": 1750
+    },
+    {
+      "epoch": 0.3633427533306419,
+      "grad_norm": 13.84703540802002,
+      "learning_rate": 1.8196702926993386e-05,
+      "loss": 1.8921,
+      "step": 1800
+    },
+    {
+      "epoch": 0.3734356075898264,
+      "grad_norm": 16.251209259033203,
+      "learning_rate": 1.8084557586632277e-05,
+      "loss": 1.8639,
+      "step": 1850
+    },
+    {
+      "epoch": 0.3835284618490109,
+      "grad_norm": 10.786506652832031,
+      "learning_rate": 1.797241224627117e-05,
+      "loss": 1.9083,
+      "step": 1900
+    },
+    {
+      "epoch": 0.3936213161081954,
+      "grad_norm": 18.62939453125,
+      "learning_rate": 1.786026690591006e-05,
+      "loss": 1.8543,
+      "step": 1950
+    },
+    {
+      "epoch": 0.4037141703673799,
+      "grad_norm": 12.85810661315918,
+      "learning_rate": 1.774812156554895e-05,
+      "loss": 1.8541,
+      "step": 2000
+    },
+    {
+      "epoch": 0.4138070246265644,
+      "grad_norm": 15.795912742614746,
+      "learning_rate": 1.7635976225187845e-05,
+      "loss": 1.8663,
+      "step": 2050
+    },
+    {
+      "epoch": 0.42389987888574887,
+      "grad_norm": 20.85138702392578,
+      "learning_rate": 1.7523830884826736e-05,
+      "loss": 1.8814,
+      "step": 2100
+    },
+    {
+      "epoch": 0.43399273314493336,
+      "grad_norm": 13.458274841308594,
+      "learning_rate": 1.741168554446563e-05,
+      "loss": 1.8972,
+      "step": 2150
+    },
+    {
+      "epoch": 0.4440855874041179,
+      "grad_norm": 13.698914527893066,
+      "learning_rate": 1.729954020410452e-05,
+      "loss": 1.8952,
+      "step": 2200
+    },
+    {
+      "epoch": 0.4541784416633024,
+      "grad_norm": 15.174164772033691,
+      "learning_rate": 1.718739486374341e-05,
+      "loss": 1.8839,
+      "step": 2250
+    },
+    {
+      "epoch": 0.4642712959224869,
+      "grad_norm": 11.87475299835205,
+      "learning_rate": 1.7075249523382305e-05,
+      "loss": 1.8756,
+      "step": 2300
+    },
+    {
+      "epoch": 0.4743641501816714,
+      "grad_norm": 11.978715896606445,
+      "learning_rate": 1.696534708982842e-05,
+      "loss": 1.8022,
+      "step": 2350
+    },
+    {
+      "epoch": 0.4844570044408559,
+      "grad_norm": 8.314435958862305,
+      "learning_rate": 1.685320174946731e-05,
+      "loss": 1.8306,
+      "step": 2400
+    },
+    {
+      "epoch": 0.49454985870004037,
+      "grad_norm": 12.93226146697998,
+      "learning_rate": 1.67410564091062e-05,
+      "loss": 1.8749,
+      "step": 2450
+    },
+    {
+      "epoch": 0.5046427129592249,
+      "grad_norm": 11.91203498840332,
+      "learning_rate": 1.6628911068745095e-05,
+      "loss": 1.843,
+      "step": 2500
+    },
+    {
+      "epoch": 0.5147355672184094,
+      "grad_norm": 12.928333282470703,
+      "learning_rate": 1.651676572838399e-05,
+      "loss": 1.8897,
+      "step": 2550
+    },
+    {
+      "epoch": 0.5248284214775939,
+      "grad_norm": 11.979988098144531,
+      "learning_rate": 1.640462038802288e-05,
+      "loss": 1.8362,
+      "step": 2600
+    },
+    {
+      "epoch": 0.5349212757367784,
+      "grad_norm": 13.687814712524414,
+      "learning_rate": 1.629247504766177e-05,
+      "loss": 1.8539,
+      "step": 2650
+    },
+    {
+      "epoch": 0.5450141299959629,
+      "grad_norm": 13.337515830993652,
+      "learning_rate": 1.6180329707300664e-05,
+      "loss": 1.8721,
+      "step": 2700
+    },
+    {
+      "epoch": 0.5551069842551474,
+      "grad_norm": 11.664098739624023,
+      "learning_rate": 1.6068184366939554e-05,
+      "loss": 1.8677,
+      "step": 2750
+    },
+    {
+      "epoch": 0.5651998385143319,
+      "grad_norm": 11.584458351135254,
+      "learning_rate": 1.5956039026578448e-05,
+      "loss": 1.8326,
+      "step": 2800
+    },
+    {
+      "epoch": 0.5752926927735164,
+      "grad_norm": 12.478504180908203,
+      "learning_rate": 1.584389368621734e-05,
+      "loss": 1.8089,
+      "step": 2850
+    },
+    {
+      "epoch": 0.5853855470327008,
+      "grad_norm": 9.926409721374512,
+      "learning_rate": 1.573174834585623e-05,
+      "loss": 1.8459,
+      "step": 2900
+    },
+    {
+      "epoch": 0.5954784012918853,
+      "grad_norm": 10.55431842803955,
+      "learning_rate": 1.5619603005495123e-05,
+      "loss": 1.7877,
+      "step": 2950
+    },
+    {
+      "epoch": 0.6055712555510698,
+      "grad_norm": 10.03345775604248,
+      "learning_rate": 1.5507457665134017e-05,
+      "loss": 1.7983,
+      "step": 3000
+    },
+    {
+      "epoch": 0.6156641098102543,
+      "grad_norm": 18.028541564941406,
+      "learning_rate": 1.5395312324772907e-05,
+      "loss": 1.835,
+      "step": 3050
+    },
+    {
+      "epoch": 0.6257569640694388,
+      "grad_norm": 16.779207229614258,
+      "learning_rate": 1.5283166984411798e-05,
+      "loss": 1.7876,
+      "step": 3100
+    },
+    {
+      "epoch": 0.6358498183286233,
+      "grad_norm": 10.918420791625977,
+      "learning_rate": 1.5171021644050692e-05,
+      "loss": 1.8199,
+      "step": 3150
+    },
+    {
+      "epoch": 0.6459426725878078,
+      "grad_norm": 14.741921424865723,
+      "learning_rate": 1.5058876303689582e-05,
+      "loss": 1.8695,
+      "step": 3200
+    },
+    {
+      "epoch": 0.6560355268469923,
+      "grad_norm": 14.065166473388672,
+      "learning_rate": 1.4946730963328474e-05,
+      "loss": 1.8596,
+      "step": 3250
+    },
+    {
+      "epoch": 0.6661283811061768,
+      "grad_norm": 9.158289909362793,
+      "learning_rate": 1.4834585622967368e-05,
+      "loss": 1.7999,
+      "step": 3300
+    },
+    {
+      "epoch": 0.6762212353653613,
+      "grad_norm": 13.310529708862305,
+      "learning_rate": 1.4722440282606259e-05,
+      "loss": 1.8628,
+      "step": 3350
+    },
+    {
+      "epoch": 0.6863140896245459,
+      "grad_norm": 16.720178604125977,
+      "learning_rate": 1.4610294942245151e-05,
+      "loss": 1.8143,
+      "step": 3400
+    },
+    {
+      "epoch": 0.6964069438837304,
+      "grad_norm": 10.033896446228027,
+      "learning_rate": 1.4498149601884043e-05,
+      "loss": 1.8191,
+      "step": 3450
+    },
+    {
+      "epoch": 0.7064997981429149,
+      "grad_norm": 10.272814750671387,
+      "learning_rate": 1.4386004261522934e-05,
+      "loss": 1.8152,
+      "step": 3500
+    },
+    {
+      "epoch": 0.7165926524020994,
+      "grad_norm": 12.844585418701172,
+      "learning_rate": 1.4273858921161828e-05,
+      "loss": 1.7685,
+      "step": 3550
+    },
+    {
+      "epoch": 0.7266855066612838,
+      "grad_norm": 9.883562088012695,
+      "learning_rate": 1.4161713580800718e-05,
+      "loss": 1.775,
+      "step": 3600
+    },
+    {
+      "epoch": 0.7367783609204683,
+      "grad_norm": 13.27017593383789,
+      "learning_rate": 1.404956824043961e-05,
+      "loss": 1.8214,
+      "step": 3650
+    },
+    {
+      "epoch": 0.7468712151796528,
+      "grad_norm": 9.754312515258789,
+      "learning_rate": 1.3937422900078504e-05,
+      "loss": 1.8177,
+      "step": 3700
+    },
+    {
+      "epoch": 0.7569640694388373,
+      "grad_norm": 9.161224365234375,
+      "learning_rate": 1.3825277559717395e-05,
+      "loss": 1.7826,
+      "step": 3750
+    },
+    {
+      "epoch": 0.7670569236980218,
+      "grad_norm": 15.469295501708984,
+      "learning_rate": 1.3713132219356287e-05,
+      "loss": 1.7669,
+      "step": 3800
+    },
+    {
+      "epoch": 0.7771497779572063,
+      "grad_norm": 9.38441276550293,
+      "learning_rate": 1.3600986878995179e-05,
+      "loss": 1.694,
+      "step": 3850
+    },
+    {
+      "epoch": 0.7872426322163908,
+      "grad_norm": 9.595329284667969,
+      "learning_rate": 1.348884153863407e-05,
+      "loss": 1.7962,
+      "step": 3900
+    },
+    {
+      "epoch": 0.7973354864755753,
+      "grad_norm": 13.450725555419922,
+      "learning_rate": 1.3376696198272963e-05,
+      "loss": 1.834,
+      "step": 3950
+    },
+    {
+      "epoch": 0.8074283407347598,
+      "grad_norm": 10.953201293945312,
+      "learning_rate": 1.3264550857911855e-05,
+      "loss": 1.7788,
+      "step": 4000
+    },
+    {
+      "epoch": 0.8175211949939443,
+      "grad_norm": 11.066990852355957,
+      "learning_rate": 1.3152405517550746e-05,
+      "loss": 1.819,
+      "step": 4050
+    },
+    {
+      "epoch": 0.8276140492531288,
+      "grad_norm": 10.758559226989746,
+      "learning_rate": 1.3040260177189638e-05,
+      "loss": 1.7824,
+      "step": 4100
+    },
+    {
+      "epoch": 0.8377069035123133,
+      "grad_norm": 11.183074951171875,
+      "learning_rate": 1.2928114836828532e-05,
+      "loss": 1.8395,
+      "step": 4150
+    },
+    {
+      "epoch": 0.8477997577714977,
+      "grad_norm": 18.876482009887695,
+      "learning_rate": 1.2815969496467423e-05,
+      "loss": 1.8085,
+      "step": 4200
+    },
+    {
+      "epoch": 0.8578926120306822,
+      "grad_norm": 9.296488761901855,
+      "learning_rate": 1.2703824156106315e-05,
+      "loss": 1.7582,
+      "step": 4250
+    },
+    {
+      "epoch": 0.8679854662898667,
+      "grad_norm": 10.75462532043457,
+      "learning_rate": 1.2591678815745207e-05,
+      "loss": 1.756,
+      "step": 4300
+    },
+    {
+      "epoch": 0.8780783205490512,
+      "grad_norm": 9.275300025939941,
+      "learning_rate": 1.2479533475384097e-05,
+      "loss": 1.776,
+      "step": 4350
+    },
+    {
+      "epoch": 0.8881711748082358,
+      "grad_norm": 15.259178161621094,
+      "learning_rate": 1.2367388135022991e-05,
+      "loss": 1.7603,
+      "step": 4400
+    },
+    {
+      "epoch": 0.8982640290674203,
+      "grad_norm": 10.773064613342285,
+      "learning_rate": 1.2255242794661883e-05,
+      "loss": 1.7885,
+      "step": 4450
+    },
+    {
+      "epoch": 0.9083568833266048,
+      "grad_norm": 8.615636825561523,
+      "learning_rate": 1.2143097454300774e-05,
+      "loss": 1.7873,
+      "step": 4500
+    },
+    {
+      "epoch": 0.9184497375857893,
+      "grad_norm": 11.73543643951416,
+      "learning_rate": 1.2030952113939666e-05,
+      "loss": 1.782,
+      "step": 4550
+    },
+    {
+      "epoch": 0.9285425918449738,
+      "grad_norm": 11.97884750366211,
+      "learning_rate": 1.191880677357856e-05,
+      "loss": 1.7151,
+      "step": 4600
+    },
+    {
+      "epoch": 0.9386354461041583,
+      "grad_norm": 9.290508270263672,
+      "learning_rate": 1.180666143321745e-05,
+      "loss": 1.7588,
+      "step": 4650
+    },
+    {
+      "epoch": 0.9487283003633428,
+      "grad_norm": 7.962852478027344,
+      "learning_rate": 1.1694516092856343e-05,
+      "loss": 1.7455,
+      "step": 4700
+    },
+    {
+      "epoch": 0.9588211546225273,
+      "grad_norm": 10.642402648925781,
+      "learning_rate": 1.1582370752495235e-05,
+      "loss": 1.8426,
+      "step": 4750
+    },
+    {
+      "epoch": 0.9689140088817118,
+      "grad_norm": 9.8108491897583,
+      "learning_rate": 1.1470225412134125e-05,
+      "loss": 1.7877,
+      "step": 4800
+    },
+    {
+      "epoch": 0.9790068631408962,
+      "grad_norm": 12.963693618774414,
+      "learning_rate": 1.135808007177302e-05,
+      "loss": 1.782,
+      "step": 4850
+    },
+    {
+      "epoch": 0.9890997174000807,
+      "grad_norm": 12.592732429504395,
+      "learning_rate": 1.1245934731411911e-05,
+      "loss": 1.7852,
+      "step": 4900
+    },
+    {
+      "epoch": 0.9991925716592652,
+      "grad_norm": 15.016729354858398,
+      "learning_rate": 1.1133789391050802e-05,
+      "loss": 1.7959,
+      "step": 4950
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.8044700622558594,
+      "eval_runtime": 226.5642,
+      "eval_samples_per_second": 16.397,
+      "eval_steps_per_second": 2.052,
+      "step": 4954
+    },
+    {
+      "epoch": 1.0092854259184498,
+      "grad_norm": 12.544588088989258,
+      "learning_rate": 1.1021644050689696e-05,
+      "loss": 1.3976,
+      "step": 5000
+    },
+    {
+      "epoch": 1.0193782801776343,
+      "grad_norm": 15.890256881713867,
+      "learning_rate": 1.0909498710328588e-05,
+      "loss": 1.3058,
+      "step": 5050
+    },
+    {
+      "epoch": 1.0294711344368188,
+      "grad_norm": 12.59524154663086,
+      "learning_rate": 1.0797353369967478e-05,
+      "loss": 1.3811,
+      "step": 5100
+    },
+    {
+      "epoch": 1.0395639886960033,
+      "grad_norm": 11.901808738708496,
+      "learning_rate": 1.0687450936413592e-05,
+      "loss": 1.3774,
+      "step": 5150
+    },
+    {
+      "epoch": 1.0496568429551878,
+      "grad_norm": 9.971845626831055,
+      "learning_rate": 1.0575305596052484e-05,
+      "loss": 1.3099,
+      "step": 5200
+    },
+    {
+      "epoch": 1.0597496972143723,
+      "grad_norm": 12.993363380432129,
+      "learning_rate": 1.0463160255691377e-05,
+      "loss": 1.3509,
+      "step": 5250
+    },
+    {
+      "epoch": 1.0698425514735568,
+      "grad_norm": 11.694303512573242,
+      "learning_rate": 1.0351014915330269e-05,
+      "loss": 1.3512,
+      "step": 5300
+    },
+    {
+      "epoch": 1.0799354057327413,
+      "grad_norm": 14.644658088684082,
+      "learning_rate": 1.0238869574969161e-05,
+      "loss": 1.3742,
+      "step": 5350
+    },
+    {
+      "epoch": 1.0900282599919258,
+      "grad_norm": 14.014612197875977,
+      "learning_rate": 1.0126724234608051e-05,
+      "loss": 1.3546,
+      "step": 5400
+    },
+    {
+      "epoch": 1.1001211142511103,
+      "grad_norm": 11.02804946899414,
+      "learning_rate": 1.0014578894246945e-05,
+      "loss": 1.3341,
+      "step": 5450
+    },
+    {
+      "epoch": 1.1102139685102947,
+      "grad_norm": 11.991540908813477,
+      "learning_rate": 9.902433553885838e-06,
+      "loss": 1.3558,
+      "step": 5500
+    },
+    {
+      "epoch": 1.1203068227694792,
+      "grad_norm": 13.833789825439453,
+      "learning_rate": 9.79028821352473e-06,
+      "loss": 1.3334,
+      "step": 5550
+    },
+    {
+      "epoch": 1.1303996770286637,
+      "grad_norm": 13.477495193481445,
+      "learning_rate": 9.67814287316362e-06,
+      "loss": 1.29,
+      "step": 5600
+    },
+    {
+      "epoch": 1.1404925312878482,
+      "grad_norm": 16.3387508392334,
+      "learning_rate": 9.565997532802512e-06,
+      "loss": 1.3758,
+      "step": 5650
+    },
+    {
+      "epoch": 1.1505853855470327,
+      "grad_norm": 10.865882873535156,
+      "learning_rate": 9.453852192441405e-06,
+      "loss": 1.3259,
+      "step": 5700
+    },
+    {
+      "epoch": 1.1606782398062172,
+      "grad_norm": 10.249828338623047,
+      "learning_rate": 9.341706852080297e-06,
+      "loss": 1.3175,
+      "step": 5750
+    },
+    {
+      "epoch": 1.1707710940654017,
+      "grad_norm": 10.611560821533203,
+      "learning_rate": 9.229561511719189e-06,
+      "loss": 1.3067,
+      "step": 5800
+    },
+    {
+      "epoch": 1.1808639483245862,
+      "grad_norm": 11.055877685546875,
+      "learning_rate": 9.117416171358081e-06,
+      "loss": 1.3428,
+      "step": 5850
+    },
+    {
+      "epoch": 1.1909568025837707,
+      "grad_norm": 13.777265548706055,
+      "learning_rate": 9.005270830996973e-06,
+      "loss": 1.3555,
+      "step": 5900
+    },
+    {
+      "epoch": 1.2010496568429552,
+      "grad_norm": 8.595498085021973,
+      "learning_rate": 8.893125490635864e-06,
+      "loss": 1.3357,
+      "step": 5950
+    },
+    {
+      "epoch": 1.2111425111021397,
+      "grad_norm": 15.421058654785156,
+      "learning_rate": 8.780980150274758e-06,
+      "loss": 1.3201,
+      "step": 6000
+    },
+    {
+      "epoch": 1.2212353653613242,
+      "grad_norm": 13.1820707321167,
+      "learning_rate": 8.668834809913648e-06,
+      "loss": 1.346,
+      "step": 6050
+    },
+    {
+      "epoch": 1.2313282196205086,
+      "grad_norm": 9.598958015441895,
+      "learning_rate": 8.55668946955254e-06,
+      "loss": 1.3975,
+      "step": 6100
+    },
+    {
+      "epoch": 1.2414210738796931,
+      "grad_norm": 9.70576000213623,
+      "learning_rate": 8.444544129191433e-06,
+      "loss": 1.3446,
+      "step": 6150
+    },
+    {
+      "epoch": 1.2515139281388776,
+      "grad_norm": 16.419450759887695,
+      "learning_rate": 8.332398788830325e-06,
+      "loss": 1.3239,
+      "step": 6200
+    },
+    {
+      "epoch": 1.2616067823980621,
+      "grad_norm": 13.559700012207031,
+      "learning_rate": 8.220253448469217e-06,
+      "loss": 1.3283,
+      "step": 6250
+    },
+    {
+      "epoch": 1.2716996366572466,
+      "grad_norm": 12.93370532989502,
+      "learning_rate": 8.108108108108109e-06,
+      "loss": 1.373,
+      "step": 6300
+    },
+    {
+      "epoch": 1.281792490916431,
+      "grad_norm": 11.545220375061035,
+      "learning_rate": 7.995962767747001e-06,
+      "loss": 1.3332,
+      "step": 6350
+    },
+    {
+      "epoch": 1.2918853451756156,
+      "grad_norm": 14.145684242248535,
+      "learning_rate": 7.883817427385892e-06,
+      "loss": 1.34,
+      "step": 6400
+    },
+    {
+      "epoch": 1.3019781994348,
+      "grad_norm": 12.836868286132812,
+      "learning_rate": 7.771672087024786e-06,
+      "loss": 1.341,
+      "step": 6450
+    },
+    {
+      "epoch": 1.3120710536939846,
+      "grad_norm": 12.780885696411133,
+      "learning_rate": 7.659526746663676e-06,
+      "loss": 1.357,
+      "step": 6500
+    },
+    {
+      "epoch": 1.3221639079531693,
+      "grad_norm": 12.356983184814453,
+      "learning_rate": 7.547381406302568e-06,
+      "loss": 1.3531,
+      "step": 6550
+    },
+    {
+      "epoch": 1.3322567622123538,
+      "grad_norm": 9.624804496765137,
+      "learning_rate": 7.4352360659414604e-06,
+      "loss": 1.3193,
+      "step": 6600
+    },
+    {
+      "epoch": 1.3423496164715383,
+      "grad_norm": 11.769197463989258,
+      "learning_rate": 7.323090725580353e-06,
+      "loss": 1.3279,
+      "step": 6650
+    },
+    {
+      "epoch": 1.3524424707307228,
+      "grad_norm": 7.835779666900635,
+      "learning_rate": 7.210945385219245e-06,
+      "loss": 1.3125,
+      "step": 6700
+    },
+    {
+      "epoch": 1.3625353249899073,
+      "grad_norm": 11.88305377960205,
+      "learning_rate": 7.098800044858136e-06,
+      "loss": 1.3217,
+      "step": 6750
+    },
+    {
+      "epoch": 1.3726281792490918,
+      "grad_norm": 13.909214973449707,
+      "learning_rate": 6.986654704497029e-06,
+      "loss": 1.3698,
+      "step": 6800
+    },
+    {
+      "epoch": 1.3827210335082762,
+      "grad_norm": 13.501673698425293,
+      "learning_rate": 6.8745093641359205e-06,
+      "loss": 1.3027,
+      "step": 6850
+    },
+    {
+      "epoch": 1.3928138877674607,
+      "grad_norm": 9.617853164672852,
+      "learning_rate": 6.762364023774813e-06,
+      "loss": 1.3278,
+      "step": 6900
+    },
+    {
+      "epoch": 1.4029067420266452,
+      "grad_norm": 15.783841133117676,
+      "learning_rate": 6.650218683413705e-06,
+      "loss": 1.2946,
+      "step": 6950
+    },
+    {
+      "epoch": 1.4129995962858297,
+      "grad_norm": 17.270166397094727,
+      "learning_rate": 6.538073343052597e-06,
+      "loss": 1.3485,
+      "step": 7000
+    },
+    {
+      "epoch": 1.4230924505450142,
+      "grad_norm": 10.313908576965332,
+      "learning_rate": 6.425928002691488e-06,
+      "loss": 1.3049,
+      "step": 7050
+    },
+    {
+      "epoch": 1.4331853048041987,
+      "grad_norm": 14.23890495300293,
+      "learning_rate": 6.313782662330381e-06,
+      "loss": 1.3516,
+      "step": 7100
+    },
+    {
+      "epoch": 1.4432781590633832,
+      "grad_norm": 12.376551628112793,
+      "learning_rate": 6.201637321969273e-06,
+      "loss": 1.2714,
+      "step": 7150
+    },
+    {
+      "epoch": 1.4533710133225677,
+      "grad_norm": 8.100600242614746,
+      "learning_rate": 6.089491981608164e-06,
+      "loss": 1.3395,
+      "step": 7200
+    },
+    {
+      "epoch": 1.4634638675817522,
+      "grad_norm": 15.866579055786133,
+      "learning_rate": 5.977346641247057e-06,
+      "loss": 1.3524,
+      "step": 7250
+    },
+    {
+      "epoch": 1.4735567218409367,
+      "grad_norm": 12.644124031066895,
+      "learning_rate": 5.8652013008859484e-06,
+      "loss": 1.3386,
+      "step": 7300
+    },
+    {
+      "epoch": 1.4836495761001212,
+      "grad_norm": 12.569697380065918,
+      "learning_rate": 5.753055960524841e-06,
+      "loss": 1.3369,
+      "step": 7350
+    },
+    {
+      "epoch": 1.4937424303593057,
+      "grad_norm": 11.428314208984375,
+      "learning_rate": 5.640910620163733e-06,
+      "loss": 1.3232,
+      "step": 7400
+    },
+    {
+      "epoch": 1.5038352846184901,
+      "grad_norm": 14.005457878112793,
+      "learning_rate": 5.528765279802625e-06,
+      "loss": 1.328,
+      "step": 7450
+    },
+    {
+      "epoch": 1.5139281388776746,
+      "grad_norm": 11.448248863220215,
+      "learning_rate": 5.418862846248739e-06,
+      "loss": 1.3106,
+      "step": 7500
+    },
+    {
+      "epoch": 1.5240209931368591,
+      "grad_norm": 11.041686058044434,
+      "learning_rate": 5.306717505887631e-06,
+      "loss": 1.3496,
+      "step": 7550
+    },
+    {
+      "epoch": 1.5341138473960436,
+      "grad_norm": 12.765951156616211,
+      "learning_rate": 5.194572165526522e-06,
+      "loss": 1.2758,
+      "step": 7600
+    },
+    {
+      "epoch": 1.544206701655228,
+      "grad_norm": 14.556378364562988,
+      "learning_rate": 5.082426825165415e-06,
+      "loss": 1.3376,
+      "step": 7650
+    },
+    {
+      "epoch": 1.5542995559144126,
+      "grad_norm": 10.397843360900879,
+      "learning_rate": 4.970281484804307e-06,
+      "loss": 1.2924,
+      "step": 7700
+    },
+    {
+      "epoch": 1.564392410173597,
+      "grad_norm": 22.283723831176758,
+      "learning_rate": 4.858136144443199e-06,
+      "loss": 1.3393,
+      "step": 7750
+    },
+    {
+      "epoch": 1.5744852644327816,
+      "grad_norm": 12.424785614013672,
+      "learning_rate": 4.74599080408209e-06,
+      "loss": 1.3193,
+      "step": 7800
+    },
+    {
+      "epoch": 1.584578118691966,
+      "grad_norm": 10.400694847106934,
+      "learning_rate": 4.633845463720983e-06,
+      "loss": 1.288,
+      "step": 7850
+    },
+    {
+      "epoch": 1.5946709729511506,
+      "grad_norm": 8.679718017578125,
+      "learning_rate": 4.521700123359875e-06,
+      "loss": 1.3217,
+      "step": 7900
+    },
+    {
+      "epoch": 1.604763827210335,
+      "grad_norm": 11.473520278930664,
+      "learning_rate": 4.409554782998767e-06,
+      "loss": 1.343,
+      "step": 7950
+    },
+    {
+      "epoch": 1.6148566814695196,
+      "grad_norm": 13.197211265563965,
+      "learning_rate": 4.297409442637659e-06,
+      "loss": 1.3501,
+      "step": 8000
+    },
+    {
+      "epoch": 1.624949535728704,
+      "grad_norm": 10.097699165344238,
+      "learning_rate": 4.18526410227655e-06,
+      "loss": 1.3053,
+      "step": 8050
+    },
+    {
+      "epoch": 1.6350423899878885,
+      "grad_norm": 13.534586906433105,
+      "learning_rate": 4.0731187619154425e-06,
+      "loss": 1.3039,
+      "step": 8100
+    },
+    {
+      "epoch": 1.645135244247073,
+      "grad_norm": 12.015509605407715,
+      "learning_rate": 3.960973421554335e-06,
+      "loss": 1.3044,
+      "step": 8150
+    },
+    {
+      "epoch": 1.6552280985062575,
+      "grad_norm": 13.811707496643066,
+      "learning_rate": 3.848828081193227e-06,
+      "loss": 1.2875,
+      "step": 8200
+    },
+    {
+      "epoch": 1.665320952765442,
+      "grad_norm": 8.733817100524902,
+      "learning_rate": 3.7366827408321186e-06,
+      "loss": 1.2781,
+      "step": 8250
+    },
+    {
+      "epoch": 1.6754138070246265,
+      "grad_norm": 10.037213325500488,
+      "learning_rate": 3.624537400471011e-06,
+      "loss": 1.3017,
+      "step": 8300
+    },
+    {
+      "epoch": 1.685506661283811,
+      "grad_norm": 18.557842254638672,
+      "learning_rate": 3.5123920601099026e-06,
+      "loss": 1.2988,
+      "step": 8350
+    },
+    {
+      "epoch": 1.6955995155429955,
+      "grad_norm": 11.54616641998291,
+      "learning_rate": 3.4002467197487947e-06,
+      "loss": 1.3061,
+      "step": 8400
+    },
+    {
+      "epoch": 1.70569236980218,
+      "grad_norm": 10.847959518432617,
+      "learning_rate": 3.2881013793876865e-06,
+      "loss": 1.327,
+      "step": 8450
+    },
+    {
+      "epoch": 1.7157852240613645,
+      "grad_norm": 13.53753662109375,
+      "learning_rate": 3.1759560390265787e-06,
+      "loss": 1.3172,
+      "step": 8500
+    },
+    {
+      "epoch": 1.725878078320549,
+      "grad_norm": 15.62736701965332,
+      "learning_rate": 3.063810698665471e-06,
+      "loss": 1.2641,
+      "step": 8550
+    },
+    {
+      "epoch": 1.7359709325797335,
+      "grad_norm": 11.705061912536621,
+      "learning_rate": 2.9516653583043626e-06,
+      "loss": 1.2898,
+      "step": 8600
+    },
+    {
+      "epoch": 1.746063786838918,
+      "grad_norm": 10.831978797912598,
+      "learning_rate": 2.839520017943255e-06,
+      "loss": 1.3224,
+      "step": 8650
+    },
+    {
+      "epoch": 1.7561566410981024,
+      "grad_norm": 10.530208587646484,
+      "learning_rate": 2.727374677582147e-06,
+      "loss": 1.2515,
+      "step": 8700
+    },
+    {
+      "epoch": 1.766249495357287,
+      "grad_norm": 12.877543449401855,
+      "learning_rate": 2.6152293372210387e-06,
+      "loss": 1.3279,
+      "step": 8750
+    },
+    {
+      "epoch": 1.7763423496164714,
+      "grad_norm": 13.460204124450684,
+      "learning_rate": 2.503083996859931e-06,
+      "loss": 1.2812,
+      "step": 8800
+    },
+    {
+      "epoch": 1.786435203875656,
+      "grad_norm": 14.455750465393066,
+      "learning_rate": 2.3909386564988227e-06,
+      "loss": 1.2797,
+      "step": 8850
+    },
+    {
+      "epoch": 1.7965280581348404,
+      "grad_norm": 16.0786075592041,
+      "learning_rate": 2.2787933161377144e-06,
+      "loss": 1.2896,
+      "step": 8900
+    },
+    {
+      "epoch": 1.806620912394025,
+      "grad_norm": 11.142393112182617,
+      "learning_rate": 2.1666479757766066e-06,
+      "loss": 1.2908,
+      "step": 8950
+    },
+    {
+      "epoch": 1.8167137666532094,
+      "grad_norm": 13.860331535339355,
+      "learning_rate": 2.0545026354154988e-06,
+      "loss": 1.322,
+      "step": 9000
+    },
+    {
+      "epoch": 1.8268066209123939,
+      "grad_norm": 15.06369400024414,
+      "learning_rate": 1.9423572950543905e-06,
+      "loss": 1.3083,
+      "step": 9050
+    },
+    {
+      "epoch": 1.8368994751715784,
+      "grad_norm": 15.326362609863281,
+      "learning_rate": 1.8302119546932825e-06,
+      "loss": 1.2909,
+      "step": 9100
+    },
+    {
+      "epoch": 1.8469923294307629,
+      "grad_norm": 16.93311882019043,
+      "learning_rate": 1.7180666143321747e-06,
+      "loss": 1.3016,
+      "step": 9150
+    },
+    {
+      "epoch": 1.8570851836899476,
+      "grad_norm": 15.057299613952637,
+      "learning_rate": 1.6059212739710667e-06,
+      "loss": 1.2914,
+      "step": 9200
+    },
+    {
+      "epoch": 1.867178037949132,
+      "grad_norm": 10.040867805480957,
+      "learning_rate": 1.4937759336099586e-06,
+      "loss": 1.3225,
+      "step": 9250
+    },
+    {
+      "epoch": 1.8772708922083166,
+      "grad_norm": 21.653919219970703,
+      "learning_rate": 1.3816305932488506e-06,
+      "loss": 1.2867,
+      "step": 9300
+    },
+    {
+      "epoch": 1.887363746467501,
+      "grad_norm": 10.50373363494873,
+      "learning_rate": 1.2694852528877428e-06,
+      "loss": 1.3098,
+      "step": 9350
+    },
+    {
+      "epoch": 1.8974566007266855,
+      "grad_norm": 12.554201126098633,
+      "learning_rate": 1.1573399125266345e-06,
+      "loss": 1.2786,
+      "step": 9400
+    },
+    {
+      "epoch": 1.90754945498587,
+      "grad_norm": 11.518633842468262,
+      "learning_rate": 1.0451945721655265e-06,
+      "loss": 1.289,
+      "step": 9450
+    },
+    {
+      "epoch": 1.9176423092450545,
+      "grad_norm": 12.421961784362793,
+      "learning_rate": 9.330492318044186e-07,
+      "loss": 1.2706,
+      "step": 9500
+    },
+    {
+      "epoch": 1.927735163504239,
+      "grad_norm": 14.83471393585205,
+      "learning_rate": 8.209038914433106e-07,
+      "loss": 1.262,
+      "step": 9550
+    },
+    {
+      "epoch": 1.9378280177634235,
+      "grad_norm": 12.76465129852295,
+      "learning_rate": 7.087585510822026e-07,
+      "loss": 1.2898,
+      "step": 9600
+    },
+    {
+      "epoch": 1.947920872022608,
+      "grad_norm": 12.1636381149292,
+      "learning_rate": 5.966132107210946e-07,
+      "loss": 1.2823,
+      "step": 9650
+    },
+    {
+      "epoch": 1.9580137262817925,
+      "grad_norm": 14.129364967346191,
+      "learning_rate": 4.844678703599866e-07,
+      "loss": 1.356,
+      "step": 9700
+    },
+    {
+      "epoch": 1.968106580540977,
+      "grad_norm": 12.133772850036621,
+      "learning_rate": 3.723225299988786e-07,
+      "loss": 1.28,
+      "step": 9750
+    },
+    {
+      "epoch": 1.9781994348001615,
+      "grad_norm": 9.618387222290039,
+      "learning_rate": 2.6017718963777056e-07,
+      "loss": 1.2651,
+      "step": 9800
+    },
+    {
+      "epoch": 1.988292289059346,
+      "grad_norm": 11.654873847961426,
+      "learning_rate": 1.4803184927666255e-07,
+      "loss": 1.3191,
+      "step": 9850
+    },
+    {
+      "epoch": 1.9983851433185305,
+      "grad_norm": 11.9207763671875,
+      "learning_rate": 3.588650891555456e-08,
+      "loss": 1.3182,
+      "step": 9900
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.7954870462417603,
+      "eval_runtime": 226.5861,
+      "eval_samples_per_second": 16.396,
+      "eval_steps_per_second": 2.052,
+      "step": 9908
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 9908,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.362669429614182e+16,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49c1279eb875f7ef2fd123dcc9d04eddc05a2c63d5ccfebe19a516fc432c4bfa
+size 5713

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff