daman1209arora commited on Jan 25

Commit

e02c50d

verified ·

1 Parent(s): 3395ec9

Upload folder using huggingface_hub

Browse files

Files changed (17) hide show

.gitattributes +1 -0
added_tokens.json +28 -0
chat_template.jinja +89 -0
config.json +30 -0
generation_config.json +13 -0
merges.txt +0 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +240 -0
trainer_state.json +1524 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,89 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 28,
+  "model_type": "qwen3",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.52.4"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a09b576c6547b576dd3f3c2e90f1bd8bd3d33bf6b39256c4c50f0982aa9d4f7
+size 2384234968

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c955e06bcf511c9eb0c576d80879d6a956be4d7dd398236ca1a9fcc66a31c19
+size 4768663315

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1325f40886cd907d4160d5d36a50b2aa4ce8180e738c6b0b7cab177c2ad1a3f
+size 14917

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4546f7cde630d9b35e94345f93acc2b980dd4330583e65ddf22236c7c806d400
+size 14917

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e674de87535c7fd5082b44c684bb517d78a71251342918b720c27ef01e0552bc
+size 1465

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1524 @@

+{
+  "best_global_step": 400,
+  "best_metric": 1.0,
+  "best_model_checkpoint": "/projects/bffw/darora1/llm_ipc/final_models/mpi_async_n3/checkpoint-400",
+  "epoch": 0.15521642383784734,
+  "eval_steps": 40,
+  "global_step": 400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0007760821191892367,
+      "grad_norm": 12.262979507446289,
+      "learning_rate": 2.0000000000000002e-07,
+      "loss": 0.5292,
+      "step": 2
+    },
+    {
+      "epoch": 0.0015521642383784734,
+      "grad_norm": 10.550226211547852,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 0.5158,
+      "step": 4
+    },
+    {
+      "epoch": 0.00232824635756771,
+      "grad_norm": 11.25029182434082,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.5035,
+      "step": 6
+    },
+    {
+      "epoch": 0.003104328476756947,
+      "grad_norm": 12.211933135986328,
+      "learning_rate": 1.4000000000000001e-06,
+      "loss": 0.4699,
+      "step": 8
+    },
+    {
+      "epoch": 0.0038804105959461834,
+      "grad_norm": 13.521236419677734,
+      "learning_rate": 1.8000000000000001e-06,
+      "loss": 0.4353,
+      "step": 10
+    },
+    {
+      "epoch": 0.00465649271513542,
+      "grad_norm": 10.723718643188477,
+      "learning_rate": 2.2e-06,
+      "loss": 0.3387,
+      "step": 12
+    },
+    {
+      "epoch": 0.005432574834324657,
+      "grad_norm": 4.546169757843018,
+      "learning_rate": 2.6e-06,
+      "loss": 0.2936,
+      "step": 14
+    },
+    {
+      "epoch": 0.006208656953513894,
+      "grad_norm": 2.195192813873291,
+      "learning_rate": 3e-06,
+      "loss": 0.1848,
+      "step": 16
+    },
+    {
+      "epoch": 0.00698473907270313,
+      "grad_norm": 2.521470785140991,
+      "learning_rate": 3.4000000000000005e-06,
+      "loss": 0.1964,
+      "step": 18
+    },
+    {
+      "epoch": 0.007760821191892367,
+      "grad_norm": 1.8902873992919922,
+      "learning_rate": 3.8000000000000005e-06,
+      "loss": 0.1254,
+      "step": 20
+    },
+    {
+      "epoch": 0.008536903311081603,
+      "grad_norm": 1.6655786037445068,
+      "learning_rate": 4.2000000000000004e-06,
+      "loss": 0.1055,
+      "step": 22
+    },
+    {
+      "epoch": 0.00931298543027084,
+      "grad_norm": 1.4653961658477783,
+      "learning_rate": 4.600000000000001e-06,
+      "loss": 0.091,
+      "step": 24
+    },
+    {
+      "epoch": 0.010089067549460077,
+      "grad_norm": 1.1770055294036865,
+      "learning_rate": 5e-06,
+      "loss": 0.0762,
+      "step": 26
+    },
+    {
+      "epoch": 0.010865149668649314,
+      "grad_norm": 1.4054973125457764,
+      "learning_rate": 5.400000000000001e-06,
+      "loss": 0.0433,
+      "step": 28
+    },
+    {
+      "epoch": 0.011641231787838551,
+      "grad_norm": 1.2623802423477173,
+      "learning_rate": 5.8e-06,
+      "loss": 0.0367,
+      "step": 30
+    },
+    {
+      "epoch": 0.012417313907027787,
+      "grad_norm": 0.6245309114456177,
+      "learning_rate": 6.200000000000001e-06,
+      "loss": 0.0269,
+      "step": 32
+    },
+    {
+      "epoch": 0.013193396026217025,
+      "grad_norm": 0.5869189500808716,
+      "learning_rate": 6.600000000000001e-06,
+      "loss": 0.0224,
+      "step": 34
+    },
+    {
+      "epoch": 0.01396947814540626,
+      "grad_norm": 0.828778862953186,
+      "learning_rate": 7e-06,
+      "loss": 0.0243,
+      "step": 36
+    },
+    {
+      "epoch": 0.014745560264595498,
+      "grad_norm": 0.5178276896476746,
+      "learning_rate": 7.4e-06,
+      "loss": 0.0143,
+      "step": 38
+    },
+    {
+      "epoch": 0.015521642383784734,
+      "grad_norm": 1.2490451335906982,
+      "learning_rate": 7.800000000000002e-06,
+      "loss": 0.0145,
+      "step": 40
+    },
+    {
+      "epoch": 0.015521642383784734,
+      "eval_accuracy": 0.9950695396598972,
+      "eval_loss": 0.01397051103413105,
+      "eval_runtime": 131.2714,
+      "eval_samples_per_second": 38.089,
+      "eval_steps_per_second": 9.522,
+      "step": 40
+    },
+    {
+      "epoch": 0.01629772450297397,
+      "grad_norm": 0.6127598881721497,
+      "learning_rate": 8.2e-06,
+      "loss": 0.0147,
+      "step": 42
+    },
+    {
+      "epoch": 0.017073806622163207,
+      "grad_norm": 0.7742691040039062,
+      "learning_rate": 8.6e-06,
+      "loss": 0.0092,
+      "step": 44
+    },
+    {
+      "epoch": 0.017849888741352446,
+      "grad_norm": 0.43619677424430847,
+      "learning_rate": 9e-06,
+      "loss": 0.0139,
+      "step": 46
+    },
+    {
+      "epoch": 0.01862597086054168,
+      "grad_norm": 0.6179471015930176,
+      "learning_rate": 9.4e-06,
+      "loss": 0.0137,
+      "step": 48
+    },
+    {
+      "epoch": 0.019402052979730917,
+      "grad_norm": 0.6856386065483093,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.0114,
+      "step": 50
+    },
+    {
+      "epoch": 0.020178135098920153,
+      "grad_norm": 0.4444126486778259,
+      "learning_rate": 9.999998993000299e-06,
+      "loss": 0.0072,
+      "step": 52
+    },
+    {
+      "epoch": 0.020954217218109392,
+      "grad_norm": 0.44204798340797424,
+      "learning_rate": 9.999990937005126e-06,
+      "loss": 0.0081,
+      "step": 54
+    },
+    {
+      "epoch": 0.021730299337298628,
+      "grad_norm": 0.6200250387191772,
+      "learning_rate": 9.999974825027756e-06,
+      "loss": 0.0068,
+      "step": 56
+    },
+    {
+      "epoch": 0.022506381456487864,
+      "grad_norm": 0.3666571378707886,
+      "learning_rate": 9.999950657094151e-06,
+      "loss": 0.0056,
+      "step": 58
+    },
+    {
+      "epoch": 0.023282463575677103,
+      "grad_norm": 0.37394317984580994,
+      "learning_rate": 9.999918433243253e-06,
+      "loss": 0.0057,
+      "step": 60
+    },
+    {
+      "epoch": 0.02405854569486634,
+      "grad_norm": 0.3526070713996887,
+      "learning_rate": 9.999878153526974e-06,
+      "loss": 0.0046,
+      "step": 62
+    },
+    {
+      "epoch": 0.024834627814055574,
+      "grad_norm": 0.37286990880966187,
+      "learning_rate": 9.99982981801022e-06,
+      "loss": 0.0055,
+      "step": 64
+    },
+    {
+      "epoch": 0.02561070993324481,
+      "grad_norm": 0.2880455255508423,
+      "learning_rate": 9.999773426770864e-06,
+      "loss": 0.0055,
+      "step": 66
+    },
+    {
+      "epoch": 0.02638679205243405,
+      "grad_norm": 0.1844996213912964,
+      "learning_rate": 9.999708979899769e-06,
+      "loss": 0.0053,
+      "step": 68
+    },
+    {
+      "epoch": 0.027162874171623285,
+      "grad_norm": 0.3575407564640045,
+      "learning_rate": 9.999636477500765e-06,
+      "loss": 0.0046,
+      "step": 70
+    },
+    {
+      "epoch": 0.02793895629081252,
+      "grad_norm": 0.4409068524837494,
+      "learning_rate": 9.999555919690673e-06,
+      "loss": 0.0047,
+      "step": 72
+    },
+    {
+      "epoch": 0.02871503841000176,
+      "grad_norm": 0.28502458333969116,
+      "learning_rate": 9.999467306599285e-06,
+      "loss": 0.0039,
+      "step": 74
+    },
+    {
+      "epoch": 0.029491120529190996,
+      "grad_norm": 0.3887697458267212,
+      "learning_rate": 9.999370638369377e-06,
+      "loss": 0.0032,
+      "step": 76
+    },
+    {
+      "epoch": 0.03026720264838023,
+      "grad_norm": 0.3041154742240906,
+      "learning_rate": 9.999265915156697e-06,
+      "loss": 0.0028,
+      "step": 78
+    },
+    {
+      "epoch": 0.031043284767569467,
+      "grad_norm": 0.3210655748844147,
+      "learning_rate": 9.999153137129978e-06,
+      "loss": 0.0034,
+      "step": 80
+    },
+    {
+      "epoch": 0.031043284767569467,
+      "eval_accuracy": 0.9989959166226455,
+      "eval_loss": 0.0025868695229291916,
+      "eval_runtime": 127.9011,
+      "eval_samples_per_second": 39.093,
+      "eval_steps_per_second": 9.773,
+      "step": 80
+    },
+    {
+      "epoch": 0.0318193668867587,
+      "grad_norm": 0.6757090091705322,
+      "learning_rate": 9.999032304470926e-06,
+      "loss": 0.003,
+      "step": 82
+    },
+    {
+      "epoch": 0.03259544900594794,
+      "grad_norm": 0.16272921860218048,
+      "learning_rate": 9.998903417374228e-06,
+      "loss": 0.0017,
+      "step": 84
+    },
+    {
+      "epoch": 0.03337153112513718,
+      "grad_norm": 0.6212184429168701,
+      "learning_rate": 9.998766476047546e-06,
+      "loss": 0.0033,
+      "step": 86
+    },
+    {
+      "epoch": 0.034147613244326414,
+      "grad_norm": 0.19103288650512695,
+      "learning_rate": 9.998621480711522e-06,
+      "loss": 0.0016,
+      "step": 88
+    },
+    {
+      "epoch": 0.03492369536351565,
+      "grad_norm": 0.4599171280860901,
+      "learning_rate": 9.998468431599768e-06,
+      "loss": 0.0035,
+      "step": 90
+    },
+    {
+      "epoch": 0.03569977748270489,
+      "grad_norm": 0.22474364936351776,
+      "learning_rate": 9.99830732895888e-06,
+      "loss": 0.0016,
+      "step": 92
+    },
+    {
+      "epoch": 0.036475859601894124,
+      "grad_norm": 0.19210362434387207,
+      "learning_rate": 9.998138173048424e-06,
+      "loss": 0.0015,
+      "step": 94
+    },
+    {
+      "epoch": 0.03725194172108336,
+      "grad_norm": 0.22696685791015625,
+      "learning_rate": 9.997960964140946e-06,
+      "loss": 0.0012,
+      "step": 96
+    },
+    {
+      "epoch": 0.038028023840272596,
+      "grad_norm": 0.3195860981941223,
+      "learning_rate": 9.997775702521965e-06,
+      "loss": 0.0012,
+      "step": 98
+    },
+    {
+      "epoch": 0.038804105959461835,
+      "grad_norm": 0.3686668574810028,
+      "learning_rate": 9.997582388489975e-06,
+      "loss": 0.0014,
+      "step": 100
+    },
+    {
+      "epoch": 0.039580188078651074,
+      "grad_norm": 0.28173354268074036,
+      "learning_rate": 9.99738102235644e-06,
+      "loss": 0.0014,
+      "step": 102
+    },
+    {
+      "epoch": 0.040356270197840306,
+      "grad_norm": 0.1499175727367401,
+      "learning_rate": 9.997171604445803e-06,
+      "loss": 0.0015,
+      "step": 104
+    },
+    {
+      "epoch": 0.041132352317029545,
+      "grad_norm": 0.4097079038619995,
+      "learning_rate": 9.99695413509548e-06,
+      "loss": 0.0019,
+      "step": 106
+    },
+    {
+      "epoch": 0.041908434436218785,
+      "grad_norm": 0.1767456978559494,
+      "learning_rate": 9.996728614655854e-06,
+      "loss": 0.0009,
+      "step": 108
+    },
+    {
+      "epoch": 0.04268451655540802,
+      "grad_norm": 0.2755231559276581,
+      "learning_rate": 9.996495043490285e-06,
+      "loss": 0.0012,
+      "step": 110
+    },
+    {
+      "epoch": 0.043460598674597256,
+      "grad_norm": 0.21294231712818146,
+      "learning_rate": 9.996253421975103e-06,
+      "loss": 0.001,
+      "step": 112
+    },
+    {
+      "epoch": 0.044236680793786495,
+      "grad_norm": 0.5105843544006348,
+      "learning_rate": 9.996003750499608e-06,
+      "loss": 0.0017,
+      "step": 114
+    },
+    {
+      "epoch": 0.04501276291297573,
+      "grad_norm": 0.20320548117160797,
+      "learning_rate": 9.995746029466071e-06,
+      "loss": 0.0011,
+      "step": 116
+    },
+    {
+      "epoch": 0.04578884503216497,
+      "grad_norm": 0.1121864914894104,
+      "learning_rate": 9.995480259289731e-06,
+      "loss": 0.0012,
+      "step": 118
+    },
+    {
+      "epoch": 0.046564927151354206,
+      "grad_norm": 0.13900773227214813,
+      "learning_rate": 9.995206440398798e-06,
+      "loss": 0.0005,
+      "step": 120
+    },
+    {
+      "epoch": 0.046564927151354206,
+      "eval_accuracy": 0.9996412933698419,
+      "eval_loss": 0.0013112464221194386,
+      "eval_runtime": 129.9264,
+      "eval_samples_per_second": 38.483,
+      "eval_steps_per_second": 9.621,
+      "step": 120
+    },
+    {
+      "epoch": 0.04734100927054344,
+      "grad_norm": 0.17495128512382507,
+      "learning_rate": 9.994924573234448e-06,
+      "loss": 0.0011,
+      "step": 122
+    },
+    {
+      "epoch": 0.04811709138973268,
+      "grad_norm": 0.44951504468917847,
+      "learning_rate": 9.994634658250825e-06,
+      "loss": 0.0015,
+      "step": 124
+    },
+    {
+      "epoch": 0.04889317350892191,
+      "grad_norm": 0.28001341223716736,
+      "learning_rate": 9.994336695915041e-06,
+      "loss": 0.0009,
+      "step": 126
+    },
+    {
+      "epoch": 0.04966925562811115,
+      "grad_norm": 0.15198007225990295,
+      "learning_rate": 9.994030686707171e-06,
+      "loss": 0.0008,
+      "step": 128
+    },
+    {
+      "epoch": 0.05044533774730039,
+      "grad_norm": 0.2052275389432907,
+      "learning_rate": 9.993716631120259e-06,
+      "loss": 0.0008,
+      "step": 130
+    },
+    {
+      "epoch": 0.05122141986648962,
+      "grad_norm": 0.20360974967479706,
+      "learning_rate": 9.993394529660307e-06,
+      "loss": 0.0008,
+      "step": 132
+    },
+    {
+      "epoch": 0.05199750198567886,
+      "grad_norm": 0.20459742844104767,
+      "learning_rate": 9.99306438284629e-06,
+      "loss": 0.0007,
+      "step": 134
+    },
+    {
+      "epoch": 0.0527735841048681,
+      "grad_norm": 0.12038147449493408,
+      "learning_rate": 9.992726191210139e-06,
+      "loss": 0.0008,
+      "step": 136
+    },
+    {
+      "epoch": 0.05354966622405733,
+      "grad_norm": 0.2902871072292328,
+      "learning_rate": 9.992379955296745e-06,
+      "loss": 0.0005,
+      "step": 138
+    },
+    {
+      "epoch": 0.05432574834324657,
+      "grad_norm": 0.11465182155370712,
+      "learning_rate": 9.992025675663966e-06,
+      "loss": 0.0006,
+      "step": 140
+    },
+    {
+      "epoch": 0.05510183046243581,
+      "grad_norm": 0.10924035310745239,
+      "learning_rate": 9.991663352882615e-06,
+      "loss": 0.0005,
+      "step": 142
+    },
+    {
+      "epoch": 0.05587791258162504,
+      "grad_norm": 0.10540606826543808,
+      "learning_rate": 9.991292987536469e-06,
+      "loss": 0.0003,
+      "step": 144
+    },
+    {
+      "epoch": 0.05665399470081428,
+      "grad_norm": 0.10914743691682816,
+      "learning_rate": 9.990914580222258e-06,
+      "loss": 0.0004,
+      "step": 146
+    },
+    {
+      "epoch": 0.05743007682000352,
+      "grad_norm": 0.06488844007253647,
+      "learning_rate": 9.990528131549674e-06,
+      "loss": 0.0004,
+      "step": 148
+    },
+    {
+      "epoch": 0.05820615893919275,
+      "grad_norm": 0.11523474752902985,
+      "learning_rate": 9.990133642141359e-06,
+      "loss": 0.0003,
+      "step": 150
+    },
+    {
+      "epoch": 0.05898224105838199,
+      "grad_norm": 0.17658241093158722,
+      "learning_rate": 9.989731112632917e-06,
+      "loss": 0.0004,
+      "step": 152
+    },
+    {
+      "epoch": 0.059758323177571224,
+      "grad_norm": 0.1516527682542801,
+      "learning_rate": 9.989320543672904e-06,
+      "loss": 0.0002,
+      "step": 154
+    },
+    {
+      "epoch": 0.06053440529676046,
+      "grad_norm": 0.14159496128559113,
+      "learning_rate": 9.988901935922826e-06,
+      "loss": 0.0001,
+      "step": 156
+    },
+    {
+      "epoch": 0.0613104874159497,
+      "grad_norm": 0.19340620934963226,
+      "learning_rate": 9.988475290057145e-06,
+      "loss": 0.0006,
+      "step": 158
+    },
+    {
+      "epoch": 0.062086569535138934,
+      "grad_norm": 0.17848193645477295,
+      "learning_rate": 9.988040606763272e-06,
+      "loss": 0.0003,
+      "step": 160
+    },
+    {
+      "epoch": 0.062086569535138934,
+      "eval_accuracy": 0.9999064094433845,
+      "eval_loss": 0.00032003907836042345,
+      "eval_runtime": 127.2112,
+      "eval_samples_per_second": 39.305,
+      "eval_steps_per_second": 9.826,
+      "step": 160
+    },
+    {
+      "epoch": 0.06286265165432818,
+      "grad_norm": 0.15477371215820312,
+      "learning_rate": 9.98759788674157e-06,
+      "loss": 0.0003,
+      "step": 162
+    },
+    {
+      "epoch": 0.0636387337735174,
+      "grad_norm": 0.1277933269739151,
+      "learning_rate": 9.987147130705347e-06,
+      "loss": 0.0004,
+      "step": 164
+    },
+    {
+      "epoch": 0.06441481589270664,
+      "grad_norm": 0.14449910819530487,
+      "learning_rate": 9.986688339380863e-06,
+      "loss": 0.0002,
+      "step": 166
+    },
+    {
+      "epoch": 0.06519089801189588,
+      "grad_norm": 0.6293010115623474,
+      "learning_rate": 9.98622151350732e-06,
+      "loss": 0.0006,
+      "step": 168
+    },
+    {
+      "epoch": 0.06596698013108512,
+      "grad_norm": 0.2988656163215637,
+      "learning_rate": 9.985746653836867e-06,
+      "loss": 0.0005,
+      "step": 170
+    },
+    {
+      "epoch": 0.06674306225027436,
+      "grad_norm": 0.0764790028333664,
+      "learning_rate": 9.985263761134602e-06,
+      "loss": 0.0005,
+      "step": 172
+    },
+    {
+      "epoch": 0.06751914436946359,
+      "grad_norm": 0.3135935366153717,
+      "learning_rate": 9.984772836178559e-06,
+      "loss": 0.0006,
+      "step": 174
+    },
+    {
+      "epoch": 0.06829522648865283,
+      "grad_norm": 0.4241097569465637,
+      "learning_rate": 9.984273879759713e-06,
+      "loss": 0.0008,
+      "step": 176
+    },
+    {
+      "epoch": 0.06907130860784207,
+      "grad_norm": 0.07492109388113022,
+      "learning_rate": 9.983766892681985e-06,
+      "loss": 0.0003,
+      "step": 178
+    },
+    {
+      "epoch": 0.0698473907270313,
+      "grad_norm": 0.15513752400875092,
+      "learning_rate": 9.983251875762234e-06,
+      "loss": 0.0003,
+      "step": 180
+    },
+    {
+      "epoch": 0.07062347284622054,
+      "grad_norm": 0.2630753815174103,
+      "learning_rate": 9.982728829830252e-06,
+      "loss": 0.0006,
+      "step": 182
+    },
+    {
+      "epoch": 0.07139955496540978,
+      "grad_norm": 0.07824663817882538,
+      "learning_rate": 9.982197755728771e-06,
+      "loss": 0.0003,
+      "step": 184
+    },
+    {
+      "epoch": 0.07217563708459901,
+      "grad_norm": 0.03119218535721302,
+      "learning_rate": 9.981658654313458e-06,
+      "loss": 0.0006,
+      "step": 186
+    },
+    {
+      "epoch": 0.07295171920378825,
+      "grad_norm": 0.5731412768363953,
+      "learning_rate": 9.981111526452912e-06,
+      "loss": 0.0015,
+      "step": 188
+    },
+    {
+      "epoch": 0.07372780132297749,
+      "grad_norm": 0.13840052485466003,
+      "learning_rate": 9.980556373028665e-06,
+      "loss": 0.0002,
+      "step": 190
+    },
+    {
+      "epoch": 0.07450388344216673,
+      "grad_norm": 0.04643406346440315,
+      "learning_rate": 9.979993194935182e-06,
+      "loss": 0.0002,
+      "step": 192
+    },
+    {
+      "epoch": 0.07527996556135597,
+      "grad_norm": 0.05373441055417061,
+      "learning_rate": 9.979421993079853e-06,
+      "loss": 0.0003,
+      "step": 194
+    },
+    {
+      "epoch": 0.07605604768054519,
+      "grad_norm": 0.21675284206867218,
+      "learning_rate": 9.978842768382999e-06,
+      "loss": 0.0004,
+      "step": 196
+    },
+    {
+      "epoch": 0.07683212979973443,
+      "grad_norm": 0.18371616303920746,
+      "learning_rate": 9.978255521777865e-06,
+      "loss": 0.0002,
+      "step": 198
+    },
+    {
+      "epoch": 0.07760821191892367,
+      "grad_norm": 0.09996998310089111,
+      "learning_rate": 9.977660254210623e-06,
+      "loss": 0.0003,
+      "step": 200
+    },
+    {
+      "epoch": 0.07760821191892367,
+      "eval_accuracy": 0.9999704461885914,
+      "eval_loss": 0.00016504956874996424,
+      "eval_runtime": 129.4586,
+      "eval_samples_per_second": 38.622,
+      "eval_steps_per_second": 9.656,
+      "step": 200
+    },
+    {
+      "epoch": 0.07838429403811291,
+      "grad_norm": 0.1638646125793457,
+      "learning_rate": 9.977056966640368e-06,
+      "loss": 0.0004,
+      "step": 202
+    },
+    {
+      "epoch": 0.07916037615730215,
+      "grad_norm": 0.13783912360668182,
+      "learning_rate": 9.976445660039118e-06,
+      "loss": 0.0001,
+      "step": 204
+    },
+    {
+      "epoch": 0.07993645827649139,
+      "grad_norm": 0.14015792310237885,
+      "learning_rate": 9.975826335391808e-06,
+      "loss": 0.0001,
+      "step": 206
+    },
+    {
+      "epoch": 0.08071254039568061,
+      "grad_norm": 0.2642574906349182,
+      "learning_rate": 9.975198993696294e-06,
+      "loss": 0.0002,
+      "step": 208
+    },
+    {
+      "epoch": 0.08148862251486985,
+      "grad_norm": 0.15489515662193298,
+      "learning_rate": 9.974563635963348e-06,
+      "loss": 0.0006,
+      "step": 210
+    },
+    {
+      "epoch": 0.08226470463405909,
+      "grad_norm": 0.35902225971221924,
+      "learning_rate": 9.973920263216658e-06,
+      "loss": 0.0004,
+      "step": 212
+    },
+    {
+      "epoch": 0.08304078675324833,
+      "grad_norm": 0.4768538773059845,
+      "learning_rate": 9.973268876492827e-06,
+      "loss": 0.0005,
+      "step": 214
+    },
+    {
+      "epoch": 0.08381686887243757,
+      "grad_norm": 0.13987833261489868,
+      "learning_rate": 9.972609476841368e-06,
+      "loss": 0.0002,
+      "step": 216
+    },
+    {
+      "epoch": 0.0845929509916268,
+      "grad_norm": 0.1310640126466751,
+      "learning_rate": 9.971942065324704e-06,
+      "loss": 0.0003,
+      "step": 218
+    },
+    {
+      "epoch": 0.08536903311081603,
+      "grad_norm": 0.2835996747016907,
+      "learning_rate": 9.971266643018171e-06,
+      "loss": 0.0004,
+      "step": 220
+    },
+    {
+      "epoch": 0.08614511523000527,
+      "grad_norm": 0.14516514539718628,
+      "learning_rate": 9.970583211010008e-06,
+      "loss": 0.0005,
+      "step": 222
+    },
+    {
+      "epoch": 0.08692119734919451,
+      "grad_norm": 0.1896241158246994,
+      "learning_rate": 9.969891770401358e-06,
+      "loss": 0.0011,
+      "step": 224
+    },
+    {
+      "epoch": 0.08769727946838375,
+      "grad_norm": 0.13900001347064972,
+      "learning_rate": 9.969192322306271e-06,
+      "loss": 0.0006,
+      "step": 226
+    },
+    {
+      "epoch": 0.08847336158757299,
+      "grad_norm": 0.12469799816608429,
+      "learning_rate": 9.968484867851698e-06,
+      "loss": 0.0003,
+      "step": 228
+    },
+    {
+      "epoch": 0.08924944370676222,
+      "grad_norm": 0.2005859613418579,
+      "learning_rate": 9.96776940817749e-06,
+      "loss": 0.0008,
+      "step": 230
+    },
+    {
+      "epoch": 0.09002552582595146,
+      "grad_norm": 0.13151948153972626,
+      "learning_rate": 9.967045944436392e-06,
+      "loss": 0.0002,
+      "step": 232
+    },
+    {
+      "epoch": 0.0908016079451407,
+      "grad_norm": 0.10286468267440796,
+      "learning_rate": 9.966314477794052e-06,
+      "loss": 0.0004,
+      "step": 234
+    },
+    {
+      "epoch": 0.09157769006432993,
+      "grad_norm": 0.08904605358839035,
+      "learning_rate": 9.965575009429006e-06,
+      "loss": 0.0003,
+      "step": 236
+    },
+    {
+      "epoch": 0.09235377218351917,
+      "grad_norm": 0.110069639980793,
+      "learning_rate": 9.964827540532685e-06,
+      "loss": 0.0004,
+      "step": 238
+    },
+    {
+      "epoch": 0.09312985430270841,
+      "grad_norm": 0.044081419706344604,
+      "learning_rate": 9.964072072309412e-06,
+      "loss": 0.0002,
+      "step": 240
+    },
+    {
+      "epoch": 0.09312985430270841,
+      "eval_accuracy": 0.9998835115818656,
+      "eval_loss": 0.00031863132608123124,
+      "eval_runtime": 127.6209,
+      "eval_samples_per_second": 39.179,
+      "eval_steps_per_second": 9.795,
+      "step": 240
+    },
+    {
+      "epoch": 0.09390593642189764,
+      "grad_norm": 0.11008896678686142,
+      "learning_rate": 9.963308605976397e-06,
+      "loss": 0.0002,
+      "step": 242
+    },
+    {
+      "epoch": 0.09468201854108688,
+      "grad_norm": 0.07347576320171356,
+      "learning_rate": 9.962537142763733e-06,
+      "loss": 0.0003,
+      "step": 244
+    },
+    {
+      "epoch": 0.09545810066027612,
+      "grad_norm": 0.061514757573604584,
+      "learning_rate": 9.961757683914406e-06,
+      "loss": 0.0001,
+      "step": 246
+    },
+    {
+      "epoch": 0.09623418277946535,
+      "grad_norm": 0.030034126713871956,
+      "learning_rate": 9.960970230684276e-06,
+      "loss": 0.0001,
+      "step": 248
+    },
+    {
+      "epoch": 0.0970102648986546,
+      "grad_norm": 0.06853067874908447,
+      "learning_rate": 9.96017478434209e-06,
+      "loss": 0.0001,
+      "step": 250
+    },
+    {
+      "epoch": 0.09778634701784382,
+      "grad_norm": 0.08918727934360504,
+      "learning_rate": 9.959371346169466e-06,
+      "loss": 0.0001,
+      "step": 252
+    },
+    {
+      "epoch": 0.09856242913703306,
+      "grad_norm": 0.014135139063000679,
+      "learning_rate": 9.958559917460909e-06,
+      "loss": 0.0,
+      "step": 254
+    },
+    {
+      "epoch": 0.0993385112562223,
+      "grad_norm": 0.03587706759572029,
+      "learning_rate": 9.957740499523787e-06,
+      "loss": 0.0,
+      "step": 256
+    },
+    {
+      "epoch": 0.10011459337541154,
+      "grad_norm": 0.028472531586885452,
+      "learning_rate": 9.95691309367835e-06,
+      "loss": 0.0,
+      "step": 258
+    },
+    {
+      "epoch": 0.10089067549460078,
+      "grad_norm": 0.10992776602506638,
+      "learning_rate": 9.95607770125771e-06,
+      "loss": 0.0,
+      "step": 260
+    },
+    {
+      "epoch": 0.10166675761379002,
+      "grad_norm": 0.015062687918543816,
+      "learning_rate": 9.955234323607854e-06,
+      "loss": 0.0,
+      "step": 262
+    },
+    {
+      "epoch": 0.10244283973297924,
+      "grad_norm": 0.09784650802612305,
+      "learning_rate": 9.954382962087628e-06,
+      "loss": 0.0001,
+      "step": 264
+    },
+    {
+      "epoch": 0.10321892185216848,
+      "grad_norm": 0.004005913157016039,
+      "learning_rate": 9.95352361806875e-06,
+      "loss": 0.0001,
+      "step": 266
+    },
+    {
+      "epoch": 0.10399500397135772,
+      "grad_norm": 0.0028742440044879913,
+      "learning_rate": 9.95265629293579e-06,
+      "loss": 0.0,
+      "step": 268
+    },
+    {
+      "epoch": 0.10477108609054696,
+      "grad_norm": 0.01080241333693266,
+      "learning_rate": 9.951780988086183e-06,
+      "loss": 0.0,
+      "step": 270
+    },
+    {
+      "epoch": 0.1055471682097362,
+      "grad_norm": 0.006698825862258673,
+      "learning_rate": 9.950897704930223e-06,
+      "loss": 0.0,
+      "step": 272
+    },
+    {
+      "epoch": 0.10632325032892542,
+      "grad_norm": 0.0032098847441375256,
+      "learning_rate": 9.95000644489105e-06,
+      "loss": 0.0,
+      "step": 274
+    },
+    {
+      "epoch": 0.10709933244811466,
+      "grad_norm": 0.014737925492227077,
+      "learning_rate": 9.949107209404664e-06,
+      "loss": 0.0,
+      "step": 276
+    },
+    {
+      "epoch": 0.1078754145673039,
+      "grad_norm": 0.002784354379400611,
+      "learning_rate": 9.948199999919914e-06,
+      "loss": 0.0,
+      "step": 278
+    },
+    {
+      "epoch": 0.10865149668649314,
+      "grad_norm": 0.001066903700120747,
+      "learning_rate": 9.947284817898493e-06,
+      "loss": 0.0,
+      "step": 280
+    },
+    {
+      "epoch": 0.10865149668649314,
+      "eval_accuracy": 0.9999963963963965,
+      "eval_loss": 2.1505837139557116e-05,
+      "eval_runtime": 127.9196,
+      "eval_samples_per_second": 39.087,
+      "eval_steps_per_second": 9.772,
+      "step": 280
+    },
+    {
+      "epoch": 0.10942757880568238,
+      "grad_norm": 0.0006136983865872025,
+      "learning_rate": 9.946361664814942e-06,
+      "loss": 0.0,
+      "step": 282
+    },
+    {
+      "epoch": 0.11020366092487162,
+      "grad_norm": 0.021285895258188248,
+      "learning_rate": 9.945430542156647e-06,
+      "loss": 0.0,
+      "step": 284
+    },
+    {
+      "epoch": 0.11097974304406084,
+      "grad_norm": 0.0006559508037753403,
+      "learning_rate": 9.944491451423829e-06,
+      "loss": 0.0,
+      "step": 286
+    },
+    {
+      "epoch": 0.11175582516325008,
+      "grad_norm": 0.0006491419044323266,
+      "learning_rate": 9.943544394129552e-06,
+      "loss": 0.0,
+      "step": 288
+    },
+    {
+      "epoch": 0.11253190728243932,
+      "grad_norm": 0.0015669898129999638,
+      "learning_rate": 9.942589371799715e-06,
+      "loss": 0.0,
+      "step": 290
+    },
+    {
+      "epoch": 0.11330798940162856,
+      "grad_norm": 0.003007555613294244,
+      "learning_rate": 9.941626385973047e-06,
+      "loss": 0.0,
+      "step": 292
+    },
+    {
+      "epoch": 0.1140840715208178,
+      "grad_norm": 0.004424386657774448,
+      "learning_rate": 9.940655438201113e-06,
+      "loss": 0.0,
+      "step": 294
+    },
+    {
+      "epoch": 0.11486015364000704,
+      "grad_norm": 0.0031703764107078314,
+      "learning_rate": 9.9396765300483e-06,
+      "loss": 0.0,
+      "step": 296
+    },
+    {
+      "epoch": 0.11563623575919627,
+      "grad_norm": 0.00221498915925622,
+      "learning_rate": 9.938689663091828e-06,
+      "loss": 0.0,
+      "step": 298
+    },
+    {
+      "epoch": 0.1164123178783855,
+      "grad_norm": 0.005704451352357864,
+      "learning_rate": 9.937694838921734e-06,
+      "loss": 0.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.11718839999757474,
+      "grad_norm": 0.0013350360095500946,
+      "learning_rate": 9.93669205914088e-06,
+      "loss": 0.0,
+      "step": 302
+    },
+    {
+      "epoch": 0.11796448211676398,
+      "grad_norm": 0.0008370972354896367,
+      "learning_rate": 9.93568132536494e-06,
+      "loss": 0.0,
+      "step": 304
+    },
+    {
+      "epoch": 0.11874056423595322,
+      "grad_norm": 0.01809551753103733,
+      "learning_rate": 9.934662639222412e-06,
+      "loss": 0.0,
+      "step": 306
+    },
+    {
+      "epoch": 0.11951664635514245,
+      "grad_norm": 0.0005159855354577303,
+      "learning_rate": 9.9336360023546e-06,
+      "loss": 0.0,
+      "step": 308
+    },
+    {
+      "epoch": 0.12029272847433169,
+      "grad_norm": 0.0009325972059741616,
+      "learning_rate": 9.932601416415622e-06,
+      "loss": 0.0,
+      "step": 310
+    },
+    {
+      "epoch": 0.12106881059352093,
+      "grad_norm": 0.003970442805439234,
+      "learning_rate": 9.931558883072403e-06,
+      "loss": 0.0,
+      "step": 312
+    },
+    {
+      "epoch": 0.12184489271271016,
+      "grad_norm": 0.000802877766545862,
+      "learning_rate": 9.930508404004668e-06,
+      "loss": 0.0,
+      "step": 314
+    },
+    {
+      "epoch": 0.1226209748318994,
+      "grad_norm": 0.000747400859836489,
+      "learning_rate": 9.929449980904952e-06,
+      "loss": 0.0,
+      "step": 316
+    },
+    {
+      "epoch": 0.12339705695108864,
+      "grad_norm": 0.05219698324799538,
+      "learning_rate": 9.928383615478586e-06,
+      "loss": 0.0,
+      "step": 318
+    },
+    {
+      "epoch": 0.12417313907027787,
+      "grad_norm": 0.0008670546812936664,
+      "learning_rate": 9.927309309443696e-06,
+      "loss": 0.0,
+      "step": 320
+    },
+    {
+      "epoch": 0.12417313907027787,
+      "eval_accuracy": 0.9999981981981982,
+      "eval_loss": 1.2200940545881167e-05,
+      "eval_runtime": 126.4816,
+      "eval_samples_per_second": 39.531,
+      "eval_steps_per_second": 9.883,
+      "step": 320
+    },
+    {
+      "epoch": 0.12494922118946711,
+      "grad_norm": 0.0031448816880583763,
+      "learning_rate": 9.9262270645312e-06,
+      "loss": 0.0,
+      "step": 322
+    },
+    {
+      "epoch": 0.12572530330865636,
+      "grad_norm": 0.0009269348229281604,
+      "learning_rate": 9.925136882484816e-06,
+      "loss": 0.0,
+      "step": 324
+    },
+    {
+      "epoch": 0.1265013854278456,
+      "grad_norm": 0.00048692882410250604,
+      "learning_rate": 9.924038765061042e-06,
+      "loss": 0.0,
+      "step": 326
+    },
+    {
+      "epoch": 0.1272774675470348,
+      "grad_norm": 0.0416707918047905,
+      "learning_rate": 9.922932714029163e-06,
+      "loss": 0.0,
+      "step": 328
+    },
+    {
+      "epoch": 0.12805354966622406,
+      "grad_norm": 0.0007638961542397738,
+      "learning_rate": 9.921818731171249e-06,
+      "loss": 0.0,
+      "step": 330
+    },
+    {
+      "epoch": 0.1288296317854133,
+      "grad_norm": 0.0007810278912074864,
+      "learning_rate": 9.920696818282147e-06,
+      "loss": 0.0,
+      "step": 332
+    },
+    {
+      "epoch": 0.12960571390460254,
+      "grad_norm": 0.0021285091061145067,
+      "learning_rate": 9.919566977169486e-06,
+      "loss": 0.0,
+      "step": 334
+    },
+    {
+      "epoch": 0.13038179602379177,
+      "grad_norm": 0.0033166895154863596,
+      "learning_rate": 9.918429209653662e-06,
+      "loss": 0.0,
+      "step": 336
+    },
+    {
+      "epoch": 0.131157878142981,
+      "grad_norm": 0.0007379205781035125,
+      "learning_rate": 9.917283517567845e-06,
+      "loss": 0.0,
+      "step": 338
+    },
+    {
+      "epoch": 0.13193396026217025,
+      "grad_norm": 0.0007624090649187565,
+      "learning_rate": 9.916129902757977e-06,
+      "loss": 0.0,
+      "step": 340
+    },
+    {
+      "epoch": 0.13271004238135947,
+      "grad_norm": 0.00043780903797596693,
+      "learning_rate": 9.914968367082756e-06,
+      "loss": 0.0,
+      "step": 342
+    },
+    {
+      "epoch": 0.13348612450054873,
+      "grad_norm": 0.0003401880676392466,
+      "learning_rate": 9.913798912413653e-06,
+      "loss": 0.0,
+      "step": 344
+    },
+    {
+      "epoch": 0.13426220661973795,
+      "grad_norm": 0.3694112002849579,
+      "learning_rate": 9.912621540634889e-06,
+      "loss": 0.0001,
+      "step": 346
+    },
+    {
+      "epoch": 0.13503828873892718,
+      "grad_norm": 0.0005322833894751966,
+      "learning_rate": 9.911436253643445e-06,
+      "loss": 0.0,
+      "step": 348
+    },
+    {
+      "epoch": 0.13581437085811643,
+      "grad_norm": 0.023259738460183144,
+      "learning_rate": 9.910243053349055e-06,
+      "loss": 0.0,
+      "step": 350
+    },
+    {
+      "epoch": 0.13659045297730565,
+      "grad_norm": 0.00202095415443182,
+      "learning_rate": 9.909041941674205e-06,
+      "loss": 0.0002,
+      "step": 352
+    },
+    {
+      "epoch": 0.1373665350964949,
+      "grad_norm": 0.001592564396560192,
+      "learning_rate": 9.90783292055412e-06,
+      "loss": 0.0001,
+      "step": 354
+    },
+    {
+      "epoch": 0.13814261721568413,
+      "grad_norm": 0.2993152141571045,
+      "learning_rate": 9.906615991936781e-06,
+      "loss": 0.0005,
+      "step": 356
+    },
+    {
+      "epoch": 0.13891869933487336,
+      "grad_norm": 0.016617566347122192,
+      "learning_rate": 9.905391157782897e-06,
+      "loss": 0.0001,
+      "step": 358
+    },
+    {
+      "epoch": 0.1396947814540626,
+      "grad_norm": 0.10565357655286789,
+      "learning_rate": 9.904158420065923e-06,
+      "loss": 0.0001,
+      "step": 360
+    },
+    {
+      "epoch": 0.1396947814540626,
+      "eval_accuracy": 0.9999483411112575,
+      "eval_loss": 0.0001308279752265662,
+      "eval_runtime": 125.426,
+      "eval_samples_per_second": 39.864,
+      "eval_steps_per_second": 9.966,
+      "step": 360
+    },
+    {
+      "epoch": 0.14047086357325184,
+      "grad_norm": 0.19931581616401672,
+      "learning_rate": 9.902917780772043e-06,
+      "loss": 0.0002,
+      "step": 362
+    },
+    {
+      "epoch": 0.1412469456924411,
+      "grad_norm": 0.016386395320296288,
+      "learning_rate": 9.901669241900178e-06,
+      "loss": 0.0,
+      "step": 364
+    },
+    {
+      "epoch": 0.14202302781163031,
+      "grad_norm": 0.03343227878212929,
+      "learning_rate": 9.900412805461968e-06,
+      "loss": 0.0,
+      "step": 366
+    },
+    {
+      "epoch": 0.14279910993081957,
+      "grad_norm": 0.007820719853043556,
+      "learning_rate": 9.899148473481786e-06,
+      "loss": 0.0,
+      "step": 368
+    },
+    {
+      "epoch": 0.1435751920500088,
+      "grad_norm": 0.006656871177256107,
+      "learning_rate": 9.89787624799672e-06,
+      "loss": 0.0,
+      "step": 370
+    },
+    {
+      "epoch": 0.14435127416919802,
+      "grad_norm": 0.008290220983326435,
+      "learning_rate": 9.896596131056583e-06,
+      "loss": 0.0,
+      "step": 372
+    },
+    {
+      "epoch": 0.14512735628838727,
+      "grad_norm": 0.006194319576025009,
+      "learning_rate": 9.895308124723897e-06,
+      "loss": 0.0,
+      "step": 374
+    },
+    {
+      "epoch": 0.1459034384075765,
+      "grad_norm": 0.008603195659816265,
+      "learning_rate": 9.894012231073895e-06,
+      "loss": 0.0,
+      "step": 376
+    },
+    {
+      "epoch": 0.14667952052676575,
+      "grad_norm": 0.023244811221957207,
+      "learning_rate": 9.892708452194522e-06,
+      "loss": 0.0001,
+      "step": 378
+    },
+    {
+      "epoch": 0.14745560264595498,
+      "grad_norm": 0.005203426815569401,
+      "learning_rate": 9.891396790186424e-06,
+      "loss": 0.0,
+      "step": 380
+    },
+    {
+      "epoch": 0.1482316847651442,
+      "grad_norm": 0.0015924626495689154,
+      "learning_rate": 9.890077247162951e-06,
+      "loss": 0.0,
+      "step": 382
+    },
+    {
+      "epoch": 0.14900776688433345,
+      "grad_norm": 0.002123458543792367,
+      "learning_rate": 9.888749825250151e-06,
+      "loss": 0.0,
+      "step": 384
+    },
+    {
+      "epoch": 0.14978384900352268,
+      "grad_norm": 0.0028824363835155964,
+      "learning_rate": 9.887414526586764e-06,
+      "loss": 0.0,
+      "step": 386
+    },
+    {
+      "epoch": 0.15055993112271193,
+      "grad_norm": 0.002307540737092495,
+      "learning_rate": 9.886071353324223e-06,
+      "loss": 0.0,
+      "step": 388
+    },
+    {
+      "epoch": 0.15133601324190116,
+      "grad_norm": 0.0008634248515591025,
+      "learning_rate": 9.884720307626647e-06,
+      "loss": 0.0,
+      "step": 390
+    },
+    {
+      "epoch": 0.15211209536109038,
+      "grad_norm": 0.005232020281255245,
+      "learning_rate": 9.883361391670841e-06,
+      "loss": 0.0,
+      "step": 392
+    },
+    {
+      "epoch": 0.15288817748027964,
+      "grad_norm": 0.0016856775619089603,
+      "learning_rate": 9.881994607646288e-06,
+      "loss": 0.0,
+      "step": 394
+    },
+    {
+      "epoch": 0.15366425959946886,
+      "grad_norm": 0.07297682762145996,
+      "learning_rate": 9.880619957755151e-06,
+      "loss": 0.0002,
+      "step": 396
+    },
+    {
+      "epoch": 0.15444034171865811,
+      "grad_norm": 0.017098629847168922,
+      "learning_rate": 9.879237444212265e-06,
+      "loss": 0.0,
+      "step": 398
+    },
+    {
+      "epoch": 0.15521642383784734,
+      "grad_norm": 0.0019075347809121013,
+      "learning_rate": 9.877847069245134e-06,
+      "loss": 0.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.15521642383784734,
+      "eval_accuracy": 1.0,
+      "eval_loss": 6.299953383859247e-06,
+      "eval_runtime": 127.1041,
+      "eval_samples_per_second": 39.338,
+      "eval_steps_per_second": 9.834,
+      "step": 400
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 5000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 40,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.902886523894497e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1a910710b31f99b947273772abd52b7aad579803a1185a4498ccc66e82ef7a0
+size 6161

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff