Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

.gitattributes +1 -0
added_tokens.json +28 -0
chat_template.jinja +89 -0
config.json +60 -0
generation_config.json +12 -0
merges.txt +0 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +25 -0
tokenizer.json +3 -0
tokenizer_config.json +239 -0
trainer_state.json +1890 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,89 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 28,
+  "model_type": "qwen3",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 8,
+  "pad_token_id": 151645,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "transformers_version": "4.57.3",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151669
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151645,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.57.3"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da0a12eb3ad86c86c0b09b30112c5072c1c5ceeb9631e6ba89e4599eef8dc346
+size 1191588280

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8472912f4fa3feeff5ee907deae55c921053351e7a7f6b36d8882b8237703e1
+size 3628043

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef9acad5dfe6355012be16c2854f2d692974d86e83413f9cfdf1067fc122d44c
+size 14645

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6a531435eae04e8235804d04df93951cd9b6b4b80afa9c7e68f2ff2d1734526
+size 1465

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|im_end|>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,239 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|im_end|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1890 @@

+{
+  "best_global_step": 1995,
+  "best_metric": 0.13476963341236115,
+  "best_model_checkpoint": "models/qwen3-0.6b-distilled/checkpoint-1995",
+  "epoch": 1.8805090737685601,
+  "eval_steps": 35,
+  "global_step": 1995,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0009427292010370022,
+      "grad_norm": 38.25,
+      "learning_rate": 0.0,
+      "loss": 1.0185,
+      "step": 1
+    },
+    {
+      "epoch": 0.009427292010370021,
+      "grad_norm": 27.125,
+      "learning_rate": 1.8000000000000001e-06,
+      "loss": 0.8484,
+      "step": 10
+    },
+    {
+      "epoch": 0.018854584020740042,
+      "grad_norm": 12.1875,
+      "learning_rate": 3.8000000000000005e-06,
+      "loss": 0.6648,
+      "step": 20
+    },
+    {
+      "epoch": 0.028281876031110063,
+      "grad_norm": 15.5,
+      "learning_rate": 5.8e-06,
+      "loss": 0.4851,
+      "step": 30
+    },
+    {
+      "epoch": 0.03299552203629508,
+      "eval_loss": 0.31027188897132874,
+      "eval_runtime": 3.3754,
+      "eval_samples_per_second": 12.739,
+      "eval_steps_per_second": 12.739,
+      "step": 35
+    },
+    {
+      "epoch": 0.037709168041480084,
+      "grad_norm": 10.75,
+      "learning_rate": 7.800000000000002e-06,
+      "loss": 0.4117,
+      "step": 40
+    },
+    {
+      "epoch": 0.047136460051850106,
+      "grad_norm": 9.4375,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.2625,
+      "step": 50
+    },
+    {
+      "epoch": 0.05656375206222013,
+      "grad_norm": 9.5625,
+      "learning_rate": 1.18e-05,
+      "loss": 0.2868,
+      "step": 60
+    },
+    {
+      "epoch": 0.06599104407259015,
+      "grad_norm": 10.625,
+      "learning_rate": 1.38e-05,
+      "loss": 0.2278,
+      "step": 70
+    },
+    {
+      "epoch": 0.06599104407259015,
+      "eval_loss": 0.22450809180736542,
+      "eval_runtime": 3.3497,
+      "eval_samples_per_second": 12.837,
+      "eval_steps_per_second": 12.837,
+      "step": 70
+    },
+    {
+      "epoch": 0.07541833608296017,
+      "grad_norm": 7.75,
+      "learning_rate": 1.58e-05,
+      "loss": 0.2753,
+      "step": 80
+    },
+    {
+      "epoch": 0.0848456280933302,
+      "grad_norm": 7.5625,
+      "learning_rate": 1.7800000000000002e-05,
+      "loss": 0.2747,
+      "step": 90
+    },
+    {
+      "epoch": 0.09427292010370021,
+      "grad_norm": 6.6875,
+      "learning_rate": 1.98e-05,
+      "loss": 0.2809,
+      "step": 100
+    },
+    {
+      "epoch": 0.09898656610888522,
+      "eval_loss": 0.21436083316802979,
+      "eval_runtime": 3.3464,
+      "eval_samples_per_second": 12.85,
+      "eval_steps_per_second": 12.85,
+      "step": 105
+    },
+    {
+      "epoch": 0.10370021211407024,
+      "grad_norm": 7.125,
+      "learning_rate": 1.991097922848665e-05,
+      "loss": 0.2175,
+      "step": 110
+    },
+    {
+      "epoch": 0.11312750412444025,
+      "grad_norm": 7.28125,
+      "learning_rate": 1.9812067260138478e-05,
+      "loss": 0.2321,
+      "step": 120
+    },
+    {
+      "epoch": 0.12255479613481028,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.971315529179031e-05,
+      "loss": 0.1813,
+      "step": 130
+    },
+    {
+      "epoch": 0.1319820881451803,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.9614243323442137e-05,
+      "loss": 0.1908,
+      "step": 140
+    },
+    {
+      "epoch": 0.1319820881451803,
+      "eval_loss": 0.19741062819957733,
+      "eval_runtime": 2.8143,
+      "eval_samples_per_second": 15.279,
+      "eval_steps_per_second": 15.279,
+      "step": 140
+    },
+    {
+      "epoch": 0.14140938015555032,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.9515331355093966e-05,
+      "loss": 0.2125,
+      "step": 150
+    },
+    {
+      "epoch": 0.15083667216592034,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.94164193867458e-05,
+      "loss": 0.2225,
+      "step": 160
+    },
+    {
+      "epoch": 0.16026396417629035,
+      "grad_norm": 6.375,
+      "learning_rate": 1.931750741839763e-05,
+      "loss": 0.2087,
+      "step": 170
+    },
+    {
+      "epoch": 0.16497761018147536,
+      "eval_loss": 0.2068619579076767,
+      "eval_runtime": 2.8432,
+      "eval_samples_per_second": 15.124,
+      "eval_steps_per_second": 15.124,
+      "step": 175
+    },
+    {
+      "epoch": 0.1696912561866604,
+      "grad_norm": 7.1875,
+      "learning_rate": 1.9218595450049458e-05,
+      "loss": 0.185,
+      "step": 180
+    },
+    {
+      "epoch": 0.1791185481970304,
+      "grad_norm": 6.78125,
+      "learning_rate": 1.9119683481701287e-05,
+      "loss": 0.1982,
+      "step": 190
+    },
+    {
+      "epoch": 0.18854584020740042,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.9020771513353117e-05,
+      "loss": 0.2325,
+      "step": 200
+    },
+    {
+      "epoch": 0.19797313221777044,
+      "grad_norm": 9.0,
+      "learning_rate": 1.892185954500495e-05,
+      "loss": 0.1901,
+      "step": 210
+    },
+    {
+      "epoch": 0.19797313221777044,
+      "eval_loss": 0.18724432587623596,
+      "eval_runtime": 2.7949,
+      "eval_samples_per_second": 15.385,
+      "eval_steps_per_second": 15.385,
+      "step": 210
+    },
+    {
+      "epoch": 0.20740042422814048,
+      "grad_norm": 8.9375,
+      "learning_rate": 1.8822947576656775e-05,
+      "loss": 0.2276,
+      "step": 220
+    },
+    {
+      "epoch": 0.2168277162385105,
+      "grad_norm": 6.25,
+      "learning_rate": 1.8724035608308605e-05,
+      "loss": 0.1917,
+      "step": 230
+    },
+    {
+      "epoch": 0.2262550082488805,
+      "grad_norm": 6.34375,
+      "learning_rate": 1.8625123639960438e-05,
+      "loss": 0.1856,
+      "step": 240
+    },
+    {
+      "epoch": 0.23096865425406551,
+      "eval_loss": 0.17589253187179565,
+      "eval_runtime": 2.8142,
+      "eval_samples_per_second": 15.28,
+      "eval_steps_per_second": 15.28,
+      "step": 245
+    },
+    {
+      "epoch": 0.23568230025925052,
+      "grad_norm": 7.0625,
+      "learning_rate": 1.8526211671612267e-05,
+      "loss": 0.1666,
+      "step": 250
+    },
+    {
+      "epoch": 0.24510959226962056,
+      "grad_norm": 7.40625,
+      "learning_rate": 1.8427299703264096e-05,
+      "loss": 0.2121,
+      "step": 260
+    },
+    {
+      "epoch": 0.25453688427999055,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.8328387734915926e-05,
+      "loss": 0.2028,
+      "step": 270
+    },
+    {
+      "epoch": 0.2639641762903606,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.8229475766567755e-05,
+      "loss": 0.1484,
+      "step": 280
+    },
+    {
+      "epoch": 0.2639641762903606,
+      "eval_loss": 0.19002647697925568,
+      "eval_runtime": 2.8169,
+      "eval_samples_per_second": 15.265,
+      "eval_steps_per_second": 15.265,
+      "step": 280
+    },
+    {
+      "epoch": 0.27339146830073063,
+      "grad_norm": 4.71875,
+      "learning_rate": 1.8130563798219588e-05,
+      "loss": 0.1817,
+      "step": 290
+    },
+    {
+      "epoch": 0.28281876031110065,
+      "grad_norm": 6.78125,
+      "learning_rate": 1.8031651829871414e-05,
+      "loss": 0.2572,
+      "step": 300
+    },
+    {
+      "epoch": 0.29224605232147066,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.7932739861523244e-05,
+      "loss": 0.1882,
+      "step": 310
+    },
+    {
+      "epoch": 0.29695969832665564,
+      "eval_loss": 0.16693313419818878,
+      "eval_runtime": 2.8909,
+      "eval_samples_per_second": 14.874,
+      "eval_steps_per_second": 14.874,
+      "step": 315
+    },
+    {
+      "epoch": 0.3016733443318407,
+      "grad_norm": 8.875,
+      "learning_rate": 1.7833827893175076e-05,
+      "loss": 0.2174,
+      "step": 320
+    },
+    {
+      "epoch": 0.3111006363422107,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.7734915924826906e-05,
+      "loss": 0.1945,
+      "step": 330
+    },
+    {
+      "epoch": 0.3205279283525807,
+      "grad_norm": 8.8125,
+      "learning_rate": 1.7636003956478735e-05,
+      "loss": 0.197,
+      "step": 340
+    },
+    {
+      "epoch": 0.3299552203629507,
+      "grad_norm": 8.8125,
+      "learning_rate": 1.7537091988130565e-05,
+      "loss": 0.169,
+      "step": 350
+    },
+    {
+      "epoch": 0.3299552203629507,
+      "eval_loss": 0.16657419502735138,
+      "eval_runtime": 2.8397,
+      "eval_samples_per_second": 15.143,
+      "eval_steps_per_second": 15.143,
+      "step": 350
+    },
+    {
+      "epoch": 0.3393825123733208,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.7438180019782397e-05,
+      "loss": 0.1996,
+      "step": 360
+    },
+    {
+      "epoch": 0.3488098043836908,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.7339268051434227e-05,
+      "loss": 0.1717,
+      "step": 370
+    },
+    {
+      "epoch": 0.3582370963940608,
+      "grad_norm": 4.5,
+      "learning_rate": 1.7240356083086053e-05,
+      "loss": 0.1714,
+      "step": 380
+    },
+    {
+      "epoch": 0.3629507423992458,
+      "eval_loss": 0.16206760704517365,
+      "eval_runtime": 2.8698,
+      "eval_samples_per_second": 14.984,
+      "eval_steps_per_second": 14.984,
+      "step": 385
+    },
+    {
+      "epoch": 0.36766438840443083,
+      "grad_norm": 7.0,
+      "learning_rate": 1.7141444114737886e-05,
+      "loss": 0.1849,
+      "step": 390
+    },
+    {
+      "epoch": 0.37709168041480084,
+      "grad_norm": 10.75,
+      "learning_rate": 1.7042532146389715e-05,
+      "loss": 0.2017,
+      "step": 400
+    },
+    {
+      "epoch": 0.38651897242517086,
+      "grad_norm": 7.125,
+      "learning_rate": 1.6943620178041544e-05,
+      "loss": 0.1925,
+      "step": 410
+    },
+    {
+      "epoch": 0.3959462644355409,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.6844708209693374e-05,
+      "loss": 0.1611,
+      "step": 420
+    },
+    {
+      "epoch": 0.3959462644355409,
+      "eval_loss": 0.1687425971031189,
+      "eval_runtime": 2.8778,
+      "eval_samples_per_second": 14.942,
+      "eval_steps_per_second": 14.942,
+      "step": 420
+    },
+    {
+      "epoch": 0.4053735564459109,
+      "grad_norm": 3.453125,
+      "learning_rate": 1.6745796241345203e-05,
+      "loss": 0.1983,
+      "step": 430
+    },
+    {
+      "epoch": 0.41480084845628096,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.6646884272997036e-05,
+      "loss": 0.1961,
+      "step": 440
+    },
+    {
+      "epoch": 0.42422814046665097,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.6547972304648865e-05,
+      "loss": 0.1952,
+      "step": 450
+    },
+    {
+      "epoch": 0.42894178647183595,
+      "eval_loss": 0.15973812341690063,
+      "eval_runtime": 2.8233,
+      "eval_samples_per_second": 15.23,
+      "eval_steps_per_second": 15.23,
+      "step": 455
+    },
+    {
+      "epoch": 0.433655432477021,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.644906033630069e-05,
+      "loss": 0.1782,
+      "step": 460
+    },
+    {
+      "epoch": 0.443082724487391,
+      "grad_norm": 5.375,
+      "learning_rate": 1.6350148367952524e-05,
+      "loss": 0.1463,
+      "step": 470
+    },
+    {
+      "epoch": 0.452510016497761,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.6251236399604354e-05,
+      "loss": 0.1774,
+      "step": 480
+    },
+    {
+      "epoch": 0.46193730850813103,
+      "grad_norm": 3.734375,
+      "learning_rate": 1.6152324431256183e-05,
+      "loss": 0.1956,
+      "step": 490
+    },
+    {
+      "epoch": 0.46193730850813103,
+      "eval_loss": 0.1619725376367569,
+      "eval_runtime": 2.8042,
+      "eval_samples_per_second": 15.334,
+      "eval_steps_per_second": 15.334,
+      "step": 490
+    },
+    {
+      "epoch": 0.47136460051850104,
+      "grad_norm": 6.75,
+      "learning_rate": 1.6053412462908013e-05,
+      "loss": 0.1327,
+      "step": 500
+    },
+    {
+      "epoch": 0.48079189252887106,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.5954500494559842e-05,
+      "loss": 0.1798,
+      "step": 510
+    },
+    {
+      "epoch": 0.4902191845392411,
+      "grad_norm": 6.875,
+      "learning_rate": 1.5855588526211675e-05,
+      "loss": 0.18,
+      "step": 520
+    },
+    {
+      "epoch": 0.4949328305444261,
+      "eval_loss": 0.15706923604011536,
+      "eval_runtime": 2.8106,
+      "eval_samples_per_second": 15.299,
+      "eval_steps_per_second": 15.299,
+      "step": 525
+    },
+    {
+      "epoch": 0.49964647654961114,
+      "grad_norm": 5.25,
+      "learning_rate": 1.57566765578635e-05,
+      "loss": 0.1886,
+      "step": 530
+    },
+    {
+      "epoch": 0.5090737685599811,
+      "grad_norm": 4.46875,
+      "learning_rate": 1.565776458951533e-05,
+      "loss": 0.2052,
+      "step": 540
+    },
+    {
+      "epoch": 0.5185010605703512,
+      "grad_norm": 2.640625,
+      "learning_rate": 1.5558852621167163e-05,
+      "loss": 0.1506,
+      "step": 550
+    },
+    {
+      "epoch": 0.5279283525807212,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.5459940652818992e-05,
+      "loss": 0.2149,
+      "step": 560
+    },
+    {
+      "epoch": 0.5279283525807212,
+      "eval_loss": 0.15407335758209229,
+      "eval_runtime": 2.9014,
+      "eval_samples_per_second": 14.821,
+      "eval_steps_per_second": 14.821,
+      "step": 560
+    },
+    {
+      "epoch": 0.5373556445910912,
+      "grad_norm": 4.28125,
+      "learning_rate": 1.5361028684470822e-05,
+      "loss": 0.1745,
+      "step": 570
+    },
+    {
+      "epoch": 0.5467829366014613,
+      "grad_norm": 4.625,
+      "learning_rate": 1.526211671612265e-05,
+      "loss": 0.1382,
+      "step": 580
+    },
+    {
+      "epoch": 0.5562102286118312,
+      "grad_norm": 7.5625,
+      "learning_rate": 1.5163204747774482e-05,
+      "loss": 0.1739,
+      "step": 590
+    },
+    {
+      "epoch": 0.5609238746170163,
+      "eval_loss": 0.15476632118225098,
+      "eval_runtime": 3.4281,
+      "eval_samples_per_second": 12.543,
+      "eval_steps_per_second": 12.543,
+      "step": 595
+    },
+    {
+      "epoch": 0.5656375206222013,
+      "grad_norm": 3.21875,
+      "learning_rate": 1.5064292779426313e-05,
+      "loss": 0.1492,
+      "step": 600
+    },
+    {
+      "epoch": 0.5750648126325713,
+      "grad_norm": 6.8125,
+      "learning_rate": 1.4965380811078141e-05,
+      "loss": 0.1487,
+      "step": 610
+    },
+    {
+      "epoch": 0.5844921046429413,
+      "grad_norm": 7.375,
+      "learning_rate": 1.486646884272997e-05,
+      "loss": 0.2154,
+      "step": 620
+    },
+    {
+      "epoch": 0.5939193966533113,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.4767556874381802e-05,
+      "loss": 0.1679,
+      "step": 630
+    },
+    {
+      "epoch": 0.5939193966533113,
+      "eval_loss": 0.15013353526592255,
+      "eval_runtime": 2.7977,
+      "eval_samples_per_second": 15.37,
+      "eval_steps_per_second": 15.37,
+      "step": 630
+    },
+    {
+      "epoch": 0.6033466886636814,
+      "grad_norm": 6.96875,
+      "learning_rate": 1.4668644906033631e-05,
+      "loss": 0.182,
+      "step": 640
+    },
+    {
+      "epoch": 0.6127739806740514,
+      "grad_norm": 4.46875,
+      "learning_rate": 1.456973293768546e-05,
+      "loss": 0.1666,
+      "step": 650
+    },
+    {
+      "epoch": 0.6222012726844214,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.4470820969337292e-05,
+      "loss": 0.1241,
+      "step": 660
+    },
+    {
+      "epoch": 0.6269149186896064,
+      "eval_loss": 0.1542421579360962,
+      "eval_runtime": 2.8955,
+      "eval_samples_per_second": 14.85,
+      "eval_steps_per_second": 14.85,
+      "step": 665
+    },
+    {
+      "epoch": 0.6316285646947915,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.4371909000989121e-05,
+      "loss": 0.1584,
+      "step": 670
+    },
+    {
+      "epoch": 0.6410558567051614,
+      "grad_norm": 5.375,
+      "learning_rate": 1.4272997032640952e-05,
+      "loss": 0.1627,
+      "step": 680
+    },
+    {
+      "epoch": 0.6504831487155315,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.417408506429278e-05,
+      "loss": 0.1207,
+      "step": 690
+    },
+    {
+      "epoch": 0.6599104407259014,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.407517309594461e-05,
+      "loss": 0.2057,
+      "step": 700
+    },
+    {
+      "epoch": 0.6599104407259014,
+      "eval_loss": 0.15335653722286224,
+      "eval_runtime": 2.8317,
+      "eval_samples_per_second": 15.185,
+      "eval_steps_per_second": 15.185,
+      "step": 700
+    },
+    {
+      "epoch": 0.6693377327362715,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.397626112759644e-05,
+      "loss": 0.1882,
+      "step": 710
+    },
+    {
+      "epoch": 0.6787650247466416,
+      "grad_norm": 9.5,
+      "learning_rate": 1.387734915924827e-05,
+      "loss": 0.1758,
+      "step": 720
+    },
+    {
+      "epoch": 0.6881923167570115,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.3778437190900101e-05,
+      "loss": 0.1939,
+      "step": 730
+    },
+    {
+      "epoch": 0.6929059627621965,
+      "eval_loss": 0.15230855345726013,
+      "eval_runtime": 3.345,
+      "eval_samples_per_second": 12.855,
+      "eval_steps_per_second": 12.855,
+      "step": 735
+    },
+    {
+      "epoch": 0.6976196087673816,
+      "grad_norm": 4.71875,
+      "learning_rate": 1.367952522255193e-05,
+      "loss": 0.1548,
+      "step": 740
+    },
+    {
+      "epoch": 0.7070469007777516,
+      "grad_norm": 3.90625,
+      "learning_rate": 1.358061325420376e-05,
+      "loss": 0.1724,
+      "step": 750
+    },
+    {
+      "epoch": 0.7164741927881216,
+      "grad_norm": 5.125,
+      "learning_rate": 1.3481701285855591e-05,
+      "loss": 0.2,
+      "step": 760
+    },
+    {
+      "epoch": 0.7259014847984916,
+      "grad_norm": 3.296875,
+      "learning_rate": 1.3382789317507419e-05,
+      "loss": 0.1707,
+      "step": 770
+    },
+    {
+      "epoch": 0.7259014847984916,
+      "eval_loss": 0.14677099883556366,
+      "eval_runtime": 2.9348,
+      "eval_samples_per_second": 14.652,
+      "eval_steps_per_second": 14.652,
+      "step": 770
+    },
+    {
+      "epoch": 0.7353287768088617,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.3283877349159248e-05,
+      "loss": 0.1631,
+      "step": 780
+    },
+    {
+      "epoch": 0.7447560688192316,
+      "grad_norm": 7.6875,
+      "learning_rate": 1.3184965380811079e-05,
+      "loss": 0.1723,
+      "step": 790
+    },
+    {
+      "epoch": 0.7541833608296017,
+      "grad_norm": 8.25,
+      "learning_rate": 1.3086053412462909e-05,
+      "loss": 0.1526,
+      "step": 800
+    },
+    {
+      "epoch": 0.7588970068347867,
+      "eval_loss": 0.14969274401664734,
+      "eval_runtime": 2.8149,
+      "eval_samples_per_second": 15.276,
+      "eval_steps_per_second": 15.276,
+      "step": 805
+    },
+    {
+      "epoch": 0.7636106528399718,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.298714144411474e-05,
+      "loss": 0.1505,
+      "step": 810
+    },
+    {
+      "epoch": 0.7730379448503417,
+      "grad_norm": 3.984375,
+      "learning_rate": 1.2888229475766569e-05,
+      "loss": 0.1657,
+      "step": 820
+    },
+    {
+      "epoch": 0.7824652368607118,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.27893175074184e-05,
+      "loss": 0.1558,
+      "step": 830
+    },
+    {
+      "epoch": 0.7918925288710817,
+      "grad_norm": 5.875,
+      "learning_rate": 1.2690405539070228e-05,
+      "loss": 0.1449,
+      "step": 840
+    },
+    {
+      "epoch": 0.7918925288710817,
+      "eval_loss": 0.147576704621315,
+      "eval_runtime": 2.8182,
+      "eval_samples_per_second": 15.258,
+      "eval_steps_per_second": 15.258,
+      "step": 840
+    },
+    {
+      "epoch": 0.8013198208814518,
+      "grad_norm": 7.84375,
+      "learning_rate": 1.2591493570722057e-05,
+      "loss": 0.178,
+      "step": 850
+    },
+    {
+      "epoch": 0.8107471128918218,
+      "grad_norm": 6.28125,
+      "learning_rate": 1.2492581602373888e-05,
+      "loss": 0.172,
+      "step": 860
+    },
+    {
+      "epoch": 0.8201744049021918,
+      "grad_norm": 4.625,
+      "learning_rate": 1.2393669634025718e-05,
+      "loss": 0.1812,
+      "step": 870
+    },
+    {
+      "epoch": 0.8248880509073768,
+      "eval_loss": 0.14615514874458313,
+      "eval_runtime": 2.8438,
+      "eval_samples_per_second": 15.12,
+      "eval_steps_per_second": 15.12,
+      "step": 875
+    },
+    {
+      "epoch": 0.8296016969125619,
+      "grad_norm": 4.53125,
+      "learning_rate": 1.2294757665677547e-05,
+      "loss": 0.1366,
+      "step": 880
+    },
+    {
+      "epoch": 0.8390289889229319,
+      "grad_norm": 2.265625,
+      "learning_rate": 1.2195845697329378e-05,
+      "loss": 0.1517,
+      "step": 890
+    },
+    {
+      "epoch": 0.8484562809333019,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.2096933728981208e-05,
+      "loss": 0.1838,
+      "step": 900
+    },
+    {
+      "epoch": 0.8578835729436719,
+      "grad_norm": 4.375,
+      "learning_rate": 1.1998021760633039e-05,
+      "loss": 0.1513,
+      "step": 910
+    },
+    {
+      "epoch": 0.8578835729436719,
+      "eval_loss": 0.1435091495513916,
+      "eval_runtime": 2.8827,
+      "eval_samples_per_second": 14.917,
+      "eval_steps_per_second": 14.917,
+      "step": 910
+    },
+    {
+      "epoch": 0.867310864954042,
+      "grad_norm": 9.5,
+      "learning_rate": 1.1899109792284867e-05,
+      "loss": 0.1824,
+      "step": 920
+    },
+    {
+      "epoch": 0.8767381569644119,
+      "grad_norm": 4.125,
+      "learning_rate": 1.1800197823936696e-05,
+      "loss": 0.1749,
+      "step": 930
+    },
+    {
+      "epoch": 0.886165448974782,
+      "grad_norm": 1.546875,
+      "learning_rate": 1.1701285855588527e-05,
+      "loss": 0.1428,
+      "step": 940
+    },
+    {
+      "epoch": 0.890879094979967,
+      "eval_loss": 0.14254696667194366,
+      "eval_runtime": 3.4673,
+      "eval_samples_per_second": 12.401,
+      "eval_steps_per_second": 12.401,
+      "step": 945
+    },
+    {
+      "epoch": 0.8955927409851521,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.1602373887240357e-05,
+      "loss": 0.1886,
+      "step": 950
+    },
+    {
+      "epoch": 0.905020032995522,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.1503461918892188e-05,
+      "loss": 0.1705,
+      "step": 960
+    },
+    {
+      "epoch": 0.9144473250058921,
+      "grad_norm": 3.625,
+      "learning_rate": 1.1404549950544017e-05,
+      "loss": 0.1538,
+      "step": 970
+    },
+    {
+      "epoch": 0.9238746170162621,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.1305637982195846e-05,
+      "loss": 0.1268,
+      "step": 980
+    },
+    {
+      "epoch": 0.9238746170162621,
+      "eval_loss": 0.1375056654214859,
+      "eval_runtime": 3.3962,
+      "eval_samples_per_second": 12.661,
+      "eval_steps_per_second": 12.661,
+      "step": 980
+    },
+    {
+      "epoch": 0.9333019090266321,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.1206726013847678e-05,
+      "loss": 0.1882,
+      "step": 990
+    },
+    {
+      "epoch": 0.9427292010370021,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.1107814045499505e-05,
+      "loss": 0.1376,
+      "step": 1000
+    },
+    {
+      "epoch": 0.9521564930473722,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.1008902077151335e-05,
+      "loss": 0.1451,
+      "step": 1010
+    },
+    {
+      "epoch": 0.9568701390525571,
+      "eval_loss": 0.13927814364433289,
+      "eval_runtime": 2.8779,
+      "eval_samples_per_second": 14.941,
+      "eval_steps_per_second": 14.941,
+      "step": 1015
+    },
+    {
+      "epoch": 0.9615837850577421,
+      "grad_norm": 4.53125,
+      "learning_rate": 1.0909990108803166e-05,
+      "loss": 0.1524,
+      "step": 1020
+    },
+    {
+      "epoch": 0.9710110770681122,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.0811078140454995e-05,
+      "loss": 0.1846,
+      "step": 1030
+    },
+    {
+      "epoch": 0.9804383690784823,
+      "grad_norm": 4.625,
+      "learning_rate": 1.0712166172106826e-05,
+      "loss": 0.1485,
+      "step": 1040
+    },
+    {
+      "epoch": 0.9898656610888522,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.0613254203758656e-05,
+      "loss": 0.139,
+      "step": 1050
+    },
+    {
+      "epoch": 0.9898656610888522,
+      "eval_loss": 0.13826079666614532,
+      "eval_runtime": 2.8595,
+      "eval_samples_per_second": 15.038,
+      "eval_steps_per_second": 15.038,
+      "step": 1050
+    },
+    {
+      "epoch": 0.9992929530992223,
+      "grad_norm": 3.8125,
+      "learning_rate": 1.0514342235410487e-05,
+      "loss": 0.1477,
+      "step": 1060
+    },
+    {
+      "epoch": 1.008484562809333,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.0415430267062316e-05,
+      "loss": 0.081,
+      "step": 1070
+    },
+    {
+      "epoch": 1.017911854819703,
+      "grad_norm": 3.015625,
+      "learning_rate": 1.0316518298714144e-05,
+      "loss": 0.091,
+      "step": 1080
+    },
+    {
+      "epoch": 1.0226255008248881,
+      "eval_loss": 0.14206524193286896,
+      "eval_runtime": 2.8042,
+      "eval_samples_per_second": 15.334,
+      "eval_steps_per_second": 15.334,
+      "step": 1085
+    },
+    {
+      "epoch": 1.027339146830073,
+      "grad_norm": 3.484375,
+      "learning_rate": 1.0217606330365975e-05,
+      "loss": 0.085,
+      "step": 1090
+    },
+    {
+      "epoch": 1.0367664388404432,
+      "grad_norm": 3.546875,
+      "learning_rate": 1.0118694362017805e-05,
+      "loss": 0.0864,
+      "step": 1100
+    },
+    {
+      "epoch": 1.0461937308508131,
+      "grad_norm": 2.515625,
+      "learning_rate": 1.0019782393669636e-05,
+      "loss": 0.087,
+      "step": 1110
+    },
+    {
+      "epoch": 1.055621022861183,
+      "grad_norm": 3.25,
+      "learning_rate": 9.920870425321465e-06,
+      "loss": 0.0774,
+      "step": 1120
+    },
+    {
+      "epoch": 1.055621022861183,
+      "eval_loss": 0.14084650576114655,
+      "eval_runtime": 2.8547,
+      "eval_samples_per_second": 15.063,
+      "eval_steps_per_second": 15.063,
+      "step": 1120
+    },
+    {
+      "epoch": 1.065048314871553,
+      "grad_norm": 2.46875,
+      "learning_rate": 9.821958456973294e-06,
+      "loss": 0.0486,
+      "step": 1130
+    },
+    {
+      "epoch": 1.0744756068819232,
+      "grad_norm": 4.03125,
+      "learning_rate": 9.723046488625124e-06,
+      "loss": 0.0773,
+      "step": 1140
+    },
+    {
+      "epoch": 1.0839028988922932,
+      "grad_norm": 8.6875,
+      "learning_rate": 9.624134520276955e-06,
+      "loss": 0.1005,
+      "step": 1150
+    },
+    {
+      "epoch": 1.0886165448974783,
+      "eval_loss": 0.143312469124794,
+      "eval_runtime": 2.7849,
+      "eval_samples_per_second": 15.44,
+      "eval_steps_per_second": 15.44,
+      "step": 1155
+    },
+    {
+      "epoch": 1.0933301909026631,
+      "grad_norm": 2.8125,
+      "learning_rate": 9.525222551928784e-06,
+      "loss": 0.071,
+      "step": 1160
+    },
+    {
+      "epoch": 1.1027574829130333,
+      "grad_norm": 7.8125,
+      "learning_rate": 9.426310583580614e-06,
+      "loss": 0.0725,
+      "step": 1170
+    },
+    {
+      "epoch": 1.1121847749234033,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.327398615232443e-06,
+      "loss": 0.081,
+      "step": 1180
+    },
+    {
+      "epoch": 1.1216120669337732,
+      "grad_norm": 3.046875,
+      "learning_rate": 9.228486646884274e-06,
+      "loss": 0.0751,
+      "step": 1190
+    },
+    {
+      "epoch": 1.1216120669337732,
+      "eval_loss": 0.14267787337303162,
+      "eval_runtime": 2.9041,
+      "eval_samples_per_second": 14.807,
+      "eval_steps_per_second": 14.807,
+      "step": 1190
+    },
+    {
+      "epoch": 1.1310393589441432,
+      "grad_norm": 3.390625,
+      "learning_rate": 9.129574678536104e-06,
+      "loss": 0.0721,
+      "step": 1200
+    },
+    {
+      "epoch": 1.1404666509545134,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.030662710187933e-06,
+      "loss": 0.0784,
+      "step": 1210
+    },
+    {
+      "epoch": 1.1498939429648833,
+      "grad_norm": 4.03125,
+      "learning_rate": 8.931750741839763e-06,
+      "loss": 0.0764,
+      "step": 1220
+    },
+    {
+      "epoch": 1.1546075889700684,
+      "eval_loss": 0.14501504600048065,
+      "eval_runtime": 2.8486,
+      "eval_samples_per_second": 15.095,
+      "eval_steps_per_second": 15.095,
+      "step": 1225
+    },
+    {
+      "epoch": 1.1593212349752533,
+      "grad_norm": 3.015625,
+      "learning_rate": 8.832838773491594e-06,
+      "loss": 0.0879,
+      "step": 1230
+    },
+    {
+      "epoch": 1.1687485269856235,
+      "grad_norm": 2.8125,
+      "learning_rate": 8.733926805143423e-06,
+      "loss": 0.08,
+      "step": 1240
+    },
+    {
+      "epoch": 1.1781758189959934,
+      "grad_norm": 3.984375,
+      "learning_rate": 8.635014836795252e-06,
+      "loss": 0.1068,
+      "step": 1250
+    },
+    {
+      "epoch": 1.1876031110063634,
+      "grad_norm": 2.96875,
+      "learning_rate": 8.536102868447082e-06,
+      "loss": 0.078,
+      "step": 1260
+    },
+    {
+      "epoch": 1.1876031110063634,
+      "eval_loss": 0.1404484212398529,
+      "eval_runtime": 2.8927,
+      "eval_samples_per_second": 14.865,
+      "eval_steps_per_second": 14.865,
+      "step": 1260
+    },
+    {
+      "epoch": 1.1970304030167334,
+      "grad_norm": 3.890625,
+      "learning_rate": 8.437190900098913e-06,
+      "loss": 0.1019,
+      "step": 1270
+    },
+    {
+      "epoch": 1.2064576950271035,
+      "grad_norm": 6.25,
+      "learning_rate": 8.338278931750742e-06,
+      "loss": 0.09,
+      "step": 1280
+    },
+    {
+      "epoch": 1.2158849870374735,
+      "grad_norm": 4.40625,
+      "learning_rate": 8.239366963402572e-06,
+      "loss": 0.0552,
+      "step": 1290
+    },
+    {
+      "epoch": 1.2205986330426586,
+      "eval_loss": 0.14131127297878265,
+      "eval_runtime": 2.8819,
+      "eval_samples_per_second": 14.921,
+      "eval_steps_per_second": 14.921,
+      "step": 1295
+    },
+    {
+      "epoch": 1.2253122790478435,
+      "grad_norm": 3.515625,
+      "learning_rate": 8.140454995054401e-06,
+      "loss": 0.0674,
+      "step": 1300
+    },
+    {
+      "epoch": 1.2347395710582134,
+      "grad_norm": 2.59375,
+      "learning_rate": 8.041543026706232e-06,
+      "loss": 0.1002,
+      "step": 1310
+    },
+    {
+      "epoch": 1.2441668630685836,
+      "grad_norm": 3.59375,
+      "learning_rate": 7.942631058358062e-06,
+      "loss": 0.0711,
+      "step": 1320
+    },
+    {
+      "epoch": 1.2535941550789536,
+      "grad_norm": 2.625,
+      "learning_rate": 7.843719090009891e-06,
+      "loss": 0.0699,
+      "step": 1330
+    },
+    {
+      "epoch": 1.2535941550789536,
+      "eval_loss": 0.1402900665998459,
+      "eval_runtime": 2.914,
+      "eval_samples_per_second": 14.756,
+      "eval_steps_per_second": 14.756,
+      "step": 1330
+    },
+    {
+      "epoch": 1.2630214470893235,
+      "grad_norm": 3.328125,
+      "learning_rate": 7.744807121661722e-06,
+      "loss": 0.0965,
+      "step": 1340
+    },
+    {
+      "epoch": 1.2724487390996937,
+      "grad_norm": 2.265625,
+      "learning_rate": 7.645895153313552e-06,
+      "loss": 0.078,
+      "step": 1350
+    },
+    {
+      "epoch": 1.2818760311100637,
+      "grad_norm": 3.953125,
+      "learning_rate": 7.546983184965382e-06,
+      "loss": 0.0937,
+      "step": 1360
+    },
+    {
+      "epoch": 1.2865896771152485,
+      "eval_loss": 0.13923154771327972,
+      "eval_runtime": 2.9339,
+      "eval_samples_per_second": 14.656,
+      "eval_steps_per_second": 14.656,
+      "step": 1365
+    },
+    {
+      "epoch": 1.2913033231204336,
+      "grad_norm": 7.21875,
+      "learning_rate": 7.4480712166172105e-06,
+      "loss": 0.0711,
+      "step": 1370
+    },
+    {
+      "epoch": 1.3007306151308038,
+      "grad_norm": 4.75,
+      "learning_rate": 7.349159248269041e-06,
+      "loss": 0.091,
+      "step": 1380
+    },
+    {
+      "epoch": 1.3101579071411737,
+      "grad_norm": 1.875,
+      "learning_rate": 7.250247279920871e-06,
+      "loss": 0.0494,
+      "step": 1390
+    },
+    {
+      "epoch": 1.3195851991515437,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.151335311572701e-06,
+      "loss": 0.1154,
+      "step": 1400
+    },
+    {
+      "epoch": 1.3195851991515437,
+      "eval_loss": 0.1399063766002655,
+      "eval_runtime": 2.8659,
+      "eval_samples_per_second": 15.004,
+      "eval_steps_per_second": 15.004,
+      "step": 1400
+    },
+    {
+      "epoch": 1.3290124911619137,
+      "grad_norm": 3.59375,
+      "learning_rate": 7.052423343224531e-06,
+      "loss": 0.0782,
+      "step": 1410
+    },
+    {
+      "epoch": 1.3384397831722836,
+      "grad_norm": 5.90625,
+      "learning_rate": 6.95351137487636e-06,
+      "loss": 0.0835,
+      "step": 1420
+    },
+    {
+      "epoch": 1.3478670751826538,
+      "grad_norm": 3.84375,
+      "learning_rate": 6.85459940652819e-06,
+      "loss": 0.0856,
+      "step": 1430
+    },
+    {
+      "epoch": 1.352580721187839,
+      "eval_loss": 0.1397552341222763,
+      "eval_runtime": 2.8888,
+      "eval_samples_per_second": 14.885,
+      "eval_steps_per_second": 14.885,
+      "step": 1435
+    },
+    {
+      "epoch": 1.3572943671930238,
+      "grad_norm": 2.625,
+      "learning_rate": 6.755687438180021e-06,
+      "loss": 0.049,
+      "step": 1440
+    },
+    {
+      "epoch": 1.3667216592033937,
+      "grad_norm": 3.828125,
+      "learning_rate": 6.65677546983185e-06,
+      "loss": 0.0605,
+      "step": 1450
+    },
+    {
+      "epoch": 1.376148951213764,
+      "grad_norm": 3.171875,
+      "learning_rate": 6.55786350148368e-06,
+      "loss": 0.1028,
+      "step": 1460
+    },
+    {
+      "epoch": 1.3855762432241339,
+      "grad_norm": 3.46875,
+      "learning_rate": 6.45895153313551e-06,
+      "loss": 0.0687,
+      "step": 1470
+    },
+    {
+      "epoch": 1.3855762432241339,
+      "eval_loss": 0.13968150317668915,
+      "eval_runtime": 3.3677,
+      "eval_samples_per_second": 12.769,
+      "eval_steps_per_second": 12.769,
+      "step": 1470
+    },
+    {
+      "epoch": 1.3950035352345038,
+      "grad_norm": 2.828125,
+      "learning_rate": 6.36003956478734e-06,
+      "loss": 0.078,
+      "step": 1480
+    },
+    {
+      "epoch": 1.404430827244874,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.2611275964391694e-06,
+      "loss": 0.0694,
+      "step": 1490
+    },
+    {
+      "epoch": 1.413858119255244,
+      "grad_norm": 3.140625,
+      "learning_rate": 6.162215628091e-06,
+      "loss": 0.127,
+      "step": 1500
+    },
+    {
+      "epoch": 1.4185717652604288,
+      "eval_loss": 0.1389547735452652,
+      "eval_runtime": 2.8823,
+      "eval_samples_per_second": 14.919,
+      "eval_steps_per_second": 14.919,
+      "step": 1505
+    },
+    {
+      "epoch": 1.423285411265614,
+      "grad_norm": 2.640625,
+      "learning_rate": 6.06330365974283e-06,
+      "loss": 0.0876,
+      "step": 1510
+    },
+    {
+      "epoch": 1.432712703275984,
+      "grad_norm": 3.96875,
+      "learning_rate": 5.964391691394659e-06,
+      "loss": 0.0789,
+      "step": 1520
+    },
+    {
+      "epoch": 1.442139995286354,
+      "grad_norm": 2.921875,
+      "learning_rate": 5.865479723046489e-06,
+      "loss": 0.0674,
+      "step": 1530
+    },
+    {
+      "epoch": 1.451567287296724,
+      "grad_norm": 3.265625,
+      "learning_rate": 5.766567754698319e-06,
+      "loss": 0.0845,
+      "step": 1540
+    },
+    {
+      "epoch": 1.451567287296724,
+      "eval_loss": 0.1385909616947174,
+      "eval_runtime": 2.9439,
+      "eval_samples_per_second": 14.606,
+      "eval_steps_per_second": 14.606,
+      "step": 1540
+    },
+    {
+      "epoch": 1.460994579307094,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.667655786350149e-06,
+      "loss": 0.0718,
+      "step": 1550
+    },
+    {
+      "epoch": 1.470421871317464,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.568743818001978e-06,
+      "loss": 0.0957,
+      "step": 1560
+    },
+    {
+      "epoch": 1.4798491633278341,
+      "grad_norm": 2.96875,
+      "learning_rate": 5.469831849653808e-06,
+      "loss": 0.0926,
+      "step": 1570
+    },
+    {
+      "epoch": 1.4845628093330192,
+      "eval_loss": 0.13625992834568024,
+      "eval_runtime": 3.3765,
+      "eval_samples_per_second": 12.735,
+      "eval_steps_per_second": 12.735,
+      "step": 1575
+    },
+    {
+      "epoch": 1.489276455338204,
+      "grad_norm": 3.9375,
+      "learning_rate": 5.370919881305638e-06,
+      "loss": 0.0724,
+      "step": 1580
+    },
+    {
+      "epoch": 1.498703747348574,
+      "grad_norm": 3.578125,
+      "learning_rate": 5.272007912957469e-06,
+      "loss": 0.0873,
+      "step": 1590
+    },
+    {
+      "epoch": 1.5081310393589442,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.173095944609297e-06,
+      "loss": 0.0958,
+      "step": 1600
+    },
+    {
+      "epoch": 1.5175583313693142,
+      "grad_norm": 3.40625,
+      "learning_rate": 5.0741839762611275e-06,
+      "loss": 0.0539,
+      "step": 1610
+    },
+    {
+      "epoch": 1.5175583313693142,
+      "eval_loss": 0.13553956151008606,
+      "eval_runtime": 3.4118,
+      "eval_samples_per_second": 12.603,
+      "eval_steps_per_second": 12.603,
+      "step": 1610
+    },
+    {
+      "epoch": 1.5269856233796841,
+      "grad_norm": 4.1875,
+      "learning_rate": 4.975272007912958e-06,
+      "loss": 0.0827,
+      "step": 1620
+    },
+    {
+      "epoch": 1.5364129153900543,
+      "grad_norm": 2.65625,
+      "learning_rate": 4.876360039564787e-06,
+      "loss": 0.0771,
+      "step": 1630
+    },
+    {
+      "epoch": 1.5458402074004243,
+      "grad_norm": 5.96875,
+      "learning_rate": 4.7774480712166174e-06,
+      "loss": 0.0769,
+      "step": 1640
+    },
+    {
+      "epoch": 1.5505538534056091,
+      "eval_loss": 0.1363365650177002,
+      "eval_runtime": 3.3765,
+      "eval_samples_per_second": 12.735,
+      "eval_steps_per_second": 12.735,
+      "step": 1645
+    },
+    {
+      "epoch": 1.5552674994107942,
+      "grad_norm": 4.65625,
+      "learning_rate": 4.678536102868448e-06,
+      "loss": 0.0897,
+      "step": 1650
+    },
+    {
+      "epoch": 1.5646947914211644,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.579624134520277e-06,
+      "loss": 0.0871,
+      "step": 1660
+    },
+    {
+      "epoch": 1.5741220834315341,
+      "grad_norm": 2.53125,
+      "learning_rate": 4.480712166172107e-06,
+      "loss": 0.0716,
+      "step": 1670
+    },
+    {
+      "epoch": 1.5835493754419043,
+      "grad_norm": 1.7265625,
+      "learning_rate": 4.381800197823937e-06,
+      "loss": 0.067,
+      "step": 1680
+    },
+    {
+      "epoch": 1.5835493754419043,
+      "eval_loss": 0.13660120964050293,
+      "eval_runtime": 3.6215,
+      "eval_samples_per_second": 11.874,
+      "eval_steps_per_second": 11.874,
+      "step": 1680
+    },
+    {
+      "epoch": 1.5929766674522743,
+      "grad_norm": 5.125,
+      "learning_rate": 4.282888229475767e-06,
+      "loss": 0.08,
+      "step": 1690
+    },
+    {
+      "epoch": 1.6024039594626442,
+      "grad_norm": 4.0625,
+      "learning_rate": 4.183976261127597e-06,
+      "loss": 0.0766,
+      "step": 1700
+    },
+    {
+      "epoch": 1.6118312514730144,
+      "grad_norm": 3.359375,
+      "learning_rate": 4.085064292779427e-06,
+      "loss": 0.0836,
+      "step": 1710
+    },
+    {
+      "epoch": 1.6165448974781995,
+      "eval_loss": 0.13567590713500977,
+      "eval_runtime": 2.8431,
+      "eval_samples_per_second": 15.124,
+      "eval_steps_per_second": 15.124,
+      "step": 1715
+    },
+    {
+      "epoch": 1.6212585434833844,
+      "grad_norm": 2.1875,
+      "learning_rate": 3.986152324431257e-06,
+      "loss": 0.0617,
+      "step": 1720
+    },
+    {
+      "epoch": 1.6306858354937543,
+      "grad_norm": 2.890625,
+      "learning_rate": 3.887240356083086e-06,
+      "loss": 0.1044,
+      "step": 1730
+    },
+    {
+      "epoch": 1.6401131275041245,
+      "grad_norm": 3.390625,
+      "learning_rate": 3.7883283877349162e-06,
+      "loss": 0.0601,
+      "step": 1740
+    },
+    {
+      "epoch": 1.6495404195144945,
+      "grad_norm": 2.59375,
+      "learning_rate": 3.689416419386746e-06,
+      "loss": 0.0494,
+      "step": 1750
+    },
+    {
+      "epoch": 1.6495404195144945,
+      "eval_loss": 0.13626021146774292,
+      "eval_runtime": 2.8485,
+      "eval_samples_per_second": 15.096,
+      "eval_steps_per_second": 15.096,
+      "step": 1750
+    },
+    {
+      "epoch": 1.6589677115248644,
+      "grad_norm": 2.625,
+      "learning_rate": 3.5905044510385763e-06,
+      "loss": 0.0858,
+      "step": 1760
+    },
+    {
+      "epoch": 1.6683950035352346,
+      "grad_norm": 2.890625,
+      "learning_rate": 3.4915924826904058e-06,
+      "loss": 0.0724,
+      "step": 1770
+    },
+    {
+      "epoch": 1.6778222955456044,
+      "grad_norm": 4.15625,
+      "learning_rate": 3.392680514342236e-06,
+      "loss": 0.113,
+      "step": 1780
+    },
+    {
+      "epoch": 1.6825359415507894,
+      "eval_loss": 0.13627412915229797,
+      "eval_runtime": 2.8152,
+      "eval_samples_per_second": 15.274,
+      "eval_steps_per_second": 15.274,
+      "step": 1785
+    },
+    {
+      "epoch": 1.6872495875559745,
+      "grad_norm": 2.484375,
+      "learning_rate": 3.2937685459940654e-06,
+      "loss": 0.0832,
+      "step": 1790
+    },
+    {
+      "epoch": 1.6966768795663447,
+      "grad_norm": 2.734375,
+      "learning_rate": 3.1948565776458957e-06,
+      "loss": 0.0748,
+      "step": 1800
+    },
+    {
+      "epoch": 1.7061041715767145,
+      "grad_norm": 5.625,
+      "learning_rate": 3.095944609297725e-06,
+      "loss": 0.0566,
+      "step": 1810
+    },
+    {
+      "epoch": 1.7155314635870846,
+      "grad_norm": 2.484375,
+      "learning_rate": 2.9970326409495554e-06,
+      "loss": 0.0772,
+      "step": 1820
+    },
+    {
+      "epoch": 1.7155314635870846,
+      "eval_loss": 0.1360086351633072,
+      "eval_runtime": 2.8263,
+      "eval_samples_per_second": 15.214,
+      "eval_steps_per_second": 15.214,
+      "step": 1820
+    },
+    {
+      "epoch": 1.7249587555974546,
+      "grad_norm": 2.96875,
+      "learning_rate": 2.8981206726013848e-06,
+      "loss": 0.0731,
+      "step": 1830
+    },
+    {
+      "epoch": 1.7343860476078246,
+      "grad_norm": 2.890625,
+      "learning_rate": 2.799208704253215e-06,
+      "loss": 0.0547,
+      "step": 1840
+    },
+    {
+      "epoch": 1.7438133396181947,
+      "grad_norm": 2.84375,
+      "learning_rate": 2.700296735905045e-06,
+      "loss": 0.0572,
+      "step": 1850
+    },
+    {
+      "epoch": 1.7485269856233798,
+      "eval_loss": 0.13581496477127075,
+      "eval_runtime": 3.4129,
+      "eval_samples_per_second": 12.599,
+      "eval_steps_per_second": 12.599,
+      "step": 1855
+    },
+    {
+      "epoch": 1.7532406316285647,
+      "grad_norm": 3.0625,
+      "learning_rate": 2.6013847675568747e-06,
+      "loss": 0.0869,
+      "step": 1860
+    },
+    {
+      "epoch": 1.7626679236389347,
+      "grad_norm": 1.234375,
+      "learning_rate": 2.5024727992087046e-06,
+      "loss": 0.0512,
+      "step": 1870
+    },
+    {
+      "epoch": 1.7720952156493048,
+      "grad_norm": 6.1875,
+      "learning_rate": 2.4035608308605344e-06,
+      "loss": 0.0951,
+      "step": 1880
+    },
+    {
+      "epoch": 1.7815225076596748,
+      "grad_norm": 4.09375,
+      "learning_rate": 2.3046488625123642e-06,
+      "loss": 0.108,
+      "step": 1890
+    },
+    {
+      "epoch": 1.7815225076596748,
+      "eval_loss": 0.13570758700370789,
+      "eval_runtime": 2.8749,
+      "eval_samples_per_second": 14.957,
+      "eval_steps_per_second": 14.957,
+      "step": 1890
+    },
+    {
+      "epoch": 1.7909497996700448,
+      "grad_norm": 3.5,
+      "learning_rate": 2.205736894164194e-06,
+      "loss": 0.0624,
+      "step": 1900
+    },
+    {
+      "epoch": 1.800377091680415,
+      "grad_norm": 3.046875,
+      "learning_rate": 2.106824925816024e-06,
+      "loss": 0.0644,
+      "step": 1910
+    },
+    {
+      "epoch": 1.8098043836907847,
+      "grad_norm": 2.703125,
+      "learning_rate": 2.0079129574678537e-06,
+      "loss": 0.0756,
+      "step": 1920
+    },
+    {
+      "epoch": 1.8145180296959698,
+      "eval_loss": 0.1355813890695572,
+      "eval_runtime": 2.8479,
+      "eval_samples_per_second": 15.099,
+      "eval_steps_per_second": 15.099,
+      "step": 1925
+    },
+    {
+      "epoch": 1.8192316757011548,
+      "grad_norm": 7.71875,
+      "learning_rate": 1.9090009891196836e-06,
+      "loss": 0.0725,
+      "step": 1930
+    },
+    {
+      "epoch": 1.828658967711525,
+      "grad_norm": 2.25,
+      "learning_rate": 1.8100890207715136e-06,
+      "loss": 0.066,
+      "step": 1940
+    },
+    {
+      "epoch": 1.8380862597218948,
+      "grad_norm": 2.296875,
+      "learning_rate": 1.7111770524233435e-06,
+      "loss": 0.072,
+      "step": 1950
+    },
+    {
+      "epoch": 1.847513551732265,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.6122650840751733e-06,
+      "loss": 0.092,
+      "step": 1960
+    },
+    {
+      "epoch": 1.847513551732265,
+      "eval_loss": 0.13533347845077515,
+      "eval_runtime": 3.3688,
+      "eval_samples_per_second": 12.764,
+      "eval_steps_per_second": 12.764,
+      "step": 1960
+    },
+    {
+      "epoch": 1.856940843742635,
+      "grad_norm": 2.671875,
+      "learning_rate": 1.5133531157270031e-06,
+      "loss": 0.0586,
+      "step": 1970
+    },
+    {
+      "epoch": 1.8663681357530049,
+      "grad_norm": 3.28125,
+      "learning_rate": 1.414441147378833e-06,
+      "loss": 0.0762,
+      "step": 1980
+    },
+    {
+      "epoch": 1.875795427763375,
+      "grad_norm": 3.75,
+      "learning_rate": 1.3155291790306628e-06,
+      "loss": 0.0956,
+      "step": 1990
+    },
+    {
+      "epoch": 1.8805090737685601,
+      "eval_loss": 0.13476963341236115,
+      "eval_runtime": 2.8911,
+      "eval_samples_per_second": 14.873,
+      "eval_steps_per_second": 14.873,
+      "step": 1995
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 2122,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 35,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6918461092528128.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5747935e6b612ba6cbefc4fc16d1fd863159328bb4c6d79b0afbb7afb99fc143
+size 5777

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff